מהנדסי הנתונים מפתחים שיטות למיצוי וניתוח נתונים לצורכי חיזוי והבנה אוטומטית של תבניות ותהליכים בנתונים בתחומים מגוונים, כמ

מהנדסי נתונים עוסקים בכל התהליכים של טיפול בנתונים, כולל איסוף, מיצוי, ניתוח, הצגה והסקת מסקנות. בעולם בו כמות המידע הדיגיטלי היומית המודפסת ע"ג נייר ומסודרת בערימה, שוות ערך לנסיעה הלוך ושוב לשמש 10 פעמים, יכולת הטיפול בנתונים הכרחית ומתעצמת מרגע לרגע.

הבחירות הכלליות לכנסת העלו לסדר היום הציבורי את שאלת מעורבותם של ממשלות זרות ושל גורמים אחרים בעיצוב דעת הקהל ובמידת השפעתם על זהות המנצחים במערכת הבחירות. בשנה שעברה עלתה חברת קיימברידג' אנליטיקה לכותרות כאשר התברר כי חברה זו סייעה בתשלום למטה הבחירות של הנשיא האמריקאי הנבחר, דונלד טראמפ, לנתח כמות גדולה של נתונים פרטיים שנאספו ברשת החברתית של פייסבוק. במסגרת זו ביצעה החברה הערכת מבנה אישיות ואופי המוני שלא באמצעות שאלון פסיכולוגי אלא באמצעות ניתוח העקבות הדיגיטליים שמשאירים המשתמשים ברשת החברתית. שיטה זו פותחה על ידי חוקרי אקדמיה ואפשרה למטה של טראמפ לשלוח לכל הבוחרים הפוטנציאליים מידע תעמולתי המותאם לאישיות שלהם. אירוע זה הוא דוגמה מעשית אחת ליכולות שעידן הביג-דאטה מביא עמו.

אני רוצה לשמוע עוד על התוכנית לתואר ראשון בהנדסת נתונים >>

המהפכה הדיגיטלית שבה אנו חיים מאפשרת לנו לייצר ולאגור כמויות עצומות של נתונים. ההערכה המקובלת היא שכמות הנתונים שנוצרה בעולם בשנתיים האחרונות גדולה משמעותית מכמות הנתונים שנוצרה לפני כן משחר ההיסטוריה ועד שנת 2015. כבר לפני שבע שנים העריכה חברת הייעוץ IDC שכל אדם משאיר אחריו עקבות דיגיטליים של כ-3 ג'יגה בַּיִת (באנגלית: byte) של נתונים בכל יום. רק לצורך המחשה - אם נדפיס את הנתונים הללו על גבי נייר ונסדר אותם בערימה, נוכל להגיע לשמש ובחזרה כ-10 פעמים. הצפי שעד שנת 2020 תגיע כמות הנתונים ל-146 ג'יגה לאדם ביום, דהיינו גידול של פי 50 בתוך עשור!

הנתונים אף הפכו לנכסים משמעותיים של חברות בינלאומיות. הכוח העיקרי של חברות כגון גוגל או פייסבוק גלום בנתונים שהם אוספים אודותינו ובניתוח חכם של הנתונים באופן שעונה על צרכיהן העסקיים. חברות שונות מנפיקות כרטיסי אשראי עם אפשרות להחזר כספי (cash back) רק כדי לקבל גישה להרגלי הצריכה שלנו. ולמרות הגידול האדיר בפעילות העסקית בתחום, ההערכה המקובלת היא שרק כחצי אחוז מכלל הנתונים שנאספים מנותחים בסופו של דבר.

חיים שלמים בדיגיטל, 10 מיליארד רשומות של מידע

שלוש מגמות אפשרו את הגידול העצום בכמות הנתונים. תחילה היו אלה מערכות המידע השייכות לארגונים (כגון בנקים וחברות תקשורת) שאפשרו איסוף נתונים מתמשך. בהמשך, עם הופעת האינטרנט והרשתות החברתיות, התעצמה מגמה זו כאשר המשתמשים החלו לתרום נתונים בעצמם. כמות הנתונים שכלל האנושות מייצרת כתוצאה משימוש באינטרנט וברשתות החברתית מגיעה למספרים עצומים. בכל דקה שחולפת נשלחות למעלה מ-16 מיליון הודעות WhatsApp ומבוצעים למעלה מ-3.5 מיליון חיפושים חדשים בגוגל. בכל דקה כחצי מיליון ציוצים חדשים מתפרסמים ברשת ה-Twitter, ואנו מעלים כרבע מיליון תמונות חדשות לפייסבוק. בכל דקה המשתמשים ברחבי העולם מעלים כ-700 שעות וידאו חדשות בעוד שיתר המשתמשים צופים בכ-5 מיליון סרטונים.

המגמה השלישית שמשפיעה רבות על גידול בכמות הנתונים היא האינטרנט של הדברים (IoT = Internet of Things). מדובר בנתונים שנוצרים אוטומטית על ידי המכונה וללא התערבות ישירה של המשתמשים האנושיים. כבר היום כל טלפון נייד מייצר כמות עצומה של נתונים באמצעות החיישנים שנמצאים בתוכו. במחקר שביצענו לאחרונה הסכימו חמישים נבדקים להתקין תוכנה על גבי הטלפון הנייד שלהם כדי שזו תדגום חלק קטן מהנתונים שמיוצרים על ידי החיישנים. לאחר כשנה של דגימה התקבל בסיס נתונים הכולל 10 מיליארדי רשומות. גם הרכבים האוטונומיים שצפויים לכבוש את כבישי ארצנו בעשור הבא כוללים מספר גדול של חיישנים העוקבים בצורה רציפה אחר הסביבה ואוספים נתונים כדי למנוע היווצרות של גודש תנועה או כדי להתריע בפני סכנות בכביש.

ההתפתחות האדירה הזו המלווה אותנו בשנים האחרונות בכל תחומי החברה, תעשייה, כלכלה, שירות, בידור, חינוך ורפואה יוצרת לארגונים ממשלתיים, ציבוריים ופרטיים אתגרים לא פשוטים, כאשר הם באים לנתח, להבין ולעשות שימוש בנתונים הנאגרים במערכות אלה כדי לשפר את יעילותם ורווחיותם. מורכבות הנתונים וכמויות הנתונים הנאספים מדי יום בארגונים אלו גורמים לקושי, ומאידך תורמים באיכותם להצלחתו של הארגון.

אני רוצה לשמוע עוד על התוכנית לתואר ראשון בהנדסת נתונים >>

נעים להכיר: תחום הביג-דאטה

על רקע זה התפתח בעשור האחרון המושג של ביג-דאטה (Big Data) או נְתוּנֵי עָתֵק בעברית. במקור, המושג ביג-דאטה מתייחס בעיקר למאגרי נתונים עצומים כל כך עד ששיטות מסורתיות לעיבוד נתונים אינן מתאימות עוד. אולם לאחרונה רבים נוטים להשתמש במושג ביג-דאטה כשם כולל לשימוש בטכניקות מתקדמות לעיבוד וניתוח נתונים ללא קשר לגודל הנתונים. אפשר לאפיין כל פתרון בסביבת Big Data על בסיס מספר ממדים שונים:

1. נפח (Volume) – מתייחס לכמות הנתונים שנאגרת בבסיס הנתונים.

2. מהירות (Velocity)- מתייחס לקצב שבו מתווספים נתונים חדשים למאגר.

3. גיוון (Variety)- מתייחס למגוון הנתונים הנשמרים במאגר. כיום ניתן לאסוף באותו המאגר מגוון רחב של נתונים הכולל: נתונים מספריים, טקסטואליים, תמונה, שמע, וידאו, חישה וכו'

פרט לשלושת הממדים העיקריים, יש שמוסיפים שבעה ממדי V נוספים עד להשלמת 10 ממדים, בפרט: Variability (חוסר עקביות של בסיס הנתונים), Veracity (אי-אמינות), Volatility (אי-זמינות), Validity (נכונות), Vulnerability (פגיעות), Value (ערך), Visualization (ויזואליזציה).

השלבים העיקרים בפיתוח מערכות מבוססי נתוני עתק:

1. איסוף הנתונים הגולמיים – בשלב זה הנתונים הגולמיים נאספים ומאוחסנים בתוך בסיסי הנתונים. לרוב שלב זה נעשה ממילא כחלק מהתפעול השוטף של מערכת המידע ולפני שמחליטים על השימושים העתידיים שייעשו בנתונים. במרבית הארגונים נוקטים בגישה של "אסוף כפי יכולתך" ושומרים את כל הנתונים.

2. הגדרת מטרות המערכת – בשלב זה מחליטים מה המטרה העיקרית של מערכת הביג-דאטה ואילו מטרות מצפים להשיג.

3. עיבוד מקדים – בשלב זה מכינים את הנתונים לצורך ניתוחם. העיבוד המקדים כולל מספר רב של שלבי משנה כגון:

טיוב הנתונים – בשלב זה בודקים את איכות הנתונים ומבצעים תיקון לנתונים משובשים כגון: ערכים מחוץ לטווח האפשרי (למשל, גיל שלילי של לקוח) או צירופים לא הגיוניים (לקוח בן 12 שיש לו שלושה ילדים).
זיהוי והגדרה של מאפיינים בעלי משמעות שניתן לחלצם מתוך הנתונים הגולמיים ואשר עשויים לסייע בניתוח מושכל של הנתונים. בשלב זה מקובל להיעזר בידע של מומחי התוכן במערכת.
חילוץ מאפיינים – בשלב זה מיישמים את המאפיינים שהוגדרו בשלב הקודם וממירים את הנתונים הגולמיים למבנה החדש.ד. בחירת הנתונים שישמשו לניתוח - בשלב זה אנו בוחרים את הרשומות שתשתתפנה בבניית המדגם ואת המאפיינים שישמשו לייצוגם, וזאת כדי להקל על השלב הבא ולהבטיח את טיב המודל שיתקבל.
בחירת הנתונים שישמשו לניתוח - בשלב זה אנו בוחרים את הרשומות שתשתתפנה בבניית המדגם ואת המאפיינים שישמשו לייצוגם, וזאת כדי להקל על השלב הבא ולהבטיח את טיב המודל שיתקבל.

4. ניתוח הנתונים – בשלב זה נעזרים בשיטות ואלגוריתמים לאפיון הנתונים באופן שיאפשר חיזוי או הערכה של נתונים חדשים בשלבים הבאים. לרוב התוצר של שלב זה הוא מודל או מודלים המשרתים את המטרות שהוגדרו.

5. בחינת טיב המודל – בשלב זה מוודאים כי המודל שהתקבל אכן תקף. אחת השיטות המקובלות היא לבחון את תקפות המודל על גבי נתונים שלא שימשו בשלבים הקודמים וזאת כדי להימנע מתופעות לא רצויות כגון התאמת יתר (Overfitting) לנתוני האימון. התאמת יתר מתרחשת כאשר המודל מורכב יתר על המידה. תופעה זו גורמת למודל ללמוד רעשים סטטיסטיים בנתונים כאילו הם מייצגים תופעות אמיתיות ובכך לאבד את היכולת להכליל.

6. יישום המודל – בשלב זה משתמשים במודל באופן שוטף ורציף.

התהליך בכללותו הנו תהליך איטרטיבי ובהתאם להיזון החוזר המתקבל מיישום המודל, אפשר לחזור לכל אחד מהשלבים הקודמים ולשפר את המודל.

שלב הניתוח: לדעת מה תקנה, עוד לפני שמתעורר בך הצורך

השלב העיקרי והמשמעותי ביותר מבחינת היכולת להשיג ערך מוסף עבור החברה הוא שלב ניתוח הנתונים. פיתוח טכניקות ניתוח נתונים רבות ושונות במהלך השנים הוביל לתחום חדש המכונה כיום מדע נתונים (Data Science). תחום זה עוסק בניתוח נתונים לשם הפקת מידע וידע, קבלת החלטות ומיכון של מערכות מתוך מקורות פנימיים וחיצוניים לארגון במטרה לתמוך ולשפר את ההחלטות הארגון. העובד שאחראי למיצוי ידע מנתונים תוך שימוש בשיטות ממוחשבות, מכונה מהנדס נתונים (Data Engineer), והוא בדרך כלל משלב יכולות מקצועיות משלושה תחומים עיקריים: פיתוח תוכנה, מתמטיקה והבנה עסקית.

הנתונים הפכו עם השנים לגורם מכריע בסביבה התחרותית ומשמש את כל הרבדים בארגון, החל בהחלטות תפעוליות וכלה בשיפור התכנון האסטרטגי. בארגונים מתקדמים מבינים היום שהנתונים הרבים הנאגרים במערכות המידע של הארגון (למשל, מידע על לקוחות, על תהליכים ועל עסקאות) הם אחד מנכסיו העיקריים של הארגון, ושניתוח מושכל שלהם מייצר יתרון גדול לבעליו.

ניתוח הנתונים הנאספים על אדם מסוים עשוי לעיתים לגלות דברים אודותיו לפני שהוא בעצמו מודע להם. הדוגמה הידועה ביותר בתחום היא המקרה שהתרחש בארצות הברית. רשת הקמעונאות Target החליטה לנתח את נתוני הרכישות של לקוחותיה. הם הציבו מטרה לאתר משפחות צעירות עוד בשלבים הראשונים של ההיריון כדי להציע להן מוצרים מתאימים. לשם כך הם ניתחו את הרגלי הצריכה של הנשים ברשת, זמן רב לפני שהן החלו לרכוש מוצרי תינוקות. ניתוח זה גילה כי הרגלי הצריכה משתנים לעיתים עוד לפני שהנשים עצמן גילו שהן בהיריון. על בסיס יכולת החיזוי הזו החלה חברת Target לשלוח קופונים מתאימים לנשים שהמודל מעריך שהן כרגע בהיריון. הדבר אף גרם לתקרית לא נעימה שבה לקוח כועס נכנס לאחד מסניפי הרשת ודרש לדבר עם מנהל: "הבת שלי קיבלה את זה בדואר!", אמר. "היא עדיין בתיכון, ואתם שולחים לה קופונים לבגדי תינוקות ועריסות? האם אתם מנסים לעודד אותה להיכנס להריון?". מנהל הסניף התנצל והבטיח להסיר את הבת מרשימת התפוצה לקופונים. מספר ימים לאחר מכן התקשר האב שוב לסניף ובקול נבוך אמר כי "מסתבר שהיו כמה פעילויות בבית שלי שלא הייתי מודע להן לגמרי. בתי אמורה ללדת באוגוסט. אני חייב לך התנצלות".

הקשר בין ביג דאטה לבינה מלאכותית

במילים פשוטות, בינה מלאכותית (Artificial Intelligence) היא דיסציפלינה שנועדה לחקות ולדמות מגוון יכולות אנושיות באמצעות מחשב ובכך להפכו למחשב "חכם". למידה חישובית (Machine Learning) היא תת-תחום בבינה מלאכותית שנועדה לאפשר למערכות ויישומי מחשב ללמוד ולהשתפר בהשגת מטרותיהן מתוך נתונים שנאספו ואשר מייצגים את התנסויות העבר. למידה חישובית אחראית במידה רבה לפריצות הדרך שאנו חווים בשנים האחרונות בתחום הטכנולוגי.

אולי השימוש הפופולרי הראשון בלמידה חישובית הוא מנוע החיפוש של גוגל. היכולת שלנו להזין שאילתת חיפוש או סתם שאלה ולקבל תשובות רלוונטיות, נובעת מהעובדה שמנוע החיפוש של גוגל למד מה התשובה הרלוונטית מתוך טריליוני חיפושים שבוצעו על ידי משתמשים אחרים. כך גוגל מסוגלת אף להשלים את מילות החיפוש עוד לפני שהספקנו להקליד אותן. כל חיפוש שאנו מבצעים בגוגל מאפשר למערכת שלהם להמשיך ללמוד ולהשתפר. מאחורי השירות הפשוט לכאורה עומדים חוות שרתים הכוללות מיליוני מחשבים עם כוח עיבוד חזק במיוחד.

בשנים האחרונות חלו התפתחויות משמעותיות בתחום הלמידה החישובית עם הפיכת השיטה של למידה עמוקה (Deep learning) למעשית. למידה עמוקה אפשרה להשיג פריצות דרך המאפשרות למחשב לחקות יכולות אנושיות. למשל, לפי האתגר ImageNet, החל משנת 2015 יכולת המחשב לזהות עצמים בתמונה עולה על זו של אדם ממוצע. אחת היכולות השכליות הראשונות והחשובות ביותר שרוכשים תינוקות בשנתם הראשונה היא זיהוי פנים של אנשים שונים. אך גם בזה המחשב עולה לאין שיעור על בני אדם. שערו בנפשכם את יכולתכם כאנשים מערביים להבחין בין שני אנשים ממוצא סיני או שני אחים תאומים. המחשב עולה על האדם בפעולה זו, בין היתר כיוון שהוא הוזן בכמות עצומה של דוגמאות, כמות רבה מזו שאנו בני התמותה נחשפים אליה במהלך חיינו.

בתחום הראייה הממוחשבת המחשב מצליח גם במשימות מורכבות יותר כגון פענוח אוטומטי של תצלומי ממוגרפיה באיכות דומה, ולעיתים באיכות שאף עולה על זו של רופא רדיולוג מומחה. גם במקרה זה התקבלה היכולת העל-אנושית מתוך למידה חישובית של מאגרים הכוללים מיליוני תצלומי ממוגרפיה מתויגים עם אבחנות קודמות. ההצלחות אינן רק נחלתם של יישומי הראייה הממוחשבת. בשנים האחרונות חלו התפתחויות משמעותיות ביכולת המחשב להבין שפת דיבור כמו גם היכולת לנתח טקסטים כתובים.

עקומת הלמידה של המחשב

הלמידה העמוקה מבוססת בעיקרה על מודל של רשת עצבית מלאכותית (ANN-Artificial Neural Network) שקיבלה את ההשראה שלה מהתהליכים המתקיימים במוחם של בעלי החיים מתקדמים. המודל הראשון של רשת עצבית מלאכותית פורסם עוד בשנות ה-40 של המאה הקודמת, אך השימוש במודל הפך למעשי רק בשנות האלפיים בגלל מספר התפתחויות שחברו להן יחדיו:

התפתחויות בחומרת המחשב – השיפור בביצועים של המעבדים ובפרט של המעבדים הגרפיים (שבמקור שימשו בעיקר בתחום משחקי המחשב) כמו גם הגידול בנפח זיכרונות המחשב מאפשרים לאמן רשת עצבית גדולה בזמן סביר.
התפתחויות באלגוריתמים לאימון רשת עצבית אשר מאפשרות לאמן רשתות עמוקות של קשרים בצורה נכונה יותר.

זמינות של כמות גדולה של נתונים לאימון. התרומה המשמעותית ביותר להתפתחות הבינה המלאכותית היא ללא ספק ה-Big Data שהיא שחקן הכרחי במשחק משום שבחלק מאתגרי הבינה המלאכותית נדרשת כמות עצומה של נתונים כדי לאמן את המכונה. זאת בניגוד לבני אדם שדי להם במספר מצומצם של דוגמאות כדי ללמוד מושג חדש. למשל, כדי ללמד פעוטות להבחין בין כיסא לשולחן, די בדוגמאות ספורות. אולם את המכונה יש להזין בכמות גדולה של דוגמאות כדי שתוכל להבחין בין כיסא בעל ארבע רגליים לבין שולחן בעל ארבע רגליים או כדי שתוכל להבין שגם שולחן מרובע וגם שולחן עגול הם שולחנות. בעידן ה-Big Data איסוף הכמות הדרושה של דוגמאות ואחסונן בבסיס נתונים הפך למשימה פשוטה, וכך ניתן להעמיד בפני המכונה כמות גדולה של נתונים שלא הייתה ברשותנו בעבר.

שולחנות קפה מתוך קטלוג איקאה

שולחנות קפה מתוך קטלוג איקאה 2019

קיימים מודלים שונים של רשתות עצביות. המשותף לכולם הוא קיומם של צומתי עיבוד המייצגים את הנוירונים הביולוגיים שקשורים זה לזה. רשת עצבית מלאכותית מאופיינת על ידי מספר הנוירונים, מבנה הרשת, מספר השכבות, אופן החיבור בין הנוירונים ברשת וכדומה. תהליך הלמידה נועד לקבוע את עוצמת (משקל) הקישור של כל קשר ברשת העצבית. הלמידה מתבצעת על ידי "תגמול" "וענישה" של קשרים שונים ועל ידי חשיפת רשת הנוירונים לדוגמאות רבות. "תגמול" ו"ענישה" של הקשרים מתבצע על ידי שינוי המשקל של אותו הקשר, כך שכל קשר ש"מתוגמל" – יגדל משקלו, וכל קשר ש"נענש" – ירד משקלו. לרוב, רשתות עצביות מורכבות ועמוקות יותר יכולות ללמוד משימות מורכבות יותר.

לא הכל ורוד

עידן ה-Big Data טומן בחובו גם סכנות. הקלות הבלתי נסבלת שבה נאספים נתונים אודותינו, עלולה לפגוע משמעותית בפרטיות שלנו. נתון בודד כשלעצמו עשוי להיות בלתי מזיק. אך השילוב של נתונים שנאספים לאורך זמן עשויים לגלות טפחים רבים, גם כאלה שלא היינו רוצים לגלות. חלק מהנתונים אנו מנדבים בעצמנו למשל, כאשר אנו מפרסמים Post ברשת החברתית. אך חלק אחר מהנתונים מתפרסמים על ידי אחרים, למשל, כאשר החברים שלנו ברשת החברתית מזכירים אותנו ב-Post שלהם או מעלים תמונה שבה אנו מופיעים. זו הסיבה שבעידן הנוכחי קשה הרבה יותר להסתיר, למשל, נטייה מינית. סקירת פרופילים של חבריו של פלוני ברשת חברתית, די בה כדי להסיק פרטים גם לגביו, 'כלשון הפתגם 'אמור לי מי הם חבריך - ואומר לך מי אתה".

לפיכך ברור שלעיתים איסוף הנתונים וניתוחם באתרי האינטרנט השונים מיטיבים עם בעלי האתר על חשבון האינטרס שלנו. למעשה, בכל פעם שאנו רוכשים מוצר באינטרנט או בוחרים את הטיסה הבאה, סביר להניח שמאחורי הקלעים קיים מנגנון מבוסס-למידה חישובית המעריך את המחיר שאנו נהיה מוכנים לשלם עבור המוצר או השירות, ובהתאם לכך קובע את מחירו.

לאור כל זאת החלו ממשלות ברחבי העולם לפתח רגולציה שתגביל את איסוף הנתונים הקשורים בבני אדם ולהשתמש בהם. למשל, חוק הגנת הפרטיות בישראל מסדיר את פעילותם של מאגרי מידע הכוללים מידע פרטי ורגיש. במסגרת חוק זה כל בעל מאגר מידע מסוג זה חייב להירשם אצל רשם מאגרי המידע, למנות מנהל שיהיה אחראי עליו, לפרט את המטרות שלשמן הוקם המאגר ולפעול אך ורק לפיהן. בנוסף כל אדם זכאי לעיין במידע המתייחס אליו המוחזק במאגר מידע (למעט מאגרי מידע של מערכת הביטחון), ובעל המאגר חייב לאפשר לו לעיין במידע זה.

האיחוד האירופי הוא ללא ספק מוביל הרגולציה המתקדמת בתחום. כללי ה-GDPR (General Data Protection Regulation) שנחקקו בשנת 2016 נכנסו לתוקף בשנה שעברה וכוללים מספר זכויות ובכללן: הזכות להישכח, שלפיה לכל אדם עומדת הזכות למחיקת כל הנתונים שנאספו אודותיו או הזכות להתנגד לעיבוד אוטומטי של נתוניו, דהיינו, פלוני רשאי לסרב שתתקבלנה החלטות בעניינו כתוצאה מניתוח אוטומטי של הנתונים שנאספו לגביו. רגולציה כבר בתוקף וחברות שלא מקיימות את תנאיה צפויות לקנסות משמעותיים שכוללים אחוזים מרווחי החברה.

להתראות, אנחנו כבר לא צריכים אותך

ביג דאטה ובינה מלאכותית גם מעצבים מחדש את שוק העבודה. מקצועות הצווארון הכחול (כגון נהגי משאית ופועלי ייצור) צפויים להיעלם מהעולם. אך גם מקצועות הצווארון הלבן עשויים להיות מושפעים מהתפתחויות בתחום. למשל, לא נזדקק עוד לרופא רדיולוג כדי לפענח תוצרים של דימות רפואי. המחשב יכול למלא את המשימה לאחר שהוא אומן באמצעות כמות גדולה של נתונים ממקרי עבר שפוענחו ותויגו על ידי רדיולוגים.

ההשערה הרווחת היא שבעשור הבא יוכל המחשב לפתח מודעות עצמית ויכולות קוגניטיביות אוטונומיות אשר יאפשרו לו לעצב עצמאית מודלים לקבלת החלטות. מודלים כאלו עשויים להוביל גם למשברים שכיום עדיין מנוהלים ידי בני אדם. למשל, בשנת 2010 התרחש אירוע המכונה Flash Crash שבו מדד הבורסה הראשי בניו-יורק נפל פתאומית וללא כל הסבר, ולאחר זמן קצר התאושש כאילו מעולם לא התרחש. חקירה שבאה בעקבות האירוע מגלה שהגורם העיקרי לקריסה היו מחשבי אַלְגו-טריידינג (או בעברית מסחר אלגוריתמי) אשר מחליטים בעצמם לבצע פעולות של קנייה ומכירה בקצב גבוה על ידי ניתוח אוטומטי של נתוני המסחר. מאז התרחשו עוד מספר אירועי קריסה זמניים שנבעו מניתוח אוטומטי של נתונים.

אירוע מעניין נוסף התרחש בשנת 2016 כאשר חברת מייקרוסופט שילבה צ'טבוט (רובוט שיחה) שנועד לצייץ אוטונומית ברשת ה-Twitter. האינטראקציה שהייתה לרובוט עם משתמשים אנושיים הפכה אותו בתוך 24 שעות למיזנתרופ וגזען עד שהמהנדסים של מיקרוסופט נאלצו לנתקו לאלתר מהרשת. סינגולריות טכנולוגית היא נקודת הזמן שבה תשיג הבינה המלאכותית יכולת אינטלקטואלית הגבוהה מזו של בני אדם. יש הרואים בכך את ההמצאה האחרונה של האנושות. מאותו הרגע תוכל המכונה להפיק בעצמה את ההמצאות הבאות. נקודת הזמן הזו מעלה הרבה שאלות פילוסופיות ודילמות מוסריות.

בשלב זה ניתן לומר שרבה התועלת שהאנושות מפיקה מהיכולת לנתח נתונים מהסכנות והבעיות שהיא טומנת בחובה, כולל גורמים שמנצלים את הטכנולוגיה לרעה. נראה שבשנים הקרובות השימוש בתחום ילך ויתרחב לתחומים רבים נוספים תוך כדי הבנה של המגבלות והסכנות.

אני רוצה לשמוע עוד על התוכנית לתואר ראשון בהנדסת נתונים >>

המידע נכתב על ידי פרופ' ליאור רוקח, ראש המחלקה להנדסת מערכות תוכנה ומידע, אוניברסיטת בן-גוריון בנגב, סא"ל (במיל') רמי שקד, מרצה וחוקר טכנולוגיות למידה, לשעבר מפקד בית הספר למקצועות המחשב של צה"ל, פרופ' ברכה שפירא, ראש התוכנית להנדסת נתונים, אוניברסיטת בן-גוריון בנגב.

מהנדסי נתונים: כל מה שרציתם לדעת

​חיים שלמים בדיגיטל, 10 מיליארד רשומות של מידע ​

​

נעים להכיר: תחום הביג-דאטה

שלב הניתוח: לדעת מה תקנה, עוד לפני שמתעורר בך הצורך​

​הקשר בין ביג דאטה לבינה מלאכותית

עקומת הלמידה של המחשב

​​לא הכל ורוד

​להתראות, אנחנו כבר לא צריכים אותך

חיים שלמים בדיגיטל, 10 מיליארד רשומות של מידע

שלב הניתוח: לדעת מה תקנה, עוד לפני שמתעורר בך הצורך

הקשר בין ביג דאטה לבינה מלאכותית

לא הכל ורוד

להתראות, אנחנו כבר לא צריכים אותך