אל תתנו לנתונים לדבר

(1,360 מילים)

נניח ששאלת המחקר לפנינו היא זו: מהו הקשר בין מספר הסיבובים של המנוע במכונית מסוימת ובין המהירות שלה? זו שאלה אמפירית למהדרין, והדרך היחידה לענות עליה עוברת דרך נתונים. איך היינו עורכים מחקר כזה אילו לא הייתה לנו אפשרות לערוך ניסוי?

בעולם מושלם, היו לנו המווווון תצפיות. כל תצפית מתארת את מספר הסיבובים של המנוע ואת מהירות המכונית ברגע מסוים. היינו מסדרים את כל התצפיות על מערכת צירים, והיינו מקבלים גרף פחות או יותר כזה:

123

אשריך החוקרת שיש לה כל כך הרבה נתונים! כשאלו הנתונים, לא צריך לחשוב יותר מדי. הנתונים מסבירים כמעט הכל. יש קצת רעש, כצפוי. הרי כל מיני גורמים משפיעים על הקשר בין המהירות והסל"ד (רוח, שיפוע הכביש), אבל בגדול אפשר פשוט לראות את הקשר בין מהירות הרכב ובין הסל"ד של המנוע, ואיך החלפת הילוך כל בערך עשרים קמ"ש יוצרת קפיצה בקשר בין המהירות והסל"ד. אבל מה תעשה חוקרת שאין לה כל כך הרבה נתונים? אם למשל תקחו בדיוק את הגרף הקודם, ופשוט תוציאו ממנו חלק משמעותי מהמדגם, תקבלו תמונה כזו:

123

עכשיו המצב הרבה פחות ברור. אולי לנו, אחרי שראינו את הגרף הקודם, די ברור מה קורה פה, אבל זה לא כל כך ברור מהנתונים עצמם. זה נראה כמו ענן די אופקי, אולי עם שיפוע קל כלפי מעלה, עד לאיזור המאה קמ"ש, ואז נראה שיש עליה. והסכנה – אם את חוקרת שכל מה שהיא רוצה לעשות בחיים זה להריץ רגרסיה ו"לתת לנתונים לדבר", את תקבלי קו רגרסיה כזה:

123.png

המקדם יהיה מובהק סטטיסטית (אפילו אם תוסיפי מהירות בריבוע לא תקבלי משהו שונה מהותית), ואת תחשבי שהבנת את הקשר בין סל"ד לקמ"ש. יש רק בעיה אחת – אם תריצי רגרסיה תקבלי, בפשטות, תשובה לא נכונה לשאלת המחקר. "לתת לנתונים לדבר" פשוט לא עובד כאן.

למה בעצם נפלת? במילה אחת: תיאוריה.

ניגשת לתרגיל האמפירי בלי שום חשיבה תיאורטית על הקשר בין מנועים ומהירות. הרגרסיה אולי נתנה לך מדידה מאד מדויקת  של הקשר הליניארי בין סל"ד לקמ"ש, אבל מאיפה ההנחה שיש קשר ליניארי? לא עומד מאחוריה שום נימוק תיאורטי משכנע. לעומת זאת, אם למדת גם הנדסה, פירקת כמה מנועים, והבנת את הרעיון של הילוכים, היית יכולה להתחיל את המחקר שלך בהצגת תיאוריה של הקשר בין מהירות הרכב וסל"ד המנוע. התיאוריה הייתה מסבירה שיש קשר ליניארי, אבל שבמרווחים מסוימים יש קפיצה בקשר הזה. התיאוריה מנבאת שהנתונים ייראו פחות או יותר בצורה כזו:

123.png

שימו לב שלתיאוריה אין מספרים. התיאוריה לא קובעת את האורך של כל קו, או את השיפוע שלו, או מתי הוא קופץ. התיאוריה לא קובעת אם 27 קמ"ש הולך עם 1,200 סל"ד או עם 80 סל"ד. את כל אלו רק הנתונים יכולים להגיד לנו. אבל אם אנחנו משתמשים בתיאוריה הזו, אז אנחנו כבר לא מביטים בענן הנתונים אובדי עצות ומנסים לדחוף איזה רגרסיה, רק כדי לקבל תשובה שגויה. התיאוריה עושה סדר בנתונים, ומאידך – הנתונים הופכים את התיאוריה לקונקרטית, ועוזרים לנו לשים מספרים ברורים על התיאוריה שלנו – כמה סל"ד הולך עם כמה קמ"ש.

ועכשיו, כלכלה

Gravity with Gravitas

מסחר בינלאומי הוא תחום שתמיד חסרים בו נתונים. פשוט אין כל כך הרבה מדינות בעולם… אולי אם היו בעולם 50,000 מדינות, והן היו מפוזרות בצורה מאד מוצלחת על הגלובוס החיים היו יותר קלים. אבל זה לא העולם שאנחנו חיים בו.

ובעולם דל המדינות שלנו, יש דפוס אחד במסחר הבינלאומי שחוזר על עצמו מחקר אחר מחקר, בצורה יציבה, בכל מדגם של מדינות, ובכל תקופה: ערך הסחר בין שתי מדינות נמצא ביחס ישר לגודל הכלכלי שלהן (תמ"ג), ונמצא ביחס הפוך למרחק ביניהן. הדפוס הזה זכה לכינוי "גרביטציה" בגלל הדמיון שלו למשוואת הגרביטציה בפיזיקה. [פיזיקאים שמרגישים צורך להזכיר שברגיבטציה המרחק הוא ריבועי – התאפקו הפעם] וכך בערך הוא נראה במשוואה:

123.png

הסחר בין מדינה i למדינה j פרופורציוני לתמ"ג של כל אחת מהן, ונמצא ביחס הפוך למרחק ביניהן.

עם קצת מאמץ (לוקחים לוגים) הופכים את המשוואה הזו לרגרסיה לינארית, ומה אומר לכם – חבל על הזמן של רגרסיה. בתקופות שונות, עם נתונים שונים, מדינות שונות, הכל – יוצא פיקס. יתר על כן המקדמים של הרגרסיה די דומים במדגמים השונים. עם השנים כל מיני חוקרים זרקו כל מיני משתנים נוספים לרגרסיה הזו. למשל – האם שתי המדינות חולקות שפה משותפת? רקע משפטי או קולוניאלי דומה? וכו'. והרגרסיות יפות, והמקדמים מובהקים, ורק דבר אחד חסר בסיפור הזה – תיאוריה. למה שיתקיים יחס כזה?

תאמרו – עזוב אותך מתיאוריה. "תן לנתונים לדבר". יש דפוס כל כך יציב, למה להרוס? וכאן נכנסת לסיפור "חידת הגבולות".

חידת הגבולות היא תוצאה מפורסמת למדי שהולכת בערך ככה: אם מוסיפים לרגרסיה של הגרביטציה משתנה גבול (כלומר – האם יש גבול בין שתי ה"מדינות"), המשתנה הזה יוצא יותר מובהק ממובהק, וגדול בקטע פסיכי. מה זאת אומרת? נניח שמודדים את ערך הסחר בצפון אמריקה גם בין מדינות בתוך ארה"ב, וגם בין מחוזות בתוך קנדה, וגם בין ארה"ב וקנדה. חידת הגבולות היא התוצאה לפיה הסחר בין שתי מדינות בתוך ארה"ב גדול פי  22(!) מאשר הסחר בין מדינה בארה"ב ומחוז בקנדה גם כאשר אין הבדל במרחק למחוז הקנדי לעומת המרחק למדינה בתוך ארה"ב, ואין הבדל בגודל בין המחוז הקנדי והמדינה בארה"ב. אז זה שיש פער זה לא מפתיע. אבל פי פאקן 22? קצת מוזר לא? מוריס אובסטלפלד וקנת' רוגוף, סוג של זקני השבט של התחום, הכתירו פעם את "חידת הגבולות" בתוך אחת משש השאלות הפתוחות החשובות ביותר במחקר המקרו-הבינלאומי.

עד שהגיעו ג'יימס אנדרסון ואריק ון-וינקופ, ופתרו את החידה. כן, כבר ניחשתם – הם הסבירו שאם ניגשים לנתונים בלי תיאוריה ברורה מקבלים תוצאות לא נכונות. בקיצור (יחסי) – מה הייתה הבעיה במחקרים נטולי התיאוריה?

כבר במחקרים המוקדמים היה ברור שהמרחק בין שתי מדינות מפספס משהו חשוב. קחו למשל אי דמיוני באוקינוס השקט שנמצא 4,500 קילומטרים מחופי ארה"ב. המרחק של האי הזה מקליפורניה דומה למרחק של ניו-יורק מקלפורניה. אבל יש הבדל גדול מאד בין האי ובין ניו-יורק. בעוד שעבור האי קליפורניה זה יעד הסחר היחיד במרחק של אלפי קילומטרים, ניו-יורק קרובה לעוד המון שותפות סחר פוטנציאליות. כלומר, צריך לקחת בחשבון לא רק כמה שתי מדינות קרובות אחת לשניה, אלא גם כמה כל אחת מהן קרובה למדינות אחרות. האם הן אי, שיכול לסחור רק עם קליפורניה, או ניו-יורק, שיכולה לסחור עם המון שכנות?

האופן שבו מחקרים מוקדמים ניסו להתמוד עם הקושי הזה היה להוסיף לרגרסיה משתנה של "מרחק ממוצע ממדינות אחרות". זה היה משתנה מאד אינטלגנטי. עבור כל מדינה עשו ממוצע משוקלל של המרחק של המדינה מכל המדינות האחרות בעולם, כשהמשקל של כל מדינה בממוצע הוא התמ"ג שלה. כך, אם אתה ניו-יורק, שקרובה לעוד המון מדינות, ועוד למדינות גדולות, אז אתה "קרוב לכל העולם". ואם אתה אי, או אם יש לך גבול רק עם ירדן, סוריה, ומצרים, אז אתה "רחוק מכל העולם". לקחו את המשתנה הזה, והוסיפו לרגרסיה. חביב, אינטלגנטי – אבל את חידת הגבולות זה לא פתר. אה כן, וגם אין שום בסיס תיאורטי למשתנה הזה. ממוצע זה נחמד, אבל למה בדיוק לחשב אותו ככה? והאם הוא שייך לרגרסיה בכלל?

אנדרסון וון-וינקופ הסבירו שאין לזה צורה, והתחילו לבנות מודל תיאורטי מהבסיס, בהתבסס על עקרונות ראשונים, שהניבוי המרכזי שלו הוא – לא תאמינו – שהסחר בין שתי מדינות יהיה פרופורציוני לגודל שלהן, וביחס הפוך למרחק ביניהן. אבל המודל שלהם נתן עוד משהו חשוב: הוא הראה איך בדיוק צריך לקחת בחשבון את ה"מרחק מכל העולם". מסתבר שזה מסובך… בגלל שחשוב לא רק כמה אתה קרוב למדינות אחרות, אלא גם כמה המדינות האחרות האלה קרובות למדינות אחרות נוספות – האם הן חייבות לסחור איתך, או שיש להן אלטרנטיבות אחרות? הגיוני, כשחושבים על זה. אבל איך לעזאזל לוקחים את הרעיון הזה לנתונים? המודל של אנדרסון וון-וינקופ מסביר בדיוק איך, ומראה איזה משתנים בדיוק צריך לבנות (סוג של מדד מחירים), ואיזה רגרסיה צריך להריץ.

ואז אחרי כל המתמטיקה והבלאגן, הם ניגשו לנתונים, בנו את המשתנים שיש להם ביסוס תיאורטי, ובדקו מה קורה לחידת הגבולות. ומה אתם יודעים – היא כמעט נעלמת. מדינות בארה"ב עדיין סוחרות זו עם זו יותר מאשר עם מחוז קנדי במרחק וגודל דומה, אבל רק פי 1.25 עד פי 2, ולא פי 22 יותר. אפשר לחזור לישון בשקט

האם הם צודקים?

כמובן שלא. המודל שלהם עמוס לעייפה הנחות מפשטות לא ריאליות, ולא צריך לקחת את התוצאות שלהם יותר מדי מילולית. אבל הם עשו צעד גדול בכיוון הנכון, ועל הדרך העבירו לנו שיעור חשוב על חשיבותה של תיאוריה. לא במקרה המאמר הזה הוא אחד המאמרים המצוטטים ביותר בכלכלה אי פעם (עם מעל 7,200 ציטוטים אקדמיים), למרות שכשלעצמה השאלה שהוא פותר לא עד כדי כך מעניינת. בינינו – למי אכפת מה ההבדל בין הסחר של מדינות ארה"ב עם עצמן לעומת הסחר שלהן עם מחוזות קנדיים? התרומה האמיתית של המאמר הזה הייתה שהוא הראה דרך מוצלחת מאד לעשות סדר בנתונים, גם כאשר – בעיקר כאשר – מגלים בהם משהו שנראה אבסורד, כמו חידת הגבולות. אפשר – צריך! – לריב על התיאוריה. אבל אסור לשכוח את החשיבות שלה, וזו טעות להניח שמחקר כלכלי עם פחות תיאוריה יהיה יותר מוצלח, או יותר מדעי.

12 תגובות בנושא ״אל תתנו לנתונים לדבר"

  1. אתה מערבב בין תאוריה להיפותזה וזה משמש מכחישי מדע. לפני שיש לך ראיות אמפיריות תומכות או שבדקת את זה מספיק זה רק היפותזה.

    אחרי שיש לך ראיות אמפיריות ומספיק ביסוס זה תאוריה.
    תאוריה זה לא סתם השערה\היפותזה, אלא משהו מבוסס על ראיות אמפיריות.
    זה חשוב, כי הרבה אנשים אוהבים להגיד זה רק תאוריה על אבולציה, וגם על תאוריות אחרות.

    אם יש משהו שאני זוכר מספר בנושא של פילוסופיה של המדע, שם אין הוכחות כמו במתמטיקה, כיוון שהכל מבוסס על ראיות אמפיריות, אם יהיו ראיות אמפיריות חדשות, אז התאוריה תשתנה כמו שהיא משתנה כל הזמן בעולם המדע.

    זה עדיין לא הופך תאוריה להיפותזה. היפותזה זה לפני שבדקת מול הנתונים האמפיריים.
    לכן במקום לומר "היית יכולה להתחיל את המחקר שלך בהצגת תיאוריה של הקשר בין מהירות הרכב וסל"ד המנוע"
    צריך להגיד "היית יכולה להתחיל את המחקר שלך בהצגת היפותזה שמנבאת את הקשר בין מהירות הרכב וסל"ד המנוע"

    Liked by 2 אנשים

  2. בניגוד לכתוב בתרשים עם קו הרגרסיה
    1. המקדם *לא* יהיה מובהק סטטיסטית
    2. הנחות מודל הרגרסיה לא מתקיימות
    כלומר – אם מישהו באמת מכיר את התאוריה, הוא אמור לדעת שהוא לא יכול להעביר קו רגרסיה כזה.

    באופן כללי יותר, בהקשר הטענה המרכזית – איך בונים את המודל המתמטיה"תאוריה"? יש מגוון דרכים, כשהכרת עולם התוכן היא אחת המומלצות.

    אהבתי

    1. אני מסכים עם נקודה 2, אבל למה נקודה 1 נכונה?

      הרי מובהקות של מקדם במודל רגרסיה בסה"כ אומרת שניתן לדחות את השערת האפס שאין קשר בין המשתנה המסביר לתוצאה. במקרה שלנו הקשר יהיה מובהק, ובצדק.

      לא?

      אהבתי

      1. בפשטות – כיוון שאין כאן הצגה מפורשת של אזור אי הודאות דמיין אותו כטוש עבה שעובר על הנקודות. באי-הודאות המוצגת אפשר להעביר דרכן אפילו קו אופקי. בודאי ובודאי אם תוחמים עצמנו לחלק שלפני העליה. אם כך – אין מובהקות.

        אהבתי

      2. אנחנו נתפסים כאן קצת יותר מדי לדוגמה הספציפית. אגב, בדקתי – אלו נתונים שאני יצרתי, וכאשר אלו התצפיות, רגרסיה של סל"ד על קמ"ש כן נותנת מקדם מובהק סטטיסטית.

        עכשיו, ברור שזו דוגמה פשוטה ואולי פשטנית שנועדה להעביר נקודה. ברור שגם אנשים שרגרסיתם אומנותם אינם טפשים, והם יודעים להימנע מכשלים שהם מאד מובנים. ובדרך כלל, לפחות הטובים שבהם, כן חושבים לפחות ברקע על איזו תיאוריה שתנחה אותם. הדוגמה הזו רק באה להצביע על איך רגרסיה דלת תיאוריה יכולה להוביל למסקנות שגויות. אין פה טענה שכל רגרסיה בהכרח תיפול בכל פח אפשרי…

        אהבתי

  3. הנושא הוא קריטי גם בהערכת שווי חברות. ההערכה נגזרת תמיד מרצף ההכנסות בעבר, השאלה אם ואיך לבצע אקסטרפולציה שלהן לעתיד היא תמיד חמקמקה והסתמכות רק על הנתונים ללא סיפור הרקע יכולה להוביל לתוצאות מופרכות.

    Liked by 1 person

  4. תשובה לכלכלן הסמוי.

    1. לתיאוריה יש קיום גם ללא ממצאים אמפיריים. בפיזיקה יש לא מעט מקרים מהסוג הזה. בדיעבד או שמוצאים את הממצאים שהיא צופה את קיומם או שלא.

    2. אתה כנראה לא זוכר היטב את בקורס בפילוסופיה של המדע. הגישה המקובלת היא שתיאוריה מדעית לא ניתן לאמת. אנחנו מתייחסים לתיאוריה כנכונה כל עוד לא הופרכה. אז גם אם זה פותח פתח למכחישי מדע, זה המצב. התיאוריה היא לא יותר ולא פחות ממערכת של הנחות המצליחות להסביר בצורה הטובה ביותר את הממצאים הקיימים ולעיתים היא גם עוזרת לחזות ממצאים שעדיין לא נמצאו.

    3. לגבי הפוסט עצמו. אני חושב שלטעון דחוק הגרביטציה אינו תיאוריה זה חזק מדי. רביןץם יקראו לזה תיאוריה. זה מזכיר את ההבדל (ותסלחו לי הדוגמא השחוקה) בין קופרניקוס וניוטון. קופרניקוס תיאר נכונה את הסדירות שבטבע אבל ניוטון הסביר אותה על בסיס עקרון יסודי יותר (כוח המשיכה).
    כמובן שהתיאוריה מהסוג השני חזקה יותר כי היא יכולה להסביר תופעות נוספות לאלו שנצפו. לעומת "תיאוריה" שרק מתארת את הדברים, שאינה יכולה ללמד על דבר מלבד התופעות שהיא מתארת.

    אהבתי

  5. אחת הבעיות היא הציפיה למצוא קשר "יפה" (במילים אחרות – קו ישר). לכן הנטיה היא תמיד לעשות רגרסיה לינארית. הבעיה היא שבהרבה מקים הפונקציה מסובכ יותר והתוצאה היא גרף פחות "יפה". לכן בפיסיקה בד"כ לא מחפשים את הגרף אלא את המשוואה אם אין פתרון אנליטי – אז פתרון נומרי.
    איך מוצאים את המשוואה ? על ידי רדוקציה. מתחילים בדברים פשוטים ובדרגה מוסיפים עוד ועוד פרמטרים למשוואה עד שמגיעים למודל הרצוי.
    בכלכלה, לעומת זאת, מעצם היותה מדע (מאד) לא מדויק, כנראה שמציאת משוואה הקושרת את הנתונים היא \קשה עד בלתי אפשרית ולכן מנסים למצוא קשר גרפי כלשהו. אבל מי אמר לכם שהקשר הוא דווקא קו ישר ?

    אהבתי

  6. מה שמתואר פה זה בעיקר עבודת נתונים לא נכונה !
    גם לבניית מודל יש תיאוריה להנחות שצריך לבדוק .
    וגם איזה מודל בונים צריך לעשות בחוכמה.

    אהבתי

  7. כתוב מאוד יפה אסף.

    מדהים אותי כמה מאמרים לוקחים את הנתונים ופשוט מריצים רגרסיה, מוצאים מובהקות, ומפרסמים מאמר על קשר ש"התגלה" במאמר.

    לי יש בעיה עם הקונספט של רגרסיה שמשתמשים בו לדעתי יותר מדי בכלכלה. דווקא במקרים שבהם יש תיאוריה, אבל היא לא נכונה, רגרסיה יכולה להוכיח אותה במקרים רבים כי כל מה שהיא עושה זה לדחות את השערת האפס.

    אפילו בדוגמא כאן, אפשר לראות איך זה לחלוטין מגיע מתיאוריה שגויה:

    אני יודע מעט על מנועים ומכוניות, אבל אני יודע שהמנוע מסתובב, ובאמצעות רצועות וגלגלי שיניים, הסיבובים האלו עוברים לגלגלים ומזיזים את המכונית. לכן נשמע לי הגיוני שככל שהמנוע יסתובב מהר יותר, הגלגלים יסתובבו מהר יותר ולכן המכונית תסע מהר יותר. הקשר לא יהיה מדויק כי למכוניות שונות יש מבנה מנוע שונה, קוטר גלגלים שונה, וכו, ולכן אני מאמין שיש רעש בדגימה ואני עושה רגרסיה ומוצא קשר מובהק כמו בדוגמא ומסיק שככל שהסל"ד גבוה יותר, המהירות גבוהה יותר. לא עזר לי שבניתי תיאוריה.

    באופן עקרוני, האמפיריקה אמורה לעזור לנו לבדוק האם התיאוריה נכונה או לא. אם היא לא דוחית תיאוריה שגויה כמו זו שכתבתי, אי אפשר להאמין לה באמת כשהיא מאמתת תיאוריה אמיתית.

    באופן עקרוני, אני מאמין שאם אפשר בעין לראות בקלות את הקשר (נקודות מסודרות "בערך" על קו עם רעש), אז רגרסיה יכולה לתת לנו את המקדמים המדויקים. לעומת זאת, במקרה הנפוץ בכלכלה שבו זה נראה כמו ענן, רגרסיה לדעתי כמעט חסרת ערך עם או בלי תיאוריה

    Liked by 2 אנשים

    1. אני חושב שהבעיה,בין היתר, במחקרים כאלו שגם אם הם כותבים באמצע ולבסוף,שאין סיבתיות או איך להתייחס לנתונים, עדיין חשש קיים לניצול מידע המחקר באופן פופלארי ושגוי.
      אני מסכים איתך על עניין התאוריה.
      במיוחד כשהיום יוצאים כל מיני מטא-אנליזות שאמורות להראות נתונים ולהגיד לנו מה היא התשובה 'המדויקת' והסופית ביחס למחקרים הבודדים בנפרד.
      ואכן, לפעמים הדבר מועיל עד מאוד.
      אבל לפעמים גם מטעה, במידה ונלקח לזירה מבלי להסתכל גם על המחקרים מבפנים ועל התיאוריות.
      שמחתי לקרוא

      Liked by 1 person

להשאיר תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת /  לשנות )

תמונת גוגל

אתה מגיב באמצעות חשבון Google שלך. לצאת מהמערכת /  לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת /  לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת /  לשנות )

מתחבר ל-%s