(1,360 מילים)
נניח ששאלת המחקר לפנינו היא זו: מהו הקשר בין מספר הסיבובים של המנוע במכונית מסוימת ובין המהירות שלה? זו שאלה אמפירית למהדרין, והדרך היחידה לענות עליה עוברת דרך נתונים. איך היינו עורכים מחקר כזה אילו לא הייתה לנו אפשרות לערוך ניסוי?
בעולם מושלם, היו לנו המווווון תצפיות. כל תצפית מתארת את מספר הסיבובים של המנוע ואת מהירות המכונית ברגע מסוים. היינו מסדרים את כל התצפיות על מערכת צירים, והיינו מקבלים גרף פחות או יותר כזה:

אשריך החוקרת שיש לה כל כך הרבה נתונים! כשאלו הנתונים, לא צריך לחשוב יותר מדי. הנתונים מסבירים כמעט הכל. יש קצת רעש, כצפוי. הרי כל מיני גורמים משפיעים על הקשר בין המהירות והסל"ד (רוח, שיפוע הכביש), אבל בגדול אפשר פשוט לראות את הקשר בין מהירות הרכב ובין הסל"ד של המנוע, ואיך החלפת הילוך כל בערך עשרים קמ"ש יוצרת קפיצה בקשר בין המהירות והסל"ד. אבל מה תעשה חוקרת שאין לה כל כך הרבה נתונים? אם למשל תקחו בדיוק את הגרף הקודם, ופשוט תוציאו ממנו חלק משמעותי מהמדגם, תקבלו תמונה כזו:

עכשיו המצב הרבה פחות ברור. אולי לנו, אחרי שראינו את הגרף הקודם, די ברור מה קורה פה, אבל זה לא כל כך ברור מהנתונים עצמם. זה נראה כמו ענן די אופקי, אולי עם שיפוע קל כלפי מעלה, עד לאיזור המאה קמ"ש, ואז נראה שיש עליה. והסכנה – אם את חוקרת שכל מה שהיא רוצה לעשות בחיים זה להריץ רגרסיה ו"לתת לנתונים לדבר", את תקבלי קו רגרסיה כזה:

המקדם יהיה מובהק סטטיסטית (אפילו אם תוסיפי מהירות בריבוע לא תקבלי משהו שונה מהותית), ואת תחשבי שהבנת את הקשר בין סל"ד לקמ"ש. יש רק בעיה אחת – אם תריצי רגרסיה תקבלי, בפשטות, תשובה לא נכונה לשאלת המחקר. "לתת לנתונים לדבר" פשוט לא עובד כאן.
למה בעצם נפלת? במילה אחת: תיאוריה.
ניגשת לתרגיל האמפירי בלי שום חשיבה תיאורטית על הקשר בין מנועים ומהירות. הרגרסיה אולי נתנה לך מדידה מאד מדויקת של הקשר הליניארי בין סל"ד לקמ"ש, אבל מאיפה ההנחה שיש קשר ליניארי? לא עומד מאחוריה שום נימוק תיאורטי משכנע. לעומת זאת, אם למדת גם הנדסה, פירקת כמה מנועים, והבנת את הרעיון של הילוכים, היית יכולה להתחיל את המחקר שלך בהצגת תיאוריה של הקשר בין מהירות הרכב וסל"ד המנוע. התיאוריה הייתה מסבירה שיש קשר ליניארי, אבל שבמרווחים מסוימים יש קפיצה בקשר הזה. התיאוריה מנבאת שהנתונים ייראו פחות או יותר בצורה כזו:

שימו לב שלתיאוריה אין מספרים. התיאוריה לא קובעת את האורך של כל קו, או את השיפוע שלו, או מתי הוא קופץ. התיאוריה לא קובעת אם 27 קמ"ש הולך עם 1,200 סל"ד או עם 80 סל"ד. את כל אלו רק הנתונים יכולים להגיד לנו. אבל אם אנחנו משתמשים בתיאוריה הזו, אז אנחנו כבר לא מביטים בענן הנתונים אובדי עצות ומנסים לדחוף איזה רגרסיה, רק כדי לקבל תשובה שגויה. התיאוריה עושה סדר בנתונים, ומאידך – הנתונים הופכים את התיאוריה לקונקרטית, ועוזרים לנו לשים מספרים ברורים על התיאוריה שלנו – כמה סל"ד הולך עם כמה קמ"ש.
ועכשיו, כלכלה
Gravity with Gravitas
מסחר בינלאומי הוא תחום שתמיד חסרים בו נתונים. פשוט אין כל כך הרבה מדינות בעולם… אולי אם היו בעולם 50,000 מדינות, והן היו מפוזרות בצורה מאד מוצלחת על הגלובוס החיים היו יותר קלים. אבל זה לא העולם שאנחנו חיים בו.
ובעולם דל המדינות שלנו, יש דפוס אחד במסחר הבינלאומי שחוזר על עצמו מחקר אחר מחקר, בצורה יציבה, בכל מדגם של מדינות, ובכל תקופה: ערך הסחר בין שתי מדינות נמצא ביחס ישר לגודל הכלכלי שלהן (תמ"ג), ונמצא ביחס הפוך למרחק ביניהן. הדפוס הזה זכה לכינוי "גרביטציה" בגלל הדמיון שלו למשוואת הגרביטציה בפיזיקה. [פיזיקאים שמרגישים צורך להזכיר שברגיבטציה המרחק הוא ריבועי – התאפקו הפעם] וכך בערך הוא נראה במשוואה:

הסחר בין מדינה i למדינה j פרופורציוני לתמ"ג של כל אחת מהן, ונמצא ביחס הפוך למרחק ביניהן.
עם קצת מאמץ (לוקחים לוגים) הופכים את המשוואה הזו לרגרסיה לינארית, ומה אומר לכם – חבל על הזמן של רגרסיה. בתקופות שונות, עם נתונים שונים, מדינות שונות, הכל – יוצא פיקס. יתר על כן המקדמים של הרגרסיה די דומים במדגמים השונים. עם השנים כל מיני חוקרים זרקו כל מיני משתנים נוספים לרגרסיה הזו. למשל – האם שתי המדינות חולקות שפה משותפת? רקע משפטי או קולוניאלי דומה? וכו'. והרגרסיות יפות, והמקדמים מובהקים, ורק דבר אחד חסר בסיפור הזה – תיאוריה. למה שיתקיים יחס כזה?
תאמרו – עזוב אותך מתיאוריה. "תן לנתונים לדבר". יש דפוס כל כך יציב, למה להרוס? וכאן נכנסת לסיפור "חידת הגבולות".
חידת הגבולות היא תוצאה מפורסמת למדי שהולכת בערך ככה: אם מוסיפים לרגרסיה של הגרביטציה משתנה גבול (כלומר – האם יש גבול בין שתי ה"מדינות"), המשתנה הזה יוצא יותר מובהק ממובהק, וגדול בקטע פסיכי. מה זאת אומרת? נניח שמודדים את ערך הסחר בצפון אמריקה גם בין מדינות בתוך ארה"ב, וגם בין מחוזות בתוך קנדה, וגם בין ארה"ב וקנדה. חידת הגבולות היא התוצאה לפיה הסחר בין שתי מדינות בתוך ארה"ב גדול פי 22(!) מאשר הסחר בין מדינה בארה"ב ומחוז בקנדה גם כאשר אין הבדל במרחק למחוז הקנדי לעומת המרחק למדינה בתוך ארה"ב, ואין הבדל בגודל בין המחוז הקנדי והמדינה בארה"ב. אז זה שיש פער זה לא מפתיע. אבל פי פאקן 22? קצת מוזר לא? מוריס אובסטלפלד וקנת' רוגוף, סוג של זקני השבט של התחום, הכתירו פעם את "חידת הגבולות" בתוך אחת משש השאלות הפתוחות החשובות ביותר במחקר המקרו-הבינלאומי.
עד שהגיעו ג'יימס אנדרסון ואריק ון-וינקופ, ופתרו את החידה. כן, כבר ניחשתם – הם הסבירו שאם ניגשים לנתונים בלי תיאוריה ברורה מקבלים תוצאות לא נכונות. בקיצור (יחסי) – מה הייתה הבעיה במחקרים נטולי התיאוריה?
כבר במחקרים המוקדמים היה ברור שהמרחק בין שתי מדינות מפספס משהו חשוב. קחו למשל אי דמיוני באוקינוס השקט שנמצא 4,500 קילומטרים מחופי ארה"ב. המרחק של האי הזה מקליפורניה דומה למרחק של ניו-יורק מקלפורניה. אבל יש הבדל גדול מאד בין האי ובין ניו-יורק. בעוד שעבור האי קליפורניה זה יעד הסחר היחיד במרחק של אלפי קילומטרים, ניו-יורק קרובה לעוד המון שותפות סחר פוטנציאליות. כלומר, צריך לקחת בחשבון לא רק כמה שתי מדינות קרובות אחת לשניה, אלא גם כמה כל אחת מהן קרובה למדינות אחרות. האם הן אי, שיכול לסחור רק עם קליפורניה, או ניו-יורק, שיכולה לסחור עם המון שכנות?
האופן שבו מחקרים מוקדמים ניסו להתמוד עם הקושי הזה היה להוסיף לרגרסיה משתנה של "מרחק ממוצע ממדינות אחרות". זה היה משתנה מאד אינטלגנטי. עבור כל מדינה עשו ממוצע משוקלל של המרחק של המדינה מכל המדינות האחרות בעולם, כשהמשקל של כל מדינה בממוצע הוא התמ"ג שלה. כך, אם אתה ניו-יורק, שקרובה לעוד המון מדינות, ועוד למדינות גדולות, אז אתה "קרוב לכל העולם". ואם אתה אי, או אם יש לך גבול רק עם ירדן, סוריה, ומצרים, אז אתה "רחוק מכל העולם". לקחו את המשתנה הזה, והוסיפו לרגרסיה. חביב, אינטלגנטי – אבל את חידת הגבולות זה לא פתר. אה כן, וגם אין שום בסיס תיאורטי למשתנה הזה. ממוצע זה נחמד, אבל למה בדיוק לחשב אותו ככה? והאם הוא שייך לרגרסיה בכלל?
אנדרסון וון-וינקופ הסבירו שאין לזה צורה, והתחילו לבנות מודל תיאורטי מהבסיס, בהתבסס על עקרונות ראשונים, שהניבוי המרכזי שלו הוא – לא תאמינו – שהסחר בין שתי מדינות יהיה פרופורציוני לגודל שלהן, וביחס הפוך למרחק ביניהן. אבל המודל שלהם נתן עוד משהו חשוב: הוא הראה איך בדיוק צריך לקחת בחשבון את ה"מרחק מכל העולם". מסתבר שזה מסובך… בגלל שחשוב לא רק כמה אתה קרוב למדינות אחרות, אלא גם כמה המדינות האחרות האלה קרובות למדינות אחרות נוספות – האם הן חייבות לסחור איתך, או שיש להן אלטרנטיבות אחרות? הגיוני, כשחושבים על זה. אבל איך לעזאזל לוקחים את הרעיון הזה לנתונים? המודל של אנדרסון וון-וינקופ מסביר בדיוק איך, ומראה איזה משתנים בדיוק צריך לבנות (סוג של מדד מחירים), ואיזה רגרסיה צריך להריץ.
ואז אחרי כל המתמטיקה והבלאגן, הם ניגשו לנתונים, בנו את המשתנים שיש להם ביסוס תיאורטי, ובדקו מה קורה לחידת הגבולות. ומה אתם יודעים – היא כמעט נעלמת. מדינות בארה"ב עדיין סוחרות זו עם זו יותר מאשר עם מחוז קנדי במרחק וגודל דומה, אבל רק פי 1.25 עד פי 2, ולא פי 22 יותר. אפשר לחזור לישון בשקט
האם הם צודקים?
כמובן שלא. המודל שלהם עמוס לעייפה הנחות מפשטות לא ריאליות, ולא צריך לקחת את התוצאות שלהם יותר מדי מילולית. אבל הם עשו צעד גדול בכיוון הנכון, ועל הדרך העבירו לנו שיעור חשוב על חשיבותה של תיאוריה. לא במקרה המאמר הזה הוא אחד המאמרים המצוטטים ביותר בכלכלה אי פעם (עם מעל 7,200 ציטוטים אקדמיים), למרות שכשלעצמה השאלה שהוא פותר לא עד כדי כך מעניינת. בינינו – למי אכפת מה ההבדל בין הסחר של מדינות ארה"ב עם עצמן לעומת הסחר שלהן עם מחוזות קנדיים? התרומה האמיתית של המאמר הזה הייתה שהוא הראה דרך מוצלחת מאד לעשות סדר בנתונים, גם כאשר – בעיקר כאשר – מגלים בהם משהו שנראה אבסורד, כמו חידת הגבולות. אפשר – צריך! – לריב על התיאוריה. אבל אסור לשכוח את החשיבות שלה, וזו טעות להניח שמחקר כלכלי עם פחות תיאוריה יהיה יותר מוצלח, או יותר מדעי.