יום רביעי, 9 בינואר 2008

על ממוצעים משוכללים, הסתברות וסטטיסטיקאים.

ד"ר יוסי לוי פירסם שני פוסטים, בבלוגו "נסיכת המדעים", הקשורים בחישובי ממוצעים. הראשון "ממוצע פוליטי" עסק בבחירה הלא ראויה, כביכול, של "נערי האוצר" בממוצע האריתמטי בבואם לחשב את הממוצע של היחס "חוב לאומי:תמ"ג":
http://www.notes.co.il/joseph/38758.asp
הטענה של ד"ר לוי היא שבבואנו לחשב את הממוצע של המשתנה "החוב:תמ"ג" עלינו לערוך ממוצע משוקלל (כלומר כזה שבו יש משקולות שאינם בהכרח זהים, בדיוק כמו שנעשה בחישוב ממוצע ציוני הבגרות) ולא ממוצע אריתמטי רגיל (בו המשקולות הם זהים). הטיעון בזכות הממוצע המשוקלל נמצא כאן:
http://www.notes.co.il/joseph/38863.asp

על מאמריו של ד"ר לוי יש לענות בשתי מאמרות על המתודה; האחת - הקשורה במתודה המדעית, והיא תשובה לשאלה "מה מטרתו של הממוצע?", והשניה הקשורה במתודה המתמטית והיא תשובה לשאלה "כיצד מחשבין את הממוצעין?".

א. מה מטרת הממוצע כאן?
די ברור שהשאלה שנשאלת היא - מה הם המספרים המקובלים בעולם לערך "חוב:תמ"ג" (הוצאה עודפת, להלן)? התשובה של ה-OECD נותנת לנו למעשה את היחס בין החוב הכולל לבין התוצר הכולל (האם תוכלו ילדים לומר מדוע?).
היחס הזה אינו מתחיל אפילו לענות על השאלה. גם ממוצע אריתמטי אינו תשובה טובה במיוחד מלכתחילה, אך הוא נותן מידע רב יותר על ההתפלגות של היחס הנ"ל בדיעבד; ובכלל, רצוי היה לבדוק כאן מהם המספרים המקובלים בקרב מדינות שכלכלתן דומה ברוב מאפייניה לכלכלת ישראל, ולא להתעסק בממוצעים! אם נבדוק זאת, אגב, נגלה ש"נערי האוצר" היו אופטימיים להפליא...

ב. כיצד מחשבין את הממוצעין?
ד"ר לוי מביא כדוגמא את עניין המהירות הממוצעת. הוא מביא את השאלה:
"אדם יצא לדרך של 240 ק"מ במכוניתו. את המחצית הראשונה של הדרך, 120 ק"מ, נסע במהירות של 40 קמ"ש. את המחצית השניה נסע במהירות 60 קמ"ש. מה הייתה מהירותו הממוצעת לאורך הדרך?".
ומסביר, איך באופן די אינטואיטיבי מגיעים למושג הממוצע המשוקלל.

אבל, אם נסתכל בעין מעט יותר בוחנת (קרי בזו של המתמטיקאי...) על השאלה נראה שיש כאן סוגיה כללית בתחום ההסתברות: יש לנו שלשה משתנים מקריים - זמן דרך ומהירות, וידוע לנו שהדרך והמהירות הם פונקציות מפורשות של הזמן, וכן שבמובן מסויים המהירות היא "הנגזרת" של הדרך לפי הזמן; מה שידוע לנו הוא שכל שינוי "קטן" בזמן, מוביל לשינוי קטן בדרך (שימו לב שאין מדובר כאן על נגזרת במובן הרגיל; שימו לב גם לכך שהיחס בין המשתנים אינו יחס של מנה כפי שטוען הד"ר בפשטנות אופיינית). כעת בהנתן התפלגות על המהירות(יתכן שלחלקים מסויימים של הזמן יש חשיבות יותר מאשר לחלקים אחרים) ועל הדרך (חלקים מסויימים יפים יותר מאחרים?!) נקבעת התפלגות על הזמן באופן יחיד, וניתן לחשב את הממוצע (המשוקלל....). המשפט האחרון הוא בדיוק תוכנו של המושג "הסתברות מותנית", שידועה לעיתים גם כ-"נגזרת רדון-ניקודים" (הציצו כאן להסבר מעט יותר מפורט: http://en.wikipedia.org/wiki/Radon-Nikodym_theorem). יתרה מכך, התנאי שהוזכר הוא הכרחי כדי שההתפלגות על המהירות תקבע באופן יחיד!

האם זה המקרה כאשר המשתנים המקריים הם חוב, תוצר והוצאה עודפת? בוודאי שלא. ראשית אנו רוצים התפלגות על המדינות (שהן כאן בתפקיד הזמן, ולא היחס, כפי שלוי טוען בפשטנות...). עדיין, היינו יכולים (אולי) לתאר את התמ"ג ואת הצריכה העודפת כפונקציה של משתנים שונים (ובינהם גם החוב), ואולי אף היינו מצליחים למצוא קשרים בין ההתפלגויות הרב מימדיות האלה שמהן ניתן לגזור איזו מסקנה לגבי המרחב בסופי של המדינות. אבל באופן ברור התמ"ג והצריכה העודפת אינן פונקציות של משתנה יחיד, ולכן משלוש ההתפלגויות לא ניתן להסיק דבר על המשקולות הראויים במקרה דנן.

אולם, לא אלמן ישראל! אפשר לבחור, למשל, התפלגות שא-פריורי (כלומר - בלי לדעת כלום על מתאמים בין המשתנים המקריים) תמזער עבורנו את מידת חוסר הוודאות. ההתפלגות הזו (כפי שמסבירה יפה תורת האינפורמציה) היא בדיוק ההתפלגות האחידה, שמניבה בתורה את הממוצע האריתמטי. ניתן גם להביא בשיקול האינפורמציה את התלויות שקיימות בין המשתנים האמפיריים וכך לקבל התפלגות אחרת, מדוייקת יותר. וכמובן שניתן לחזור לסעיף א' ולהבין שכדאי לפעמים לשאול שאלות של תכלית במקום לשבור את הראש על שטויות!

בין כך ובין כך, זה מה שקורה כששואלים סטטיסטיקאי שאלה שהיא במהותה מדעית/מתמטית - הוא רץ להציב בנוסחאות (הלא נכונות)....

אין תגובות: