לדלג לתוכן

שימוש לרעה בניתוח נתונים

מתוך ויקיפדיה, האנציקלופדיה החופשית

שימוש לרעה בניתוח נתונים הוא השימוש בכריית מידע כדי למצוא דפוסים שניתן להציג כמובהקים סטטיסטית, ובכך להגדיל באופן דרמטי ולהמעיט בסיכון לתוצאות חיוביות שגויות. הדבר נעשה על ידי ביצוע מספר רב של בדיקות סטטיסטיות על הנתונים ודיווח רק על התוצאות החוזרות כמובהקות. [1]

תהליך כריית הנתונים כולל בדיקת השערות מרובות באמצעות סט נתונים יחיד על ידי חיפוש מקיף — אולי עבור שילובי משתנים שעשויים להראות קשר, ואולי עבור קבוצות מקרים או תצפיות שמראות הבדלים בממוצע שלהם או בפירוט שלהם לפי משתנה אחר.

בדיקות סטטיסטיות קונבנציונליות של מובהקות סטטיסטית מבוססות על ההסתברות שתוצאה מסוימת תיווצר אם רק המקריות פועלת, והן בהכרח מקבלות סיכון מסוים של מסקנות מוטעות מסוג מסוים (דחיית השערת האפס באופן מוטעה). רמת סיכון זו נקראת רמת מובהקות. כאשר מבוצעות מספר רב של בדיקות, חלק מהן יניבו תוצאות שגויות מסוג זה; לפיכך 5% מההשערות שנבחרו באקראי עשויות (בטעות) להיות מדווחות כמובהקות סטטיסטית ברמת מובהקות של 5%, 1% ועשויות בטעות להיות מדווחות כמובהקות סטטיסטית ברמה של 1%, וכן הלאה, רק בגלל המקריות. כאשר נבדקו מספיק השערות באופן כמעט ודאי קיים תרחיש שחלקן ייחשבו מובהקות סטטיסטית (למרות שזה מטעה), שכן כמעט כל סט נתונים עם מידה כלשהי של מקריות עשוי להכיל כמה קשרים מקריים. אם לא ננקט אמצעי זהירות מדעני נתונים המשתמשים בטכניקות כריית נתונים עלולים בקלות להיות מוטעים על ידי תוצאות אלו. המונח p-hacking (בהתייחס לערכי p) הוטבע במאמר משנת 2014 על ידי שלושת החוקרים מאחורי הבלוג Data Colada, שמתמקד בגילוי בעיות כאלה במחקר במדעי החברה. [2][3]

שימוש לרעה בניתוח נתונים הוא דוגמה להתעלמות מבעיית ההשוואות המרובות. אחת הצורות היא כאשר משווים תתי-קבוצות מבלי ליידע את הקורא על מספר ההשוואות הכולל של תתי-הקבוצות שנבדקו. [4]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ George Davey Smith, Shah Ebrahim, Data dredging, bias, or confounding, BMJ : British Medical Journal 325, 2002-12-21, עמ' 1437–1438
  2. ^ Lewis-Kraus, Gideon (2023-09-30). "They Studied Dishonesty. Was Their Work a Lie?". The New Yorker (באנגלית אמריקאית). ISSN 0028-792X. נבדק ב-2024-06-25.
  3. ^ Simonsohn, U., Nelson, L. D., & Simmons, J. P. (2014), P-curve: A key to the file-drawer.
  4. ^ Deming, data and observational studies A process out of control and needing fixing