משתמש:בילבי/מבחן מתוקנן

מתוך ויקיפדיה, האנציקלופדיה החופשית
צעירים בפולין יושבים לבחינות המטאורה שלהם. המטאורה מתוקננת כך שאוניברסיטאות יכולות להשוות בקלות תוצאות של סטודנטים מרחבי המדינה.

מבחן מתוקננן (באנגלית: standardized test) הוא סוג של בדיקה המבוצעת באופן עקבי, או "סטנדרטי". מבחנים מתוקננים מתוכננים כך שהשאלות, תנאי ההיבחנות, הליכי הניקוד והפרשנויות הניתנות למבחן הם עקביים, מנוהלים ומבוצעים בצורה מתוכננת וקבועה מראש.[1] [2]

כל מבחן הניתן באותה צורה ומדורג באותו אופן עבור כלל הנבחנים הוא מבחן מתוקנן. מבחנים מתוקננים אינם צריכים להיות מבחנים הרי גורל, מוגבלים בזמן או מבחני רב-ברירה. מבחן מתוקנן עשוי להיות כל סוג של מבחן: בכתב, בעל פה או כזה הבוחן יכולת מעשית והשאלות במבחן יכולות להיות פשוטות או מורכבות. בקרב תלמידי בית ספר מבחנים מתוקננים מודדים לעיתים קורובת כישורים אקדמיים, אך ניתן לקיים מבחן מתוקנן בכמעט נושא, כולל מבחני נהיגה, יצירתיות, אתלטיות, אישיות, אתיקה מקצועית או תכונות אחרות.

הכלי ההופכי לממבחן מתוקנן הוא מבחן לא מתוקנן, במבחנים לא מתוקננים ניתן לבצע בדיקות שונות באופן משמעותי לנבחנים שונים, להעביר את אותו מבחן בתנאים שונים באופן משמעותי לקבוצות שונות (למשל, לקבוצה אחת ניתן פחות זמן על מנת להשלים את המבחן מאשר בקבוצה הבאה) או לבצע הערכות שונות לאותו מבחן (למשל, אותה תשובה נחשבת כנכונה עבור נבחן אחד, אך כשגויה עבור נבחן אחר).

ככלל ניתן לאמר כי מרבית הבחינות והבחנים המתבצעים על ידי התלמידים במהלך הלימודים עונים על הגדרה של מבחן מתוקנן: כל התלמידים בכיתה ניגשים לאותו מבחן, באותו זמן, באותן נסיבות, וכל התלמידים מדורגים על ידי צוות ההוראה באותו אופן. עם זאת, המונח מבחן מתוקנן משמש לרוב למבחנים הניתנים לקבוצות גדולות יותר, כגון מבחן שנערך על ידי כלל המבוגרים המעוניינים לקבל הסמכה לעבודה מסוג מסוים, או על ידי כל התלמידים בגיל מסוים.

מכיוון שכולם ניגשים לאותו מבחן ומוערכים לפי אותה מערכת ציונים, מבחנים מתוקננים נתפסים לרוב כהוגנים יותר ממבחנים שאינם מתוקננים. מבחנים כאלה נחשבים לרוב כהוגנים ואובייקטיביים יותר ממערכת בה חלק מהנבחנים מקבלים מבחן קל יותר ואחרים מקבלים מבחן קשה יותר. מבחנים מתוקננים נועדו לאפשר השוואה אמינה של התוצאות בין כלל הנבחנים, מכיוון שכולם עוברים את אותה הבדיקה. עם זאת, מבחנים בכלל ומבחנים מתוקננים בפרט נתונים לביקורת. לדוגמא, יש הסבורים כי אין זה הוגן לשאול את כל התלמידים את אותן השאלות אם בבתי הספר השונים לא התקיימו סטנדרטים זהים ללמידה.

הגדרה[עריכת קוד מקור | עריכה]

Two men perform CPR on a CPR doll
שני נבחנים במבחן מתוקנן אותנטי, לא כתוב, שמפנה לקריטריון. במידה והם יבצעו החייאת לב-ריאה על הבובה בצורה הנכונה, הם יעברו את הבחינה.

ההגדרה של מבחן מתוקנן השתנתה מעט לאורך השנים. [3] בשנת 1960 הוגדרו מבחנים מתוקננים ככאלו שהתנאים והתוכן שלהם שווים לכל הנבחנים, ללא קשר למתי, היכן או על ידי מי המבחן מועבר. מטרת הסטנדרטיזציה הזו היא לוודא שהציונים מצביעים באופן אמין על היכולות או הכישורים הנמדדים, ולא מושפעים מדברים אחרים, כגון קבלת הוראות שונות לגבי מה לעשות אם הנבחן אינו יודע את התשובה לשאלה.

בתחילת המאה ה-21 המיקוד עבר מהתייחסות לתנאים שווים להתייחסות להגינות של תנאים.[3] לדוגמא, נבחן עם יד שבורה עשוי לכתוב לאט יותר בעקבות הפציעה, ויהיה זה שוויוני יותר לאפשר לו מספר דקות נוספות לכתיבה. הוספת זמן זה עשוי לייצר הבנה מהימנה יותר של הידע האמיתי של הנבחן. עם זאת, במידה ומטרת המבחן היא לראות כמה מהר הנבחן יכול לכתוב, ההתאמה המוצעת לא משקפת נכון את המטרה של המבחן ופוגעת בתוכן שלו ובכך המבחן לא יכול להחשב למבחן מתוקנן.

דוגמאות למבחנים מתוקננים ולא מתוקננים
נושא פורמט מבחן סטנדרטי מבחן לא סטנדרטי
היסטוריה מילולי כל נבחן מקבל את אותן השאלות, והתשובות נקלטות באותה צורה. המורה מסתובב בחדר ושואל כל תלמיד שאלה אחרת. ישנן שאלות הקשות יותר מאחרות.
נהיגה כישורים מעשיים כל הנבחנים מתבקשים לבצע את אותן הפעולות באותו מסלול, וכולם מוערכים על פי אותם סטנדרטים. כל תלמיד לנהיגה נבחן במסלול שונה. חלק צריכים לנסוע בכביש מהיר, בעוד אחרים צריכים לנסוע לאט סביב מתחם הבחינות. בוחן אחד מוריד נקודות בגלל "יחס רע".
מתמטיקה כתוב כל נבחן מקבל את אותן השאלות, והתשובות נקלטות באותה צורה. המורה נותן שאלות שונות לתלמידים שונים: מבחן קל לתלמידים עניים, מבחן נוסף לרוב התלמידים ומבחן קשה לתלמידים הטובים ביותר.
מוזיקה מבחן קבלה כל הנגנים מנגנים את אותה קטע מוזיקה. השופטים הסכימו מראש לכמה גורמים כמו תזמון, ביטוי ומוזיקליות נחשבים. כל מוזיקאי בוחר קטע מוזיקה אחר להשמעה. השופטים בוחרים את המוזיקאי שהם הכי אוהבים. שופט אחד נותן נקודות נוספות למוזיקאים שלובשים תחפושת.

היסטוריה[עריכת קוד מקור | עריכה]

העדויות המוקדמות ביותר למבחן מתוקננים נמצאות בסין, בתקופת שושלת האן[4], בחינות אלו שישמשו לצורך בחירת עובדים למנהל הקיסרי. הבחינות בחנו את היכולת והידע של הל המועמדים בשש האמנויות (מוזיקה, קשתות, רכיבה על סוס, חשבון, כתיבה וידע על הטקסים והמנהגים המקובלים).

בשלבים מאוחרים יותר נוספו למבחן נושאים שונים כגון אסטרטגיה צבאית, משפט אזרחי, הכנסות ומיסוי, חקלאות וגיאוגרפיה. בחינות אלו שימשו בצורה כזאת או אחרת למעלה מאלף שנים.

גם כיום, מבחנים מתוקננים משמשים בסין באופן נרחב, המפורסם שבהם גאוקאו משמש לצורך קבלה לאוניברסיטאות.

באירופה מבחנים מתוקננים לא היו חלק מהפדגוגיה המערבית שהתבסס באופן מסורתי על תרבות הויכוח שהתפתחה ביוון העתיקה. בהתאם האקדמיה המערבית העדיפה הערכות לא מתוקננות שבאו לידי ביטוי במאמרים שנכתבו על ידי הסטודנטים. בהתאם, היישום האירופי הראשון של מבחנים מתוקננים לא התרחש באירופה, אלא בהודו הבריטית.[5] בהשראת השימוש הסיני במבחנים מתוקננים, "מנהלי חברות בריטים שכרו וקידמו עובדים על סמך בחינות תחרותיות במטרה למנוע שחיתות והעדפה." נוהג זה של מבחנים מתוקננים אומץ מאוחר יותר גם בתוך האי הבריטי והדיונים הפרלמנטריים שהתפתחו בנושא עסקו רבות ב"מערכת המנדרינה הסינית ".[6]

מבריטניה השימוש במבחנים מתוקננים התפשט, בין היתר כתוצאה מהמפכה התעשייתית, לא רק ברחבי חבר העמים הבריטי, אלא לאירופה ואחר כך לארצות הברית.[6] כתוצאה מהתרחבות של חוקי חינוך חובה, גדל מספר התלמידים בבתי הספר עד כדי כך שהשימוש בהערכות פתוחות הפך לבלתי משתלם בגלל הזמן הרב שנדרש להעריך אותן. המבחנים המתוקננים אפשרו לבצע הערכה אובייקטיבית לכמות גדולה של תלמידים בזמן קצר.

A man sorts small objects into a wooden tray
חיילים בריטים עברו מבחנים מתוקננים במהלך מלחמת העולם השנייה. המתגייס בתמונה ממיין חלקים מכניים בכדי לבדוק את הבנתו במכניקה. על מדיו של המועמד לא מופיע שם, דרגה או סימן אחר העלול לגרום להטייה של המעריך.

מבחנים מתוקננים כמו מבחנים למיון מועמדים לקצונה ותפקידים אחרים של משרד המלחמה הבריטי פותחו במהלך מלחמת העולם השנייה.[7] המבחנים בדקו יכולות מנטליות של חיילים, כישורים מכניים, יכולת לעבוד עם אחרים ותכונות נוספות. מבחנים אלו נמצאו עדיפים על שיטות מיון אחרות שסבלו מהטיה מובנית ולא בהכרח הביאו לבחירת החיילים נכונים.

מבחנים מתוקננים משמשים את מערכת החינוך החל מהמאה ה-19, אך ההסתמכות הנרחבת על מבחנים מתוקננים בבתי ספר, לפחות בארצות הברית היא במידה רבה תופעה מהמאה ה-20.

גלי ההגירה באמצע המאה ה-19 תרמו לעליה בשימוש במבחנים המתוקננים בארצות הברית.[8] מבחנים מתוקננים שימשו לצורך הערכת יכולות באופן שוויוני ללא קשר למוצא או למעמד החברתי של האוכלוסייה.[9]

ב-1899 הוקמה מועצת בחינות הקבלה למכללות וכעבור שנתיים ב-1901 החלה להפעיל מערך בחינות מתוקננות בתשעה מקצועות לצורך קבלה ללימודים באוניברסיטאות ומכללות. מטרת המבחנים הייתה ליצור סטנדרט אחיד לצורך קבלה לאוניברסיטאות העילית בצפון-מזרח ארצות הברית.[10]

במהלך השנים שלאחר מכן פותחו מבחנים מתוקננים רבים. במלחמת העולם הראשונה פיתח הצבא האמריקני את מבחני אלפא ובטא בכדי לסייע לצבא להציב מתגייסים חדשים בתפקידים מתאימים על בסיס האינטליגנציה שלהם.[11] מבחן האינטליגנציה הראשון שפותח לשימוש על הציבור הרחב היה מבחן סטנפורד–בינט שפורסם בשנת 1916. מועצת המכללות פיתחה את מבחן ה-SAT בשנת 1926 על בסיס מבחני האינטליגנציה של הצבא. מטרת המבחן הייתה להעריך את יכולת המועמדים לאוניברסיטאות ומכללות בפתרון בעיות וחשיבה ביקורתית. בשנת 1959 הציע אוורט לינדקוויסט את מבחן ה-ACT שנועד גם הוא למיין מועמדים להשכלה גבוה.[12] החל משנת 2020, כולל ה-ACT ארבעה חלקים עם שאלות רב ברירה לבחינת אנגלית, מתמטיקה, קריאה ומדעים, וכן כתיבת חיבור אופציונלי.[13]

החל משנות השבעים של המאה העשרים החלו מדינות בודדות בארצות הברית לבחון מספר גדול של ילדים ובני נוער בבתי הספר הציבוריים ועד לשנות השמונים החלה ארצות הברית בהערכה לאומית של כלל התלמידים.[14] בשנת 2012 45 מדינות שילמו בממוצע 27 דולר לתלמיד, ובסך הכל 669 מיליון דולר עבור מבחני הערכה מתוקננים. עם זאת, העלויות בפועל הכולות בין היתר תשלום למורים על הכנת התלמידים לקראת המבחנים ועלות זמן ניהול המבחנים, גבוהות בהרבה מעלות המבחן עצמו.[15]

הצורך של הממשל הפדרלי בהשוואות בתוך מערכת חינוך ציבורית לא ריכוזית (כזאת הנמצאת בשליטה של השלטון המקומי) דחף להכנסה של מבחנים מתוקננים בקנה מידה גדול. בשנת 1965 חוקק בארצות הברית חוק חינוך יסודי ותיכוני וחייב ביצוע של מבחנים מתוקננים בבתי ספר ציבוריים. חוקים נוספים כדוגמת חוק "אף ילד לא נותר מאחור" משנת 2001 התנו את מימון בתי הספר הציבוריים בביצוע מבחנים מתוקננים.[16]

תכנון וניקוד[עריכת קוד מקור | עריכה]

תכנון[עריכת קוד מקור | עריכה]

לרוב, מבחן ידע כולל גם שילוב של פריטים הנבדקים על ידי מעריך אנושי ופריטים הנבדקים על ידי מחשב.

מבחן מתוקנן יכול להיות מורכב משאלות רב ברירה, שאלות אמת-שקר, שאלות פתוחות, הערכות אותנטיות או כמעט כל צורת הערכה אחרת. לעיתים קרובות נעשה שימוש בשאלות רב ברירה ואמת ושקר למבחנים המועברים לאלפי נבחנים מכיוון שניתן לבדוק מבחנים מעין אלו בצורה זולה, מהירה ואמינה באמצעות גליונות תשובות מיוחדים הניתנים לקריאה על ידי מחשב או להעביר אותם באמצעים ממוחשבים. בחלק מהמבחנים המתוקננים קיימים שאלות פתוחות הדורשות כתיבה של תשובה קצרה או חיבור הנבדקים על ידי מעריכים אנושיים המשתמשים במחוון (כללים והנחיות או אפשרויות תשובה נכונה) בכדי לקבוע את הציון שיינתן לתשובה הכתובה.

לא כל המבחנים המתוקננים כוללים מענה לשאלות. הערכה אותנטית למיומנויות אתלטיות יכולה לבוא לידי ביטוי בריצה למשך זמן מוגדר או כדרור כדור למרחק מסוים. אנשי מקצוע בתחום הבריאות חייבים לעבור מבחנים המוכיחים שהם יכולים לבצע הליכים רפואיים באופן תקין. על המבקשים רישיון נהיגה לעבור מבחן מתוקנן המוכיח שהם יכולים לנהוג ברכב. [17] [18]

צינון מחשב והערכה אנושית[עריכת קוד מקור | עריכה]

בחלק ממהמבחנים המתוקננים נעשה שימוש בפריטי רב-ברירה, שהם זולים יחסית לציון, אך ניתן להשתמש בכל צורת הערכה.

מאז שלהי המאה העשרים, עוצבו מבחנים מתוקננים רחבי היקף סביב הקלות והעלות הנמוכה של בדיקת מבחנים רבי-ברירה על ידי מחשב. כך, רוב המבחנים הלאומיים והבינלאומיים אינם מוערכים באופן מלא על ידי בני אדם.

הערכה אנושית משמשת בעיקר לניקוד פריטים שלא ניתן להעריך בקלות באמצעות המחשב (כגון הערכת חיבורים או שאלות פתוחות). לדוגמא, הבחינה הפסיכומטרית בישראל נבדקת על מחשב פרט לחיבור המוערך על ידי מעריכים אנושיים. [19]

הערכה אנושית היא יקרה יחסית ולעיתים קרובות משתנה מאדם לאדם ולכן כאשר הדבר אפשרי בדיקה על ידי מחשב עדיפה. לדוגמא, קיימת טענה כי עובדים המקבלים שכר נמוך יבדקו מבחנים בצורה רשלנית. [20] מקובל להניח כי שיעור ההסכמה בין מעריכים שונים של אותו מבחן יכולה לנוע בין 60 ל -85 אחוזים, תלוי במבחן ובתאום שנעשה בין המעריכים. לכן עבור מבחנים בקנה מידה גדול מקובל לעיתים להעריך כל מבחן על ידי מספר מעריכים בלתי תלויים. במקרים אלו כאשר הפער בין ההערכות גדול מערך שנקבע על ידי עורך המבחן נהוג להעביר את המבחן למעריכים נוספים בעלי ניסיון רב יותר שיכריעו בין המעריכים הראשונים.

ניתן אומנם להעריך שאלות פתוחות וחיבורים באופן ממוחשב אולם מדובר באתגר מורכב יחסית ביחס להערכה אנושית. על פי רוב שאלות פתוחות וחיבורים מוערכים על ידי מעריכים אנושיים בעלי הכשרה והשכלה מתאימה הפועלים על פי מחוון שנכתב מראש על ידי מומחים בהערכה ובתחום הידע של המבחן. לדוגמא, בפירסון, לכל מעריכי המבחנים יש תואר ראשון ורובם הם מורים בהווה או בעבר. [21]

לעתים קרובות, מוסדות לימוד אקדמאיים מחזרים אחרי מועמדים בעלי ציונים גבוהים במבחנים מתוקננים המיועדים למיון מועמדים להשכלה גבוהה (כגון ACT, SAT והבחינה הפסיכומטרית). לפי גישה זאת, מוסדות אלו מניחים כי הרמה האינטלקטואלית נשפטת על פי הציון שהמועמדים קיבלו במבחן, אך העניין הוא שציון טוב במבחן מתוקנן לא מצביע על כך שהמועמד חכם. מטרתם של מבחנים אלו למיין מועמדים בצורה סטנדרטית לפי נוסחה לניבוי הצלחתם בלימודים אקדמיים.

שימוש במחוון לצורך הגינות[עריכת קוד מקור | עריכה]

שימוש במחוון נועד להגביר את ההגינות כאשר מעריכים את ביצועי הנבחן. במבחנים מתוקננים, קל לאתר שגיאת מדידה (דפוס עקבי של שגיאות והטיות בניקוד הבדיקה). במבחנים לא מתוקננים יש למעריכים מקום לשיקול דעת אישי יותר ולכן יש סיכוי גבוה יותר לתוצאות לא הוגנות הנובעות מהטיה לא מודעת . כאשר הציון תלוי בבחירה של הנבחן, התוצאה תלויה במידה רבה במי שבודק את המבחן. מבחנים מתוקננים מסייעים בנטרול של ההטייה של המעריכים. מחקרים מראים כי מורים יוצרים סוג של נבואה המגשימה את עצמה בהערכתם את התלמידים, ומעניקים ציונים גבוהים למי שהם צופים שישיגו ציונים כאלו וציונים נמוכים יותר למי שהם מצפים מראש שלא יצליחו. [22]

לדוגמא למחוון של שאלה פתוחה בהיסטוריה: מה היו הגורמים למלחמת העולם השנייה ?
תשובות התלמיד ציון מתוקנן ציון לא מתוקנן
ציינון: תשובות חייבות להיות מסומנות כנכונות אם מוזכר בהן לפחות אחד מהגורמים הבאים: פלישת גרמניה לפולין, הפלישה של יפן לסין או בעיות כלכליות. ללא ציון. כל מעריך מציינן לפי הבנתו, בהתחשב בגורמים שהמעריך בוחר, כמו אופי התשובה, מידת המאמץ שהושקע בה, הרקע האקדמי של הנבחן, יכולת השפה או יחסו למבחן.
נבחן מס '1: מלחמת העולם השנייה נגרמה כתוצאה פלישת היטלר וגרמניה לפולין. מעריך מספר 1: תשובה זו מזכירה את אחד הפריטים הנדרשים, ולכן היא נכונה.

מעריך מס '2: תשובה זו נכונה.

מעריך מס '1: אני מרגיש שהתשובה הזו מספיק טובה, אז אני אסמן אותה כנכונה.

מעריך מס '2: התשובה הזו נכונה, אבל הנבחן המסויים הזה אמור להיות מסוגל לענות תשובה טובה יותר ולכן אתן לו ציון חלקי בלבד.

נבחן מס '2: מלחמת העולם השנייה נגרמה בעקבות גורמים מרובים, בין היתר השפל הגדול והמצב הכלכלי הכללי, עליית הסוציאליזם הלאומי, הפשיזם וההרחבה האימפריאליסטית וכן רגשות טינה לא פתורות הקשורות לתוצאות מלחמת העולם הראשונה. המלחמה באירופה החלה עם פלישת גרמניה לפולין. מעריך מספר 1: תשובה זו מזכירה את אחד הפריטים הנדרשים, ולכן היא נכונה.מעריך מס '2: תשובה זו נכונה. מעריך מספר 1: אני מרגיש שהתשובה הזו נכונה ומלאה, אז אתן את מלא הנקודות.

מעריך מס '2: תשובה זו נכונה, אז אתן את מלא הנקודות.

נבחן מס '3: מלחמת העולם השנייה נגרמה בעקבות של הארכידוכס פרנץ פרדיננד. מעריך מס '1: תשובה זו אינה מזכירה אף אחד מהפריטים הנדרשים. ללא נקודות.

מעריך מס '2: תשובה זו שגויה. אין ציון.

מעריך מספר 1: תשובה זו שגויה. אין נקודות.

מעריך מס '2: התשובה הזו שגויה, אבל והנבחן הזה השתדל מאוד והמשפט נכון מבחינה דקדוקית, אז אתן נקודה אחת למאמץ.

שימוש בציונים לצורך השוואות[עריכת קוד מקור | עריכה]

ישנם שני סוגים של פרשנויות שניתן לתת לציון מבחן מתוקנן: פרשנות הנסמכת על השוואה לנורמה או פרשנות הנסמכת על השוואת הציון לקריטריון .

  • פרשנויות הנסמכות על השוואה לנורמה משווה את הנבחנים למדגם של עמיתים. המטרה היא לדרג את הנבחנים כטובים או גרועים ביחס ליתר הנבחנים. פרשנויות מסוג זה קשורות לשיטות חינוך מסורתיות. כאשר נבחנים המצליחים יותר מאחרים עוברים את המבחן, ונבחנים שמצליחים פחות מאחרים נכשלים בו.
  • פרשנויות הנסמכות על השוואה לקריטריון משווה את הנבחנים לקריטריון (הגדרה פורמלית של תוכן), ללא קשר לציוני הנבחנים האחרים. שם נוסף למבחנים משווי קריטריון הוא הערכות מבוססות סטנדרטים, מכיוון שהן מתואמות סטנדרטים קבועים. פרשנויות לציון במבחנים מושווי קריטריונים עוסקות אך ורק בשאלה האם תשובתו של נבחן מסוים נכונה ומלאה. במבחנים המבוססים על קריטריון, כל ההנבחנים יכולים לעבור את המבחן, או שכל הנבחנים יכולים להיכשל בו .

ניתן להשתמש בכל אחת משיטות הפרשנות במבחנים מתוקננים. הדגש במבחנים מתוקננים מושם על העברה שיטטית ושווה בין הנבחנים. כך שכל עוד כל הנבחנים נשאלים שאלות שוות ערך, בנסיבות שוות ערך ומוערכים בעזרת מחוון חסר פניות מדובר במבחן מתוקנן.

הערכה מבוססת נורמות מתייחס לתהליך בו נערכת השוואה בין הנבחנים השונים. מבחנים מסוג זה מניבים הערכה של מיקום האדם שנבדק באוכלוסייה מוגדרת מראש. האומדן נגזר מניתוח של ציונים ומידע נוסף של מדגם מהאוכלוסייה. במבחנים מסוג זה ניתן להבחין האם נבחן בודד הצליח יותר או פחות מאשר נבחנים אחרים שניגשו למבחן זה. הערכות מבוססות קריטריון בודקות את יכולתו של נבחן לבצע משימה מסויימת ללא קשר להישגי יתר הניגשים למבחן. ניתן לטעון כי מרבית המבחנים שכותבים מורי בית הספר הם הערכות מבוססות קריטריון כיוון שבמרבית המקרים המטרה אינה להשוות בין התלמידים אלא לבחון את מידת שליטת בחומר הנלמד.

היכולת של מבחנים מתוקננים להשוות בין נבחנים שונים זה הופכת מבחנים אלו לכלי מרכזי בקבלה למוסדות להשכלה גבוהה, שם המוסד מנסה להשוות בין מועמדים ממגוון רקעים. שימוש נוסף במבחנים אלו הוא בהשוואה בין תלמידים ממדינות שונות. בין המבחנים הבינלאומיים ניתן למנות את המבחן במגמות בלימודי מתמטיקה ומדע בינלאומיים (TIMMS) ואת המחקר להתקדמות באוריינות קריאה בינלאומית (PIRLS).

מכיוון שבעזרת מבחנים מתוקננים ניתן להשוות ביצועים בין בתי ספר שונים, ניתן להשתמש בתוצאות של מבחן מתוקנן ארצי בכדי לקבוע אילו אזורים דורשים שיפור. מבחנים ארציים מתוקננים מסייעים לממשלה לקבוע אילו בתי ספר ואילו תלמידים מתקשים, ובעזרת מידע זה ניתן ליישם פתרונות נקודתיים לסגירת הפערים.

תקנים[עריכת קוד מקור | עריכה]

שיקולי תוקף ומהימנות נתפסים בדרך כלל כאלמנטים חיוניים לקביעת האיכות של כל מבחן מתוקנן. עם זאת, פסיכומטריקאים מציבים לעתים קרובות את החששות הללו בהקשרים רחבים יותר בעת פיתוח סטנדרטים והע כל מבחן מתוקנן בכללותו בהקשר נתון.

הערכת סטנדרטים[עריכת קוד מקור | עריכה]

בתחום ההערכה, ובמיוחד הערכה חינוכית, פורסמו שלוש קבוצות של סטנדרטיים להערכות על ידי וועדה משותפת לתקנים להערכה חינוכית בארצות הברית [23]. תקנים הערכת כוח האדם בהוראה [24] פורסמו בשנת 1988, תקנים להערכת התוכנית [25] פורסמו בשנת 1994, ותקנים הערכת תלמידים[26] פורסמו בשנת 2003.

כל פרסום מציג ומפרט מערך סטנדרטים לשימוש במגוון מסגרות חינוכיות. התקנים מספקים הנחיות לתכנון, יישום, הערכה ושיפור של צורת ההערכה. כל אחד מהסטנדרטים הוצב באחת מארבע קטגוריות יסוד לקידום הערכות חינוכיות נכונות, שימושיות, ריאליות ומדויקות. במערכי סטנדרטים אלה, שיקולי תקפות ואמינות מכוסים תחת נושא הדיוק. המבחנים נועדו להבטיח כי הערכות התלמידים יספקו מידע קול, מדויק ואמין אודות למידה וביצועים של התלמידים; מבחנים סטנדרטיים מציעים מידע מצומצם על צורות רבות של אינטליגנציה והסתמכות עליהם פוגעת בתלמידים מכיוון שהם מודדים באופן לא מדויק את פוטנציאל ההצלחה של התלמיד. [27]

תקני בדיקה[עריכת קוד מקור | עריכה]

בתחום הפסיכומטריקה, מקובלים תקנים למבחנים בחינוך ובפסיכולוגיה[28] לגבי תוקף ומהימנות, טעויות מדידה וסוגיות הקשורות להנגשה והתאמה של בחינות לאנשים עם לקויות. התקנים עוסקים גם בשימוש במבחנים, הסמכה והערכת תוכניות..

תוקף סטטיסטי[עריכת קוד מקור | עריכה]

אחד היתרונות העיקריים של בדיקות סטנדרטיות הוא שניתן לתעד את התוצאות באופן אמפירי; לכן ניתן להראות כי ציוני המבחן הם בעלי מידה יחסית של תוקף ואמינות, כמו גם תוצאות הכלליות וניתנות לשכפול. [29] לעתים קרובות זה מנוגד לציונים בתמליל בית ספר, המוקצים על ידי מורים בודדים. יתכן וקשה להסביר את ההבדלים בתרבות החינוכית בין בתי הספר, קושי בתכנית הלימודים של מורה נתון, הבדלים בסגנון ההוראה וטכניקות והטיות שמשפיעות על ציון.

יתרון נוסף הוא נובע מהמידע הנצבר מהעברת המבחן. מבחן מתוקנן שתוכנן היטב יכול לספק הערכה בנוגע לשליטה של הנבחן בתחום הידע או המיומנות הנבחנת ברמה מספקת למטרה של המבחן. אולם בעוד שנתן לטעון שרמת הדיוק של הערכות אישיות אינן בהכרח מספיקות למטרות מעשיות, הרי שהציונים הממוצעים של כיתות, בתי ספר, ערים וכדומה עשויים לספק מידע שימושי בגלל הקטנת מרווח הטעות הנובעת מהגדלת המדגם.

נבחנים[עריכת קוד מקור | עריכה]

קיימת ביקורת מצד הנבחנים עצמם כי מבחנים, למרות שהם מתוקננים, אינם בהכרח הוגנים כלפי התלמיד הבודד. יש נבחנים שהם "נבחנים גרועים", כלומר הם נעשים עצבניים ולא מרוכזים במבחנים ולא מסוגלים לבטא את יכולותיהם בצורה מיטבית. לכן, בעוד שהמבחן מתוקנן ואמור לספק תוצאות הוגנות, הנבחנים נמצאים בעמדת נחיתות, שכן אין להם דרך אחרת להדגים את הידע שלהם, מכיוון שאין חלופה למבחן המאפשרת למדוד ידע וכישורי פתרון הבעיות.

חלק מהנבחנים סובלים מחרדת בחינות. מטבע הדברים נבחנים שבדרך כלל סובלים מחרדת בחינות יחוו חרדה כאשר הם נבחנים במבחנים מתוקננים, אולם גם נבחנים אשר לרוב לא סובלים מחרדת בחינות יכולים לחוש חרדה ממבנים מתוקננים שיכולים להשפיע בצורה משמעותית על עתידם. בחינות סטנדרטיות בסיכון גבוהה בארץ כוללות בחינות כגון בחינות הבגרות, מבדקי צו ראשון, הבחינה הפסיכומטרית, בחינת המתאם ועוד.

מבחנים מתוקננים שנתיים בבית הספר[עריכת קוד מקור | עריכה]

מבחנים מתוקננים הם דרך נפוצה מאוד לקביעת ההישגים של תלמידים במערכת החינוך ולעמוד על הפוטנציאל העתידי שלו. עם זאת, מבחנים הרי גורל (בין אם הם מתוקננים ובין אם אינם מתוקננים) עלולים לגרום לחרדה. כאשר מורים או בתי ספר נמדדים לפי הישגי התלמידים שלהם במבחנים המתוקננים יש להם תמריץ "ללמד למבחן" במקום לספק תוכנית לימודים עשירה ורחבה.[30]

להשימוש הנרחב במבחנים מתוקננים במערכת החינוך, גוררים דיונים הנוגעים לאופן השימוש במבחנים אלו, התוקף שלהם והאם התועלת הנובעת מהם עולה על הנזק שלה לכאורה הם גורמים. בין המעורבים בדיונים ניתן למנות מגוון קבוצות כגון הורים, עובדי הוראה, קבוצות עסקיות, אוניברסיטאות ומכוני מחקר.

תומכי מבחנים מתוקננים בחינוך מספקים לעיתים קרובות את הנימוקים הבאים לקידום המבחנים בחינוך:

  • משוב או אבחון של ביצועי הנבחנים [31]
  • הוגנות ויעילות [32]
  • מקדם אחריותיות [31] [32]
  • שיפור ביצועים [31]

מבקרי מבחנים המתוקננים בחינוך מספקים לעיתים קרובות את הנימוקים הבאים כאשר הם דורשים תיקון או ביטול של מבחנים אלו בחינוך:

  • צמצום הלימודים לכדי הוראה לקראת המבחן. [33]
  • יכולת ניבוי נמוכה. [34] [35]
  • ניפוח ציונים של ציוני המבחן או ציונים. [36] [37] [38]
  • הטייה תרבותית או חברתית-כלכלית. [39] [40]
  • נזקים פסיכולוגים. [41]
  • אינדיקטור לקוי של אינטליגנציה או יכולת. [42] [43] [44] [45]

השפעות על בתי ספר[עריכת קוד מקור | עריכה]

מבחנים מתוקננים משתמשים רבות בשאלות רב ברירה שהמענה עליהם נעשה על תשובות יעודי כמוצג בתמונה

מבחנים מתוקננים משמשים כחלק ממדיניות ציבורית של דרישה לאחריותיות של מערכת החינוך.[46]

הרעיון שעומד מאחורי המדיניות קובע כי איסוף נ תונים באמצעות מבחנים מתוקננים הוא הצעד הראשון בשיפור בתי הספר, פרקטיקת ההוראה ושיטות החינוך. התומכים בטענה זאת סבורים כי הנתונים הנאספים על ידי המבחנים הסטנדרטים משמשים כגיליון הערכה של בית הספר. מבקרי הטענה, מצביעים על פערים שונים הנובעים משיטות הבדיקה המקובלות כיום, בניהם ניתן למנות בעיות בתוקף הבחינה, באמינות הבדיקה ובמתאמים (לדוגמא ראו פרדוקס של סימפסון ).

שימוש במבחנים מתוקננים לצורך קבלה ללימודים אקדמאים[עריכת קוד מקור | עריכה]

כיום מקובל השימוש במבחנים מתוקננים יחד עם כלים נוספים לצורך קבלה ללימודים גבוהים.

ראו גם[עריכת קוד מקור | עריכה]

הפניות[עריכת קוד מקור | עריכה]

  1. ^ APA Dictionary of Psychology, dictionary.apa.org (באנגלית)
  2. ^ W. James Popham, Why Standardized Tests Don't Measure Educational Quality, ASCD, ‏1 במרץ 1999 (באנגלית אמריקאית)
  3. ^ 1 2 Olson, Amy M.; Sabers, Darrell (באוקטובר 2008). "Standardized Tests". In Good, Thomas L. (ed.). 21st Century Education: A Reference Handbook (באנגלית). SAGE Publications. pp. 423–430. doi:10.4135/9781412964012.n46. ISBN 9781452265995. {{cite book}}: (עזרה)
  4. ^ "Chinese civil service". Encyclopedia Britannica. נבדק ב-17 באוקטובר 2021. {{cite encyclopedia}}: יש לבדוק את התאריך ב: |accessdate= (עזרה)
  5. ^ Michael Kazin, Rebecca Edwards, and Adam Rothman, The Princeton encyclopedia of American political history, Princeton: Princeton University Press, 2010, עמ' 142, ISBN 978-1-4008-3356-6
  6. ^ 1 2 Mark W. Huddleston, The higher civil service in the United States : quest for reform, Pittsburgh: University of Pittsburgh Press, 1996, ISBN 0-585-26711-1
  7. ^ Trahair, Richard (2015-06-01). Behavior, Technology, and Organizational Development: Eric Trist and the Tavistock Institute (באנגלית). Transaction Publishers. ISBN 9781412855495.
  8. ^ Thomas C. Hunt, James C. Carper, Thomas J. Lasley, II, C. Daniel Raisch, Encyclopedia of educational reform and dissent, Thousand Oaks, CA: SAGE Publications, 2010, עמ' 853-856, ISBN 978-1-4522-6573-5
  9. ^ Mark J. Garrison, A measure of failure : the political origins of standardized testing, Albany: State University of New York Press, 2009, ISBN 978-1-4384-2778-2
  10. ^ The College Board | American organization, Encyclopedia Britannica (באנגלית)
  11. ^ מבחן צבא אלפא וצבא בטא: מה הם ולמה הם נועדו - פְּסִיכוֹלוֹגִיָה - 2021, באתר nsp-ie
  12. ^ Fletcher, Dan (2009-12-11). "Breaking News, Analysis, Politics, Blogs, News Photos, Video, Tech Reviews". Time (באנגלית אמריקאית). ISSN 0040-781X. נבדק ב-2021-10-17.
  13. ^ About the ACT Test - The ACT Test for Schools, Districts, and States - K12 Solutions, ACT (באנגלית)
  14. ^ Stiggins, Richard (2002). "Assessment Crisis: The Absence Of Assessment FOR Learning" (PDF). Phi Delta Kappan. 83 (10): 758–765. doi:10.1177/003172170208301010.
  15. ^ Strauss, Valerie (11 במרץ 2015). "Five Reasons Standardized Testing Isn't Going to Let Up". The Washington Post. The Washington Post. נבדק ב-17 באוקטובר 2021. {{cite news}}: (עזרה)
  16. ^ US 107th Congress, [https://www.govinfo.gov/content/pkg/PLAW-107publ110/html/PLAW-107publ110.htm To close the achievement gap with accountability, flexibility, and choice, so that no child is left behind.], www.govinfo.gov, ‏Jan. 8, 2002
  17. ^ Horowitz, M. R.; Montgomery, D. L. (בינואר 1993). "Physiological profile of fire fighters compared to norms for the Canadian population". Canadian Journal of Public Health. 84 (1): 50–52. ISSN 0008-4263. PMID 8500058. {{cite journal}}: (עזרה)
  18. ^ Canadian Standardized Test of Fitness (CSTF): for 15 to 69 years of age: interpretation and counselling manual. Canadian Association of Sports Sciences, Fitness Appraisal Certification and Accreditation Program, Canadian Society for Exercise Physiology, Fitness Canada. Gloucester, Ontario: Canadian Society for Exercise Physiology. 1987. ISBN 0-662-15736-2. OCLC 16048356.{{cite book}}: תחזוקה - ציטוט: others (link)
  19. ^ ETS webage about scoring the GRE.
  20. ^ Houtz, Jolayne (August 27, 2000) "Temps spend just minutes to score state test A WASL math problem may take 20 seconds; an essay, 212 minutes". Seattle Times "In a matter of minutes, a $10-an-hour temp assigns a score to your child's test"
  21. ^ Rich, Motoko (2015-06-22). "Grading the Common Core: No Teaching Experience Required". The New York Times. ISSN 0362-4331. נבדק ב-2015-10-06.
  22. ^ Lee, Jussim (1989). "Teacher expectations: Self-fulfilling prophecies, perceptual bias, and accuracy". Journal of Personality and Social Psychology. 57 (3): 469–480. doi:10.1037/0022-3514.57.3.469.
  23. ^ "Joint Committee on Standards for Educational Evaluation". אורכב מ-המקור ב-15 באוקטובר 2009. נבדק ב-2 במאי 2015. {{cite web}}: (עזרה)
  24. ^ Joint Committee on Standards for Educational Evaluation. (1988). The Personnel Evaluation Standards: How to Assess Systems for Evaluating Educators.
    שגיאות פרמטריות בתבנית:Webarchive

    פרמטרי חובה [ url ] חסרים
    Error in Webarchive template: url ריק.
    Newbury Park, CA: Sage Publications.
  25. ^ Joint Committee on Standards for Educational Evaluation. (1994). The Program Evaluation Standards, 2nd Edition.
    שגיאות פרמטריות בתבנית:Webarchive

    פרמטרי חובה [ url ] חסרים
    Error in Webarchive template: url ריק.
    Newbury Park, CA: Sage Publications.
  26. ^ Committee on Standards for Educational Evaluation. (2003). The Student Evaluation Standards: How to Improve Evaluations of Students.
    שגיאות פרמטריות בתבנית:Webarchive

    פרמטרי חובה [ url ] חסרים
    Error in Webarchive template: url ריק.
    Newbury Park, CA: Corwin Press.
  27. ^ Morgan, Hani (2016). "Relying on High-Stakes Standardized Tests to Evaluate Schools and Teachers: A Bad Idea". The Clearing House: A Journal of Educational Strategies, Issues and Ideas. 89 (2): 67–72. doi:10.1080/00098655.2016.1156628.
  28. ^ "The Standards for Educational and Psychological Testing". www.apa.org. נבדק ב-2 במאי 2015. {{cite web}}: (עזרה)
  29. ^ Kuncel, N. R.; Hezlett, S. A. (2007). "ASSESSMENT: Standardized Tests Predict Graduate Students' Success". Science. 315 (5815): 1080–81. doi:10.1126/science.1136618. PMID 17322046.
  30. ^ Au, Wayne (2007-06-01). "High-Stakes Testing and Curricular Control: A Qualitative Metasynthesis". Educational Researcher (באנגלית). 36 (5): 258–267. doi:10.3102/0013189X07306523. ISSN 0013-189X.
  31. ^ 1 2 3 Phelps, Richard (2005). Defending standardized testing. London: Psychology Press. ISBN 978-0-8058-4912-7.
  32. ^ 1 2 Hirsch Jr., Eric (1999). The Schools We Need: And Why We Don't Have Them. New York: Anchor. ISBN 978-0-385-49524-0.
  33. ^ "Goswami U (1991) Put to the Test: The Effects of External Testing on Teachers. Educational Researcher 20: 8-11". אורכב מ-המקור ב-2013-02-02.
  34. ^ "FairTest criticism of the SAT". fairtest.org.
  35. ^ "Standardized tests not always best indicator of success".
  36. ^ אתר למנויים בלבד Graeme Paton, ‏Universities criticise exam 'grade inflation', The Telegraph, 6 July 2010
  37. ^ Vasagar, Jeevan (2 באוגוסט 2010). "Fears for state pupils as top universities insist on A* at A-level". The Guardian. London. {{cite news}}: (עזרה)
  38. ^ Finch, Julia (10 במרץ 2010). "They can't read, can't write, keep time or be tidy: Tesco director's verdict on school-leavers". The Guardian. London. {{cite news}}: (עזרה)
  39. ^ Hedges, Larry V.; Laine, Richard D.; Greenwald, Rob (1994). "Hedges LV (1994) An Exchange: Part I*: Does Money Matter? A Meta-Analysis of Studies of the Effects of Differential School Inputs on Student Outcomes". Educational Researcher. 23 (3): 5–14. doi:10.3102/0013189X023003005.
  40. ^ Coughlan, Sean. Bright poor 'held back for decades', BBC, October 16, 2013. Retrieved on October 17, 2013.
  41. ^ "The Neuroscience of Standardized Test-Taking".
  42. ^ "Standardized Tests Don't Show What Kids Know".
  43. ^ "Standardized Tests Not A Good Indication of Fluid Intelligence According to New Research".
  44. ^ "Standardized Tests Don't Measure Intelligence or Ability".
  45. ^ "Observations: Standardized test scores do not reflect students' abilities".
  46. ^ "NAEP Nations Report Card - National Assessment of Educational Progress - NAEP". nces.ed.gov (באנגלית). נבדק ב-2018-02-19.

[[קטגוריה:מבחנים סטנדרטיים]]