מבחן אדפטיבי ממוחשב

מתוך ויקיפדיה, האנציקלופדיה החופשית

מבחן אדפטיבי ממוחשבאנגלית: Computerized adaptive testing ובקיצור CAT) הוא פורמט של מבחן מבוסס מחשב, המתאים את עצמו, במהלך העברת המבחן, לרמת היכולת של הנבחן. על פי רוב מדובר במבחן רב-ברירה בו קושי הפריטים (השאלות) המוצגים בפני הנבחן מושפע מביצועיו בפריטים הקודמים. ככל שהנבחן מצליח לענות בצורה נכונה, הפריטים הולכים ונעשים קשים. כאשר הוא טועה בתשובותיו, הפריטים נעשים קלים יותר. הציון הסופי של הנבחן נגזר מרמת הקושי אליה הגיע בסוף המבחן.

איך זה עובד[עריכת קוד מקור | עריכה]

במבחן אדפטיבי ממוחשב מוצג לנבחן רצף של פריטים כך שהפריט הבא שיוצג לנבחן נבחר על סמך הידע הנצבר על הנבחן מביצועיו על הפריטים הקודמים.[1] מנקודת המבט של הנבחן נראה כי קושי הפריטים בבחינה מתאים את עצמו לרמת יכולתו. לדוגמה, אם נבחן מצליח היטב בפריט בקושי בינוני, הפריט הבא שיוצג יהיה קשה יותר. לחלופין, אם הנבחן אינו מצליח לענות על פריט בקושי בינוני, הפריט הבא שיוצג יהיה קל יותר. בהשוואה ללמבחני רב-ברירה בעלי מערך קבוע של פריטים עבור כל הנבחנים, במבחנים אדפטיבים ממוחשבים נדרשים פחות פריטים בכדי להגיע לציונים לא פחות מהימנים.

האלגוריתם הבסיסי המשמש מבחנים אדפטיבים עובד בצורה הבאה:[2]

  1. חיפוש אחר פריט אופטימלי מתוך מאגר הפריטים הזמינים, על סמך האומדן היכולת הנוכחי של הנבחן
  2. הצגת הפריט שנבחר בפני הנבחן, אשר עונה עליו נכון או לא נכון
  3. עדכון הערכת היכולת על סמך כל התשובות הקודמות
  4. חזרה על שלבים 1 – 3 עד עמידה בקריטריון סיום

מכיוון שבדרך כלל לא ידוע דבר על יכולתו של הנבחן לפני קבלת מענה על הפריט הראשון, על פי רוב יבחר האלגוריתם פריט בעל קושי בינוני, או בינוני-קל, כנקודת ההתחלה של המבחן.

כתוצאה מאופן הניהול מבחן אדפטיבי, נבחנים שונים מקבלים מבחנים שונים.[3] הבסיס הפסיכומטרי לחישוב ציונים ברי השוואה עבור מבחנים המורכבים מפריטים שונים הוא תורת התגובה לפריט (item response theory IRT). שיטה זאת היא גם הדרך המועדפת לצורך בחירת פריטים מיטביים על בסיס מידע, ולא רק על בסיס קושי.[2]

קיימות מספר וריאציות למבחנים ממוחשבים אדפטיבים, בניהן ניתן למנות את הבחינה רב שלבית (Multistage testing -MST) בה במקום לבחור פריט אחד בכל איטרציה של אלגוריתם, בוחר האלגוריתם מספר פריטים שרק לאחר מענה עליהן מתבצעת הערכת יכולת מחודשת וכן את Computer-adaptive sequential testing - CAST בה הפריטים מסודרים בקבוצות והמערכת בוחרת את קבוצת הפריטים הבאה על סמך הערכת יכולת. שיטות אלו יכולות לתת מענה, במקרים מסוימים, לחסרונות של המבחן האדפטיבי הממוחשב המתוארות להלן.

יתרונות[עריכת קוד מקור | עריכה]

מבחנים אדפטיבים ממוחשבים יכולים לספק ציונים מדויקים באופן אחיד לרוב הנבחנים.[2] לעומת מבחנים סטנדרטים בעלי שאלות קבועות המספקים על פי רוב ציונים מדויקים עבור נבחנים בעלי יכולת בינונית ופחות מדויקים עברו נבחנים בעלי יכולות גבוהות או נמוכות במיוחד.

מבחן אדפטיבי יכול להיות קצר בכ-50% ממקבילו הקבוע ועדיין לשמור על רמת דיוק גבוהה יותר.[1] קיצור המבחן יכול לבוא לידי ביטוי בחיסכון בזמן של הנבחנים ושל הגוף הבוחן. נבחנים במבחן אדפטיבי לא משקיעים זמן בניסיון לפטור פריטים קשים מדי או קלים מידי עבורם. והגוף הבוחן נהנה מהיכולת לבחון יותר נבחנים בזמן נתון ובכך להוריד את עלויות ההעברה של המבחן. עם זאת, מכיוון שפיתוח של מבחן ממוחשב אדפטיבי כרוך על פי רוב בהוצאות גדולות בהרבה מאלו של בחינה סטנדרטית, נדרשת כמות גדולה יחסית של נבחנים בכדי להצדיק כלכלית שימוש במבחן אדפטיבי ממוחשב.

בדומה למבחנים מבוססי מחשב אחרים, מבחנים אדפטיבים ממוחשבים יכולים להציג תוצאות מיד עם סיום הבחינה.

במבחנים אדפטיבים, בהתאם לאלגוריתם לבחירת הפריטים, ניתן להקטין את היקף החשיפה של פריטי המבחן מכיוון שנבחנים בדרך כלל מקבלים גישה לפחות פריטים וכל נבחן נחשף לפריטים אחרים, דבר המפחית את הסיכון של דליפת פריטים ואת העלות של פיתוח כמות גדולה של פריטים חדשים. עם זאת, אם כמות הפריטים בעלי קושי בינוני אינו מספיק גדול תיתכן דליפה דווקא של פריטים אלו כיוון שרוב הנבחנים נחשפים לפריטים ברמת קושי בינונית בתחילת המבחן.[2]

חסרונות[עריכת קוד מקור | עריכה]

הבעיה הראשונה בה נתקלים בבניית מבחן אדפטיבי היא כיול מאגר הפריטים. בכדי שניתן יהיה לבחור בכל שלב במבחן את הפריט האופטימלי, יש צורך לדרג את רמת הקושי של הפריטים. לשם כך יש צורך לאסוף תגובות של מספר גדול של נבחנים על כל אחד מהפריטים. הדרך המקובלת לשמר מאגר פריטים עדכני ומכוייל הוא לשלב פריטים חדשים המיועדים לבדיקה יחד עם הפריטים התפעוליים של הבחינה (התגובות לפריטים החדשים נרשמות אך אינן נספרות לצורך חישוב הציון). בהקשר הזה פריטים אלו מכונים לעיתים "פריטי פיילוט" .[2] שימוש בפריטי פיילוט מציף סוגיות לוגיסטיות, אתיות ואבטחתיות. כך לדוגמה, בכדי להקים מבחן אדפטיבי חדש מבלי שקיים מידע קודם על הפריטים יש לבצע העברות ניסיון לכמות גדולה מאוד של נבחנים על מנת לדרג את הפריטים. העברה של מבחני ניסיון שכאלו חושפת את הפריטים ועלולה לגלום לדליפת מידע.[4] בשלב בו קיים מבחן אדפטיבי תפעולי מפעיל המבחן צריך לקבוע מה השיעור הסביר וההוגן של פריטי פיילוט שיוצגו לנבחן מתוך כלל הפריטים.

אף על פי שבבחינות אדפטיביות רבות קיים אלגוריתמים לבקרת חשיפה שנועד למנוע חשיפת יתר של פריטים,[2] קיימים מקרים בהם החשיפה לפריטים מסוימים יכולה להיות גבוהה מאוד ובמקרים קיצוניים ייתכן וכלל הנבחנים בעלי יכולת מסוימת יחשפו לאותם פריטים. מקרים מעין אלו קיים חשש משמעותי שפריטים אלו ידלפו. למעשה, הדרך הבטוחה ביותר לצמצום של חשיפה של פריטים היא בחירה אקראית של הפריטים שיוצגו לנבחנים אולם דרך זאת יוצרת מבחן פחות יעיל שיצריך שימוש ביותר פריטים עבור כל נבחן.

אחת התלונות הנפוצות ביותר מצד נבחנים במבחנים אדפטיבים מלינה על כך שלא ניתן לחזור ולתקן תשובות על פריטים קודמים. על פי רוב בחינות אדפטיביות לא מאפשרות לנבחנים לחזור ולשנות תגובה על פריטים שכבר נענו. זאת כיוון שהתגובה על כל פריט משפיע על בחירת הפריט הבא. במקרה בו מאפשרים לנבחן לחזור לפריטים קודמים, נבחן יוכל להבין שטעה בפריטים קודמים ולחזור ולתקנם מתוך כך שהפרטים הבאים המוצגים לו קלים יותר. כך נבחנים יכולים לטעות בכוונה על מנת לקבל רצף של פריטים קלים ואז לחזור ולתקן את תשובותיהם. בצורה כזאת ניתן (במקרים מסוימים) לזכות בציון גבוה אף על פי שרמת הפריטים שעליהם הציון מתבסס נמוכה יחסית. [5]

פיתוח של מבחנים אדפטיבים ממוחשבים דורשים משאבים רבים יותר מאשר פיתוח של מבחן רגיל, בנוסף נדרש כוח אדם מקצועי בעל ידע בפיתוח מבחנים מסוג זה.[6] על מנת לבצע כיול IRT נדרשים מדגמים גדולים הכוללים על פי רוב מאות נבחנים, בהתאם הקמה של מאגר פריטים מכויילים מצריכה מספר גדול של העברות ניסיון. על מנת לאפשר ניהול תקין של מבחן יש צורך לבצע ניתוחים בזמן אמת בכדי שניתן יהיה לבחור את הפריט הבא מיד עם ההשבה על הפריט הקודם לשם כך יש לפתח מערכת תוכנה המסוגלת להעביר מבחן אדפטיבי מבוסס IRT בזמן אמת. בנוסף יש צורך בפסיכומטריקאים בעלי היכרות וניסיון בכיול IRT ובפיתוח של מבחנים אדפטיבים בכדי לתקף את המבחן. פיתוח ותחזוקה של כלים אלו דורשים משאבים רבים וכוח אדם מקצועי שלא נדרשים בהיקפים במבחני דף ועט או במבחנים ממוחשבים שאינם אדפטיבים.

במבחנים בהם קיימת מגבלה של זמן קיים חיסרון בשימוש במבחנים אדפטיבים כיוון שהנבחנים שאינם יודעים מראש כמה שאלות ישאלו אינם יכולים לנהל את הזמן המוקצב להם לצורך המבחן בצורה יעילה. בהתנהלות לא נכונה נבחנים יכולם להשקיע זמן רב מידי על פריטים בתחילת המבחן ולהישאר ולא להספיק לענות על די פריטים לצורך לקבל ציון תקף. [7] הפתרון הקובל במקרים אלו הוא הקצאת זמן לכל פריט בפני עצמו באופן שמבטיח אפשרות להצגה של די פריטים לפני תום הזמן המוקצב.

רכיבים[עריכת קוד מקור | עריכה]

על מנת לבנות מבחן אדפטיבי ממוחשב יש צורך בחמישה רכיבים מרכזיים (מתוך: Weiss & Kingsbury, 1984[1]).

  1. מאגר פריטים מכויילים
  2. נקודת התחלה למבחן או קביעה של רמת כניסה
  3. אלגוריתם לבחירת הפריט הבא
  4. אלגוריתם לחישוב ציון
  5. קריטריון סיום

מאגר פריטים מכויילים[עריכת קוד מקור | עריכה]

על מנת לקיים מבחן אדפטיבי יש צורך במאגר פריטים לבחון מתוכם.[1] את הפריטים ניתן לכתוב ידנית או ליצר בצורה ממוחשבת. הפריטים צריכים להיות מכויילים בעזרת מודל פסיכומטרי שישמש גם את יתר רכיבי המבחן. המודל המקובל בדרך כלל במבחנים אדפטיבים הוא תורת התגובה לפריט (IRT). הסיבה העיקרית לכך נובעת מכך שתורת התגובה לפריט מציבה אנשים ופריטים על אותו סולם (מסומן על ידי האות היוונית תטא), בצורה המקילה על בחירת פריטים (ראה להלן). חשוב שהפריטים יהיו מפוזרים על פני כל רמות הקושי ושיהיו בעלי יכולת הבחנה גבוהה.

נקודת התחלה[עריכת קוד מקור | עריכה]

במבחנים אדפטיבים פריטים נבחרים על סמך ביצועי הנבחן עד לאותה נקודה במבחן. עם זאת, לא ניתן לבצע הערכה של הנבחן לפני שהועברו לנבחן פריטים כל שהם. אם קיים ידע מוקדם על הנבחן (מהעברות קודמות או ציונים אחרים) ניתן להשתמש בו לצורך קביעת נקודת ההתחלה.[1] בדרך כלל במבחנים אדפטיבים אין מידע מוקדם על הנבחנים או שקיימת העדפה שלא להשתמש בו ולכן מניחים כי הנבחנים הם בעל יכולת ממוצעת והפריטים הראשונים המוצעים במבחן הם פריטים בעלי קושי בינוני.

אלגוריתם לבחירת הפריט הבא[עריכת קוד מקור | עריכה]

כאמור, תורת התגובה לפריט מציבה נבחנים ופריטים באותה סולם. לכן, אם למבחן אדפטיבי קיים אומדן של יכולת הנבחן, ניתן לבחור את פריט המתאים ביותר לאומדן זה.[4] מבחינה טכנית הדבר נעשה על ידי בחירת הפריט שיספק את יכולת ההבחנה הגבוהה ביותר באותה נקודה.[1]

חישוב ציון[עריכת קוד מקור | עריכה]

לאחר העברת פריט מעדכן האלגוריתם את הערכת רמת היכולת של הנבחן. אם הנבחן ענה נכון על הפריט, האלגוריתם מעריך כי היכולת של הנבחן גבוהה יותר, ולהפך. לשם הערכת היכולת האלגוריתם משתמש בתורת התגובה לפריט (IRT) לצורך קבלת פונקציית נראות ליכולתו של הנבחן. קיימות שתי שיטות לקבלת פונקציה זאת. הערכת הסבירות המרבית והערכה ביסיאנית. ההערכה הבייסיאנית מניחה חלוקה א-פריורית של יכולת הנבחנים, וממנה נובעים שני אומדנים נפוצים: אומדן על סמך ביצועים קודמים ואומדן מקסימלי על סמך ביצועים קודמים. הערכת הסבירות המרבית שווה לאומדן המקסימלי על סמך ביצועים קודמים אם מניחים ביצועים קודמים אחידים (f (x) = 1).[4] הסבירות המרבית אינה מושפעת בצורה אסימפטוטית, אך אינה יכולה לספק הערכת יכולת (θ) עבור וקטור תגובה חד-גווני (הכל נכון או לא נכון), ובמקרה זה ייתכן שיהיה צורך להשתמש בשיטה בייסיאנית.[1]

קריטריון סיום[עריכת קוד מקור | עריכה]

אלגוריתם האחראי לניהול המבחן ימשיך להציג פריטים ולעדכן את הערכת היכולת של הנבחן עד למיצוי מאגר הפריטים או עמידה בקריטריון סיום. בדרך כלל המבחן מסתיים כאשר שגיאת המדידה הסטנדרטית של הנבחן נופלת מתחת לסף קבוע שנקבע על ידי מנהל המבחן.[1] קריטריוני סיום אחרים קיימים למבחנים בעלי מטרות שונות, לדוגמה אם במבחן שנועד לקבוע האם הנבחן עבר או נכשל יקבע קריטריון שאינו ממצא את הערכת היכולת של הנבחן.[8]

נושאים נוספים[עריכת קוד מקור | עריכה]

מבחני קריטריון[עריכת קוד מקור | עריכה]

במצבים רבים מטרת המבחן אינה לספק ציון אלא לסווג נבחנים למספר קטגוריות. כך לדוגמה "מבחני קריטריון" (Adaptive mastery test - ATM) כוללים שני סיווגים: "עובר" ו"נכשל". אך באותה מידה קיימים מבחנים בהם קיימים שלושה סיווגים ואף יותר כמו במקרים בהם נדרש סיווג של רמת ידע או כשירות כדוגמת "לא מספיק", "בסיסי" ו-"מתקדם". מבחן אדפטיבי ממוחשב מהסוג שתואר מתאים לבחינות בהן יש צורך בסיווג המורכב מיותר משתי קטגוריות או במקרים בהם יש צורך במתן משוב מדויק. עבור מבחני קריטריון המשמשים לסיווג של עובר או נכשל (מכונים - מבחן סיווג ממוחשב computerized classification test - CCT) נדרשות התאמות מסוימות בחישוב קריטריון הסיום ואופן בחירת הפריט הבא.[8] במבחנים מסוג זה ניתן דגש על מיון סביב נקודת הקריטריון ולכן נבחנים בעלי יכולת הקרובה מאוד לנקודת המעבר, ידרשו לענות על מספר גדול של פריטים לעומת נבחנים שנמצאים באופן משמעותי מעל או מתחת לרף להם יהיו בחינות קצרות משמעותית.

לדוגמה, במבחנים אלו קריטריון הסיום ואלגוריתם הניקוד פועלים לסווג את הנבחנים לקטגוריה במקום לספק הערכת יכולת. קיימות לכך שתי מתודולוגיות עיקריות. השיטה המקובלת מבין השניים הוא מבחן יחס ההסתברות הרציף (SPRT).[9][10] מבחן זה מתייחס לסיווג הנבחן כמבחן השערה המניחה שיכולתו של הנבחן שווה לנקודה מסוימת מעל נקודת הסף או לנקודה אחרת שממוקמת מתחת לנקודת הסף. יש לשים לב שמדובר כאן בניסוח השערה נקודתית ולא בניסוח השערה מורכב[11] המתאים יותר מבחינה רעיונית. לשם השוואה ניסוח השערה מורכב היה כי יכולתו של הנבחן היא באזור שמעל נקודת הסף או האזור שמתחת לנקודת הסף.

קיים שימוש גם בגישה של רווח סמך, כאשר לאחר העברה של כל פריט, האלגוריתם מחשב את ההסתברות שהציון האמיתי של הנבחן הוא מעל או מתחת לציון המעבר.[12][13] כך לדוגמה, האלגוריתם עשוי להמשיך ולהציג פריטים לנבחן עד שמרווח הביטחון של 95% מסביב לציון האמיתי לא מכיל את ערכים משני צידי נקודת המעבר. כך שבשלב זה אין צורך בהעברה של פריטים נוספים מכיוון שהוודאות בנוגע למעבר או אי המעבר של הנבחן מדויקת ב־95% (בהנחה שהמודלים הפסיכומטריים העומדים בבסיס הבדיקה ההסתגלותית מתאימים לנבחן ולמבחן). גישה זו נקראה במקור מבחן קריטריון אדפטיבי (Adaptive Mastery Testing - AMT) אך ניתן להרחיב אותה לסיווג של מבחנים בעלי יותר מנקודת סף יחידה.

באופן פרקטי, בכדי למנוע מצב בו לנבחנים בעלי יכולת הקרובה לסף יוצגו כלל הפריטים במאגר מבלי להגיע להכרעה ברורה נקבע לאלגוריתם סף מינימלי ומקסימלי של פריטים להעברה במבחן יחיד.

אלגוריתם בחירת הפריטים תלוי בקריטריון הסיום. מקסימום מידע בקיצור הדרך מתאים יותר ל- SPRT מכיוון שהוא ממקסם את ההבדל בהסתברויות המשמשות ביחס הסבירות .[14] מקסימום מידע לפי אומדן היכולת מתאים יותר לגישת רווח הביטחון מכיוון שהוא ממזער את שגיאת המדידה הסטנדרטית המותנית, מה שמקטין את רוחב מרווח הביטחון הדרוש לצורך סיווג.[13]

אילוצים מעשיים באדפטציה[עריכת קוד מקור | עריכה]

חוקרת ה-ETS מרתה סטוקינג טוענת כי רוב המבחנים האדפטיבים הם למעשה מבחנים אדפטיבים בקושי (BAT) מכיוון שבפועל קיימים אילוצים רבים על בחירת פריט. כך לדוגמה, בחינות אדפטיביות ממוחשבות חייבות, בדרך כלל, לעמוד במפרט התוכן;[2] כך לדוגמה, מבחן בשפה צריך להכיל מספר מסוים של אנלוגיות, השלמות משפטים ומציאת מילים נרדפות. אילוץ מקובל נוסף הוא מנגנון למניעת חשיפה של פריטים שמונע שימוש יתר בפריטים האינפורמטיבים ביותר. מכיוון שמבחנים ממוחשבים אדפטיבים מוגבלים לעיתים קרובות בבחירת הפריטים יש צורך ליישם אסטרטגיות חיפוש מורכבות בכדי למצוא פריטים מתאימים להעברה.

השיטה הפשוטה לשליטה על חשיפה של פריטים היא השיטה האקראית. במקום לבחור את הפריט שיספק את המידע הרב ביותר בכל נקודה במבחן, האלגוריתם בוחר באופן אקראי את הפריט הבא מתוך מספר קבוע של פריטים היכולים לספק את המידע הרב ביותר באותה נקודה. שיטה זאת יכולה לשמש הן לצורך בחירת נקודת ההתחלה של המבחן והן לאורך המבחן כולו.[2] שיטה מקובלת נוספת למניעת שימוש יתר בפריטים היא שיטת סימפסון-הטר.[15] לפי שיטה זאת לכל פריט מוגדר שיעור חשיפה מקסימלי הקובע את מגבלת החשיפה של הפריט. כאשר האלגוריתם מעוניין לבחור את הפריט הבא שיוצג לנבחן מוגרל מספר אקראי בין 0 ל-1 ערך זה מושווה לשיעור החשיפה המקסימלי של הפריט האינפורמטיבי ביותר. אם הערך האקראי גדול משיעור החשיפה של הפריט המיועד - הפריט יוצג. אם לא- תבוצע השוואה דומה לפריט הבא אחריו בעל האינפורמציה הגדולה ביותר, תהליך זה חוזר עד שנמצא פריט ששיעור החשיפה המקסימלי שלו נמוך מהערך המוגרל.

לינדון ואחרים[16] הציגו שיטה חלופית הכוללת יצירת מבחני צל. הכוונה היא לבחור עבור כל נבחן, לפני תחילת המבחן, אוסף של פריטים המתאימים למגוון יכולות מתוך בנק הפריטים תוך התחשבון במגבלת החשיפה של אותם פריטים. קבוצה פריטים זאת משמשת כבנק הפריטים האפשריים עבור הנבחן הספציפי. בחירת פריטים ממבחני צל מסייעת לאלגוריתמים של מבחנים אדפטיבים לעמוד בקריטריונים של בחירת פריטים על ידי התמקדות בבחירות אופטימליות כלליות (בניגוד לבחירות האופטימליות לפריט נתון).

רב ממדיות[עריכת קוד מקור | עריכה]

בהינתן מערך פריטים, מבחן רב-ממדי אדפטיבי ממוחשב (multidimensional computer adaptive test - MCAT) בוחר פריטים בהתאם ליכולותיו המשוערות של הנבחן וכתוצאה מכך נוצר מבחן ייחודי המתאים לנבחן הפרטי. MCAT מבקש למקסם את דיוק המבחן בכך שהוא בוחן יכולות מרובות בו זמניות מרובות (בשונה ממבחן אדפטיבי ממוחשב - המעריך יכולת אחת) תוך שימוש ברצף הפריטים שנענו בעבר (Piton-Gonçalves ו- Aluisio, 2012).

מבחנים אדפטיבים[עריכת קוד מקור | עריכה]

קיימים בעולם מבחנים רבים המועברים בצורה ממוחשבת אדפטיבית, רשימה חלקית של מבחנים אדפטיבים ממוחשבים וביבליוגרפיה עדכנית האיגוד הבינלאומי למבחנים אדפטיבים ממוחשבים (IACAT),

מבין המבחנים האדפטיבים הממוחשבים המוכרים בישראל ניתן למנות את המבחנים הבאים:

  • GMAT המשמש לצורך קבלה לתואר שני במנהל עסקים בחלק גדול מהאוניבריטאות בעולם מועבר כיום כמבחן אדפטיבי ממוחשב.
  • אמיר"ם - מבחן המשמש לצורך מיון סטודנטים באוניברסיטאות לפי רמת האנגלית שלהם.

ראו גם[עריכת קוד מקור | עריכה]

קישורים חיצוניים[עריכת קוד מקור | עריכה]

הערות שוליים[עריכת קוד מקור | עריכה]

  1. ^ 1 2 3 4 5 6 7 8 David J. Weiss, G. Gage Kingsbury, Application of Computerized Adaptive Testing to Educational Problems, Journal of Educational Measurement 21, 1984, עמ' 361–375 doi: 10.1111/j.1745-3984.1984.tb01040.x
  2. ^ 1 2 3 4 5 6 7 8 Thissen, D., & Mislevy, R.J. (2000). Testing Algorithms. In Wainer, H. (Ed.) Computerized Adaptive Testing: A Primer. Mahwah, NJ: Lawrence Erlbaum Associates.
  3. ^ Green, B.F. (2000). System design and operation. In Wainer, H. (Ed.) Computerized Adaptive Testing: A Primer. Mahwah, NJ: Lawrence Erlbaum Associates.
  4. ^ 1 2 3 Wainer, Howard., Computerized adaptive testing : a primer, 2nd ed, Mahwah, N.J.: Lawrence Erlbaum, 2000, ISBN 0-585-38437-1
  5. ^ Lawrence M. Rudner, Computer Adaptive Testing Tutorial, edres.org
  6. ^ fasttestweb, Requirements of Computerized Adaptive Testing, web.archive.org, ‏2012-04-25
  7. ^ "GMAT Tip: Adapting to a Computer-Adaptive Test". Bloomberg. 3 באפריל 2013. {{cite web}}: (עזרה)
  8. ^ 1 2 Lin, C.-J. & Spray, J.A. (2000). Effects of item-selection criteria on classification testing with the sequential probability ratio test. (Research Report 2000-8). Iowa City, IA: ACT, Inc.
  9. ^ Wald, A. (1947). Sequential analysis. New York: Wiley.
  10. ^ Reckase, M. D. (1983). A procedure for decision making using tailored testing. In D. J. Weiss (Ed.), New horizons in testing: Latent trait theory and computerized adaptive testing (pp. 237-254). New York: Academic Press.
  11. ^ R. A. Weitzman, Sequential Testing for Selection:, Applied Psychological Measurement, 2016-07-27 doi: 10.1177/014662168200600310
  12. ^ Kingsbury, G.G., & Weiss, D.J. (1983). A comparison of IRT-based adaptive mastery testing and a sequential mastery testing procedure. In D. J. Weiss (Ed.), New horizons in testing: Latent trait theory and computerized adaptive testing (pp. 237-254). New York: Academic Press.
  13. ^ 1 2 Eggen, T. J. H. M; Straetmans, G. J. J. M. (2000). "Computerized adaptive testing for classifying examinees into three categories". Educational and Psychological Measurement. 60 (5): 713–734. doi:10.1177/00131640021970862.
  14. ^ Spray, J. A., & Reckase, M. D. (1994). The selection of test items for decision making with a computerized adaptive test. Paper presented at the Annual Meeting of the National Council for Measurement in Education (New Orleans, LA, April 5–7, 1994).
  15. ^ Sympson, B.J., & Hetter, R.D. (1985). Controlling item-exposure rates in computerized adaptive testing. Paper presented at the annual conference of the Military Testing Association, San Diego.
  16. ^ van der Linden, W. J.; Veldkamp, B. P. (2004). "Constraining item exposure in computerized adaptive testing with shadow tests". Journal of Educational and Behavioral Statistics. 29 (3): 273–291. doi:10.3102/10769986029003273.