17/05/2026
הערכה באמצעות LLMs: האם לכל התלמידים יש סיכוי שווה לקבל הערכה מדוייקת? כנראה שלא.
במאמר שהתקבל לאחרונה לפרסום, מציגה אביגייל גורין-שלייפר Avigail Gurin מקבוצת המחקר של פרופ׳ גיורא אלכסנדרון Giora Alexandron תופעה שהחוקרים כינו ״דיוק מותנה-איכות״ (Quality-Conditioned Accuracy) בהערכה אוטומטית:
בעוד שמודלי שפה מראים דיוק גבוה בתשובות נכונות לחלוטין או שגויות לחלוטין, רמת הדיוק שלהם יורדת בצורה חדה בתשובות נכונות חלקית – אפילו כאשר הם מקבלים דוגמאות בדוקות כדוגמא (few-shot).
בתמונה המצורפת, זו ה״גבעה״ באמצע הגרף – הסטייה הגדולה של מודלי השפה השונים מהמומחה האנושי בתשובות הנכונות חלקית, בעוד שבצדדים – התשובות הנכונות או שגויות לחלוטין – כמעט אין סטייה כזו.
הדבר מעלה סוגייה של הוגנות: תלמידים עם ידע חלקי נמצאים בסיכון גבוה יותר לקבל הערכה ומשוב לא מתאימים.
הממצאים מזכירים לנו שוב: שימוש אחראי ב-LLMs בהערכה מחייב בחינה ביקורתית של רמת הדיוק שלהם על השאלות הספציפיות, בדגש על איכות הבדיקה של תשובות ברמות נכונות שונות. דיוק ממוצע אינו מספיק, ובטח שלא הסתמכות על טענות כלליות על יכולות המודלים.
העבודה נעשתה בשיתוף עם ד״ר מוריה אריאלי, ד״ר ביאטה בייגמן-קלבנוב מ-ETS, ואסף סלמן.
לינק לגרסת פרהפרינט של המאמר:
https://arxiv.org/abs/2605.07647