
MathyAIwithMike-עברית
בפרק זה של Mathy AI with Mike, אנו צוללים לשאלה האם הדרך בה אנו מעריכים מודלי שפה גדולים (LLMs) היא שגויה מיסודה. השימוש ב-LLMs כדי להעריך LLMs אחרים הפך לסטנדרט, אך גישה זו עלולה להניב אומדנים מוטים שיטתית. הפרק מציג שיטה לתיקון ההטיה באמצעות משערך Rogan-Gladen מתחום האפידמיולוגיה, ודן בחשיבות של חישוב רווחי סמך הלוקחים בחשבון את אי-הוודאות של השופט עצמו. בנוסף, נבחנת הדרך האופטימלית להקצות תקציבי כיול אנושיים כדי למזער את רוחב רווח הסמך הסופי, ובכך להגביר את האמינות של מחקר ופיתוח בתחום הבינה המלאכותית.