
20 episodes
סקירות מאמרים על למידה עמוקה, חידות מתמטיקה, דיונים מתמטיים על בינה מלאכותית.
האזינו לדיון מעמיק על החידושים האחרונים מ-re:Invent בתחום ה-AI! נגלה איך טכנולוגיות חדשות משנות את כללי המשחק ומאפשרות לנו לאמן מודלים מותאמים אישית בקלות וביעילות. נדבר על אימון מודלים ל-RAG ולמידת חיזוק (RL), ואיך אמזון מאפשרת לנו לבנות מודלי יסוד משלנו עם שליטה מלאה והתאמה אישית. הצטרפו אלינו כדי להבין איך תוכלו לבנות מודלים חכמים יותר, עם מידע עדכני, ולהתאים אותם אישית ברמת הליבה.
הצטרפו אלינו לדיון על החידושים האחרונים בעולם ה-AI והענן, היישר מכנס re:Invent של AWS. נסביר מה הופך את הכנס הזה לקריטי, אילו הכרזות חשובות צפויות בו, וכיצד החידושים הטכנולוגיים משפיעים על הכלכלה ועל עולם ה-AI בכלל. מייק יחזור עם ניתוחים מעמיקים ב-7 בדצמבר ויספק תובנות ייחודיות על הטכנולוגיות החדשות והמתמטיקה שמאחוריהן. אל תפספסו את הסקירות המרתקות שלו!
בפרק זה של Mathy AI with Mike, אנו צוללים לשאלה האם הדרך בה אנו מעריכים מודלי שפה גדולים (LLMs) היא שגויה מיסודה. השימוש ב-LLMs כדי להעריך LLMs אחרים הפך לסטנדרט, אך גישה זו עלולה להניב אומדנים מוטים שיטתית. הפרק מציג שיטה לתיקון ההטיה באמצעות משערך Rogan-Gladen מתחום האפידמיולוגיה, ודן בחשיבות של חישוב רווחי סמך הלוקחים בחשבון את אי-הוודאות של השופט עצמו. בנוסף, נבחנת הדרך האופטימלית להקצות תקציבי כיול אנושיים כדי למזער את רוחב רווח הסמך הסופי, ובכך להגביר את האמינות של מחקר ופיתוח בתחום הבינה המלאכותית.
בפרק זה של MathyAI, מייק ואורח דנים בחשיבותם של 'כוכבים' בפרויקטי קוד פתוח, במיוחד בתחומי המתמטיקה והבינה המלאכותית. הם מסבירים שכוכבים אינם רק עניין של פופולריות, אלא מדד לאיכות, אמון קהילתי ואימוץ. השניים מנתחים את המשמעות של פרויקט שמגיע ל-300 כוכבים ומדוע זהו ציון דרך משמעותי. הם גם מסבירים מהם העקרונות להשגת כמות כזו של כוכבים, כולל פתרון בעיות אמיתיות, קוד נקי ותיעוד ברור, ומעורבות קהילתית.
האם מודלי שפה גדולים חושפים מידע רגיש למרות ההצפנה? הפרק צולל למאמר פורץ דרך החושף כיצד ניתן לגנוב נתונים מודלים דרך ערוץ צדדי, גם בתקשורת מוצפנת. נלמד על 'מתקפת ערוץ צדדי' וכיצד דפוסי תעבורה, כמו גודל חבילות וזמני תגובה, יכולים לחשוף נושאים רגישים. הניסויים הראו הצלחה של עד 98% בזיהוי מידע רגיש! נדון בהשלכות בעולם האמיתי ובפתרונות כמו obfuscation שמייקרוסופט ו-OpenAI הטמיעו.
בפרק זה, אנו צוללים למאמר פורץ הדרך של יאן לקון, LeJEPA, החושף גישה חדשה לאימון מודלי בינה מלאכותית. לקון טוען ששיטות מורכבות רבות הן מיותרות, ומציע התפלגות גאוסית פשוטה כיעילה יותר. LeJEPA משלב רגולריזטור SIGReg עם פונקציית לוֹס רגילה, היוצרת אימון "רזה" ויציב עם תוצאות מרשימות, לעתים קרובות גובר על מודלים גדולים יותר שאומנו על מערכי נתונים עצומים. גישה זו לא רק משפרת ביצועים אלא גם מוכיחה שפשטות יכולה לנצח כוח חישוב גולמי, ומבשרת עתיד מבטיח ללמידה עמוקה.
בְּאֶפִּיזוֹדָה הַזּוֹ אֲנַחְנוּ חוֹקְרִים מֶחְקָר חָדָשׁ הַבּוֹחֵן אִם מוֹדֶל AI קָטָן יָכוֹל לְהַצְלִיחַ לִפְתּוֹר בְּעָיוֹת מוּרְכָּבוֹת יוֹתֵר מִמּוֹדֶלִים גְּדוֹלִים. הַמֶּחְקָר מַצִּיג גִּישָׁה חֲדָשָׁה, Spectrum-to-Signal, הַמְעוֹדֶדֶת גִּיוּוּן בַּפִּתְרוֹנוֹת בִּשְׁלַב הָאִימּוּן כְּדֵי לְשַׁפֵּר אֶת יְכוֹלוֹת הַהַנְמָקָה. אָנוּ מְפָרְקִים אֶת הַשְּׁלַבִּים שֶׁל הַמֶּחְקָר, בּוֹחֲנִים אֶת הַהַשְׁוָואוֹת שֶׁנַּעֲשׂוּ, וּמְדַבְּרִים עַל הַחֲשִׁיבוּת שֶׁל בְּדִיקַת שִׁיטּוֹת הַהַעֲרָכָה בְּקַפְּדָנוּת.
בפרק הזה, מייק ושותפו צוללים למאמר פורץ דרך בשם CAT ("Compress & Attend Transformer") החושף ארכיטקטורת טרנספורמר חדשנית. CAT פותר את בעיית היעילות של מודלים קיימים בכך שהוא מאפשר למודל יחיד להתאים את עצמו דינמית לדרישות שונות של מהירות ואיכות. הם מסבירים כיצד CAT דוחס מידע ומפענח אותו ביעילות, תוך שמירה על פרטים חשובים. בנוסף, הם מדגישים את היכולת לשלוט ביעילות המודל בזמן אמת, מה שהופך אותו לגמיש במיוחד. לסיום, הם מזכירים את הפרויקט החדש של מייק: "100 סקירות המאמרים הכי טובות".
האם אי פעם דמיינתם כמה מהר נוכל ליצור וידאו עם AI? צוואר הבקבוק העיקרי הוא מנגנון ה-Attention, הצורך עד 80% מזמן ההסקה. LiteAttention מציגה פתרון חדשני: דילוגי חישוב אבולוציוניים. הרעיון הוא לזהות בלוקים לא חשובים בשלבים מוקדמים של הסרת הרעש, ולדלג עליהם בהמשך. גישה זו משלבת גמישות ויעילות, ומאפשרת דילוג על 40-70% מחישובי ה-Attention ללא פגיעה באיכות. התוצאה: הפחתת זמן ריצה משמעותית ויצירת וידאו מהירה ואיכותית.
בפרק של "MathyAIwithMike" אנו חוקרים כיצד בינה מלאכותית, במיוחד רשתות נוירונים מודעות לפיזיקה (PINNs), יכולה לפתור בעיות מדעיות מורכבות. PINNs משלבות למידה מנתונים עם חוקי פיזיקה, ומאפשרות להן לפעול ביעילות עם פחות נתונים. הן פותרות משוואות דיפרנציאליות חלקיות ומגלות פרמטרים של מודלים, אפילו בנוכחות רעש בנתונים. הדיון כולל פתרונות מבוססי נתונים וגילוי מבוסס נתונים של מד"חים, תוך שימוש במודלים רציפים ודיסקרטיים בזמן. מודלים דיסקרטיים, המשלבים פותרים נומריים קלאסיים, יעילים במיוחד עם נתונים מוגבלים.
הצטרפותה של הילה, מהנדסת AI ומומחית להנגשת ידע, לפודקאסט 'mathyaiwithmike' מסמנת שינוי מרענן. הפרק חושף כיצד היא משדרגת את הפודקאסט עם איכות סאונד ווידאו משופרים, ומביאה עומק חדש להבנת עולם ה-AI. הילה, מחברת הספר 'Supercharged Coding with GenAI', מסבירה על שימוש בכלי GenAI לשיפור תהליכי פיתוח, ועל חשיבות הורדת מימדים ב-AI. היא גם חולקת על הצלחתה בהנגשת נושאים טכניים בטיקטוק, ומדגישה את כוחו של הויזואליזציה בלמידה. הילה שואפת ליצור אינטראקציה אמיתית עם הקהל סביב הנושאים המדוברים.
בפרק זה נדון בשאלה האם מודלי AI מסוגלים לייצר כל פלט אפשרי, כולל המסוכן ביותר. נבחן מחקר חדש החושף כיצד תבניות צ'אט יכולות לשמש לחילוץ נתונים יקרי ערך ממודלים, ונבין איך מודלים "מפותים" לייצר מידע רגיש. נדון במתודולוגיה חדשה למדידת "זיכרון" של המודל, וכיצד היא משפיעה על הבנתנו לגבי פרטיות ואבטחה בעידן ה-AI.
דמיינו עולם שבו AI מנתח מחקרים על עצמו! הפרק צולל למחקר פורץ דרך, "לשכוח ביט, הכל על טוקן", ובוחן איך AI מבין שפה ברמה עמוקה יותר. מייק יצר סרטון AI המסכם סקירה שלו, ומזמין שיתופי פעולה. קצב פרסום מטורף של מעל 200 בלוגים ב-11 חודשים בלבד הופך אותו למגדלור בעולם ה-AI המתפתח. הצטרפו לדיון על עתיד הבינה המלאכותית!
השבוע ב-AI: האם מודלים יכולים לייצר כל פלט, כולל המסוכן ביותר? דיון על תורת המשחקים במודלים מרובי משימות ואיך ריבוי מטרות משפיע על הכללה. נבחן את הקשר בין שכחת תמונות, Jailbreaking והאם הכללה טובה היא חרב פיפיות. נעמיק ב"למידה מקוננת" ונבין האם למידה עמוקה היא רק מחסנית של אופטימייזרים. נגלה איך מורד הגרדיאנט עובד כאופטימיזציה מקוננת ואיך אפשר לשפר מומנטום עם DMGD.
האם מודלים גדולים של AI יכולים לייצר כל פלט אפשרי, כולל מסוכנים? מחקר חדש מציע תיאוריה חדשה המבוססת על 'טוקנים' ולא 'ביטים', ומשנה את תפיסתנו לגבי אבטחת AI. הדיון סוקר מדדים חדשים לאימון, יישור והסקה, ומציג את ארכיטקטורת הטרנספורמר כמקרה פשוט של מודל TV-VAR. הצטרפו אלינו לניתוח מעמיק של עתיד ה-AI וההשלכות על סטארטאפים וטכנולוגיה.
האורחת משתפת על כתיבת סקירות ספרים משותפות ועל היתרונות שבשיתוף פעולה. היא בוחרת ספרים מעניינים ומדגישה את החשיבות של ניתוח מעמיק לצד שיחה נעימה, במיוחד בתחום המתמטיקה. בלינקדאין, היא מתמקדת בנתונים בסקירות ושואפת ליצור תוכן מקצועי ואיכותי.
הפרק סוקר שני מחקרים פורצי דרך בתחום ה-AI. הראשון מראה כיצד ניתן 'להזריק' מחשבות לתוך מודל AI ולגרום לו להיות מודע לעצמו. השני טוען שטרנספורמרים לא מאבדים מידע, ואף פותח אלגוריתם לשחזור פרומפטים מקוריים. האם מודלי שפה הפיכים? הצטרפו לדיון על עתיד ה-AI!
בפרק הזה נדון במאמר שמציג בעיה באימון מודלים גדולים: 'אשליית הגרדיאנט'. המאמר מראה שהגרדיאנטים לא מאוזנים בין המשימות השונות, מה שגורם למודל לתת יותר חשיבות למשימות מסוימות על פני אחרות. החוקרים גילו שההבדלים בין הגרדיאנטים עצומים, עד כדי פי 33! המאמר לא מציע פתרון, אך הוא מהווה קריאת השכמה לקהילת המחקר ומדגיש את הצורך לחקור דרכים חדשות לאמן מודלים רב-משימתיים.
האם אפשר לדחוס טקסט לתמונה? מומחה מסביר על מחקר חדשני בתחום הדחיסה האופטית, המשתמש ב-DeepEncoder ובמודלים כמו SAM ו-CLIP-large. הדיון סוקר את שלושת השלבים העיקריים: תפיסה ברזולוציה גבוהה, דחיסה אופטית וחילוץ ידע. המפענח הוא מודל DeepSeek3B-MoE, שתפקידו לשחזר את הטקסט המקורי. האם DeepSeek-OCR הוא רק עוד מודל OCR, או פריצת דרך משמעותית? גלו איך הטכנולוגיה הזו יכולה לשנות את הדרך בה אנו חושבים על עיבוד שפה.
בפרק הזה, נצלול לעולם שיפור מודלי שפה גדולים (LLMs) עם טכניקה חדשנית. נדבר על שימוש בטרנספורמרים מבוססי אנקודרים בלבד כמנגנוני תגמול סמנטיים. השיטה מציעה שימוש במודל תגמול סמנטי ייעודי הפועל במרחב הלטנטי של שיכוני הטקסט, במקום לשפוט הסבר בשפה טבעית או לספור מילות מפתח. המודל מקבל תגמול על דיוק עובדתי, תקינות מבנית ושקיפות ההיגיון, כולל שרשרת הנמקה. זוהי דרך יעילה ופרגמטית לשפר את ההסברים של מודלי שפה גדולים.