מה זה אימון-מקדים של מודלים גדולים של שפה ולמה זה קריטי?

מאת Yuval Avidani
זמן קריאה: 2 דק'

תוכן עניינים

כאשר אנו רוצים לאמן מודל באמצעות למידת מכונה אנו נדרשים לעבור מספרים שלבים. אחד השלבים שפחות מדובר עליהם אך חשובים מאוד הוא שלב האימון המוקדם, Pre-Training, שעלה לכותרות אמש עקב פרסום של אנדרי קפארתי, אחד המדענים הכי חכמים שעבדו ב-OpenAI ואדם מבריק וגאון בפני עצמו. להלן הפרסום:

לפני שנצלול למה שאנדרי פרסם, צריך להקדים ולומר ששלב האימון-המקדים הוא שלב שבו המודל נחשף לכמות עצומה של טקסטים (במקרה של שימוש בעיבוד שפה טבעית לצורך אימון מודל שפה גדול). מה שמיוחד הוא שמדובר בטקסטים רבים מתחומים שונים, לא מתוייגים בצורה כלשהי, כך שהמודל לומד להכיר דפוסים ותבניות. המטרה היא בעצם שהמודל ירכוש ידע כללי רחב כמה שיותר.

בקטנה על Pre-Training של BERT ו-GPT

ברט (BERT) הוא מודל שגוגל יצרה שמשתמש בטרנזפורמרים, הוא מתייחד בכך שהוא מתייחס למילים משני הכיוונים של המשפט בו זמנית. דו-כיווני. מטרת האימון המוקדם שלו היא להשלים מילים חסרות במשפט. כל פעם מסתירים מילים במשפט והוא מנחש מה המילים שהיו אמורות להיות שם. כמו במבחני פסיכוטכני שאנחנו מכירים. המודל של ברט משמש בעיקר במשימות הבנה של טקסטים.

מנגד יש לנו (איך לא) - את GPT (Generative Pre-trained Transformer), שלא לומד בצורה דו-כיוונית אלא בצורה חד-כיוונית. הוא מסתכל על מילים שקדמו למילה הנוכחית במשפט ומנסה לחזות את המילה הבאה. גם הוא משמש בעיקר במשימות יצירת טקסטים כמו כתיבת מאמרים ויצירת תוכן.

נניח שיש לנו מילון ענק עם מיליוני משפטים. נשתמש במודל כמו GPT (Generative Pre-trained Transformer) כדי לנסות לחזות את המילה הבאה בכל משפט. למשל, במשפט "החתול ישב על ה___", המודל ינסה לנחש את המילה החסרה (למשל "ספה", "כיסא", "שטיח" וכו'). ככל שהמודל רואה יותר משפטים, הוא משתפר בהבנת ההקשרים והמשמעויות של מילים ומשפטים.

איך זה קשור למה שכתב אנדריי קפראתי על Pre-Training?

אנדריי קפראתי, אחד מהמומחים המובילים בתחום הבינה המלאכותית, צייץ אמש על מאגר נתונים איכותי שנקרא FineWeb-Edu. מה זה? מסתבר שקיים מאגר גדול שנקרא FineWeb שמכיל 15 טריליון טוקנים והוא מכיל דאטה מסוגים שונים, כולל דאטה לא כל כך איכותי. מאגר המידע החדש שנקרא FineWeb-Edu מסנן החוצה את ״הרעש״ ומפחית את גודל המאגר ל-1.3 טריליון טוקנים באיכות הגבוהה ביותר.

היינו מצפים שפחות דאטה יגרום למודל השפה להיות פחות איכותי. אך לא. מסתבר שמודל שפה גדול לומד הרבה יותר טוב ומהר מתוכן חינוכי. ההסבר לכך הוא שמאמרים שנלקחים מהאינטרנט לצורך אימון מודלים אינם באיכות גבוהה וגורמים למודל השפה ״להסיח דעת״ מהדאטה האיכותי ולמשוך המון מידע לא רלוונטי. מסתבר שהמידע שנלקח ממאמרים כל כך לא איכותי עד כדי כך שלא ברור איך מודלים גדולים של שפה למדו משהו בכלל. הדאטה מעורב: גם תוכן איכותי וגם זבל. הרבה זבל. ואיך מודל אמור לדעת לבד מה טוב ומה לא?

אז תהליך אימון-מקדים על דאטה סט נמצא מועיל מאוד גם במקרים של Fine-Tuning (המשך אימון של מודל גדול על דאטה סט קטן יותר) למטרה מסוימת כיוון שזה גורם למודל לאבד ידע כללי ולהתמחות בידע ספציפי. המודל מתחיל בהדרגתיות לשכוח דברים שפחות רלוונטיים למודל הייעודי שמאמנים. מסתבר שהוא שוכח לא רק ידע אלא זה אפילו גורם לו לאבד צורת ״חשיבה״ כללית.

תמונה

לאחרונה בממצאים מעניינים במסגרת פרויקט שנקרא llm.c, שבמסגרתו אימנו את GPT-2 ו- GPT-3 (שיש להם 124 מיליון פרמטרים בלבד) על כמות נתונים קטנה יחסית של 10 מיליארד טוקנים במקום 100-300 מיליארד טוקנים כפי שנדרש במקור, ממש הוכח שהאימון הצליח לנצח למרות כמות קטנה יותר של טוקנים. ההנחה היא שזה בגלל איכות הדאטה של האימון-המקדים עם FineWeb-Edu.

דוגמה להצלחת FineWeb-Edu

תסתכלו על הגרף הבא מבלי להיבהל:

תמונה

זה גרף שממחיש את ביצועי מודל llm.c GPT-3 (בגודל של 124 מיליון) שמתאמן על FineWeb, מבלי לסבך דברים יותר מדי - רואים כאן שכעבור 150 מיליארד טוקנים המודל הצליח לעקוף מודל מתחרה של GPT-3 שאומן עם דאטה של HellaSwag (בקו ירוק). במקור זה היה צריך לקרות לאחר 300 מיליארד טוקנים ואילו רואים שזה קרה לאחר פחות ממחצית! איך זה קרה? לפי ההערכה, כיוון ש-HellaSwag מתמקדת בעיקר במשפטים באנגלית ובהמשכים האפשריים שלהם. ייתכן שנתוני ההכשרה של GPT-2 ו-GPT-3 היו רחבים יותר וכללו יותר שפות או תוכן מתמטי ותכנותי לעומת FineWeb.

מקווה שנהניתם!

יובל

תוייג ב

LLM, Machine Learning

עדכון אחרון יוני 04, 2024

אודות המחבר