מודל תמונות חדש בשם Flux מסעיר את הרשת! וגם - האם גודל המודל קובע על איכותו?

מאת Yuval Avidani
זמן קריאה: 3 דק'

תוכן עניינים

אמ:לק - חברת Black Forest Labs פרסמה לפני מספר ימים את Flux - מודל ליצירת תמונות מטקסט בגודל 12 מיליארד פרמטרים שנותן פייט לכלים המובילים כיום. כמה הוא טוב - והאם גודל הרשת שלו בהכרח טובה יותר ממודלים קטנים יותר? בואו נדבר על זה >>>

שוב זה קורה

אנחנו כבר יודעים שהחידושים לא מפסיקים לזרום ובלתי אפשרי לעמוד בקצב. עם זאת, יש מקרים בהם רצוי ואף צריך להתעכב כדי לשים לב לחידושים כמו המודל שבחרתי לדבר עליו כאן.

מדובר במודל בגודל של 12 מיליארד פרמטרים שיש לו הבנה די טובה של טקסט, הוא לא חוסם פרומפטים בקלות שבה מודלים אחרים חוסמים אלא מאפשר יותר חופש, התוצרים שלו מאוד טובים והוא אפילו יודע לעבוד טוב מאוד עם טקסטים.

במקום לעשות לנו חיים קלים, המודל שוחרר במספר גרסאות:

  1. גרסה מהירה מאוד (״שנל״ בגרמנית) - Flux Schnell. נכון לכתיבת שורות אלה, כ-1.2 מיליון משתמשים כבר הריצו את המודל אצלם. לחילופין, ניתן להשתמש ב-API בעלות של 0.003$ לתמונה.
  2. גרסה ״כבדה״ יותר למפתחים ויוצרים - Flux Dev.
  3. גרסת הפרימיום - Flux Pro, שלא ניתן להשתמש בה מקומית על המחשב אלא רק דרך גישה ל-API בתשלום. העלות היא דולר לכ-20 תמונות. או 10$ עבור 200 תמונות. זה לא זול אבל אין ספק שהתוצרים מדהימים.

קבלו מספר דוגמאות של Flux Pro :

Artistic interpretation of the human consciousness and subconsciousness
Write this poem with cursive text on a background that fits the words:

Roses are red
Violets are blue,
Sugar is sweet
And so are you.
A tense diplomatic negotiation in a grand hall, featuring representatives from 20 different countries, each wearing traditional attire. The scene should include interpreters, aides whispering to their leaders, and visible emotional reactions ranging from frustration to hope.
A dark-haired woman in her early thirties playing the piano accordion in the middle of an octagonal wooden dance floor with a wooden roof in the swedish forest, surrounded by dancers dancing in pairs

מ-Flux ל-Pixart-Alpha

גודל המודל והמורכבות שבהרצה שלו על מחשבים ״פשוטים״ עוררו דיון בקרב קהילת ה-AI. היו שטענו שאין מה להתלונן כי מדובר במודל ששוחרר בחינם אז איך אפשר להתלונן על משהו שמקבלים בחינם? מנגד, היו שטענו שכאשר משחררים מודלים בקוד פתוח צריך להתחשב במגבלות החומרה שיש לרוב המשתמשים.

הסוגיה הזו גרמה לי לתהות במה שרבים עוסקים בו: האם מודל גדול יותר בהכרח יהיה טוב יותר ממודל קטן יותר?

לכאורה התשובה ברורה: ברור שכן. אם יש לי מודל שאומן על הרבה יותר תמונות או מידע, בוודאי שהוא יוכל להיות טוב ואיכותי יותר. התשובה הזו קיבלה תוקף וחיזוק נוסף כשניסיתי לשחק בפועל עם מודלים שונים והתוצאות במודלים הקטנים היו לא וואו.

ואז הגיע Pixart-Alphe. שוטטתי וחקרתי והתעמקתי עד שהגעתי למודל בשם Pixart-Alpha, שהמחקר שבו המכניקה של המודל מוסברת, דווקא מנסה להוכיח שמודל קטן כמו זה, שגודלו 0.6 מיליארד פרמטרים בלבד, מנצח מודלים שהם State-of-the-Art כמו סטייבל דיפיוז'ן ואפילו מידג'רני (כן, כן! כך הם באמת טענו!)

קבלו מספר דוגמאות והפרומפט שלהן:

close up of wolverine from x-men
A baby painter trying to draw very simple picture, white background

A dog that has been meditating all the time

A snowy mountain

knolling of a drawing tools for painter

במחקר, הוצגו גם נתונים על חיסכון בחמצן שזו הסתכלות מעניינת. הרי אימון מודל דורש משאבי מחשוב שצורכים חשמל ומזהמים את הסביבה. חיסכון באימון מודל ישפיע גם על האקלים. לפי הנתונים שהוצגו, המודל PixArt-Alpha חוסך בצורה משמעותית גם חמצן וגם כסף היות ומשך האימון שלו קצר משמעותית:

לא זו בלבד, אלא המודל מאפשר להשתמש גם ב-ControlNet: היכולת שלנו לקחת תמונה ולפרק אותה לקווי מתאר או לעומק של תמונה ועל בסיס הפירוק ליצור תמונה חדשה, מה שיוביל לוריאציות שונות, למשל:

מה שרואים בתמונות הללו הן את תמונת הרפרנס (המקורית) בצד שמאל ואת התוצרים אליהם ניתן להגיע (מימין) באמצעות שימוש ב-ControlNet.

וזה לא נעצר כאן: יש גם שילוב של DreamBooth, מודל שמשתמשים בו בכל התעשייה כדי לאמן מודל על יישות מסוימת כמו אדם, חיה וכדומה. במילים פשוטות: כשאנחנו משתמשים ב-Artflow או ב-Leonardo ומאמנים מודל על 10-15 תמונות שלנו, סביר מאוד שברקע מה שקורה הוא שימוש ב-DreamBooth שזה בדיוק מה שהיא מאפשרת. לדוגמא:

אז מי יותר טוב?

בואו נראה. לקחתי את הפרומפט שהוצג בדוגמא של Flux:

Artistic interpretation of the human consciousness and subconsciousness

אני מזכיר שזה מה שפלאקס יצר:

הזנתי אותו הדבר ל-Pixart-Alpha וקיבלתי את הדבר הבא:

כמו שאתם יכולים לראות, פלאסק, עם מודל בגודל של 12 מיליארד פרמטרים אל מול פיקס ארט אלפא עם מודל בגודל של 0.6 מיליארד פרמטרים. האם זו הוכחה לכך שגודל המודל לא קובע - אלא איכותו, הדאטה שלו ודרך האימון שלו? נראה שבהחלט כן.

זה מהפכני כי זה אומר שבמקום להילחם עם קוונטיזציה (הקטנה) של מודלים ענקיים כדי שירוצו במחשב שלנו, אנו יכולים לחשוב על אימון או שימוש במודלים קטנים וביצוע Fine Tune או Transfer Learning (טכניקות לאימון מודל קיים על מידע נוסף).

פיקס-ארט-אלפא זמינה ממש פה להתנסות:

Pixart-α - a Hugging Face Space by PixArt-alpha
Discover amazing ML apps made by the community

ו-Flux זמין פה למי שרוצה:

black-forest-labs/flux-pro – Replicate
State-of-the-art image generation with top of the line prompt following, visual quality, image detail and output diversity.

אשמח לקרוא מה חשבתם.

בשורות טובות ובתפילה לשובם!

יובל

קורס האוטומציות וה-AI שלי באוויר!! 🎉🎉🎉
עכשיו במבצע השקה: קורס האוטומציות וה-AI שלי באוויר!! 🎉🎉🎉

אודות המחבר