מהו ה-Dalle-mini וכיצד הוא עובד?

Mhw H Dalle Mini Wkyzd Hw Wbd



Dalle-mini הוא מודל למידה עמוקה שיכול ליצור תמונות באיכות גבוהה מטקסט קלט של המשתמש. הוא מבוסס על מודל DALL-E, ש-OpenAI הוציאה בינואר 2021. DALL-E מייצג ' שפה מפורקת וביטוי סמוי ' היא רשת עצבית מבוססת שנאים שיכולה לקודד טקסט ותמונות למרחב סמוי משותף, ואז לפענח אותם בחזרה לכל אחת מהשיטות.

מאמר זה יסביר את התוכן הבא:







מה זה ה-Dalle-mini?

תן לה-מיני היא גרסה קטנה ומהירה יותר של DALL-E, שנוצרה על ידי EleutherAI, קולקטיב מחקר בקוד פתוח. Dalle-mini משתמש ב-6 מיליארד פרמטרים בלבד, בהשוואה ל-12 מיליארד של DALL-E, והוא יכול לרוץ על GPU יחיד. Dalle-mini משתמש גם באסימון ואוצר מילים שונים עבור קלט הטקסט, מה שהופך אותו לתואם יותר עם שפות ותחומים שונים:




הערה : משתמשים יכולים ליצור תמונות ללא עלות באמצעות ה-Dalle-mini על ידי ביצוע ה- קישור .



מהי העבודה של Dalle-mini?

הרעיון המרכזי מאחורי Dalle-mini הוא כוחם של שנאים, שהם רשתות עצביות. הם יכולים ללמוד תלות ארוכת טווח ודפוסים מורכבים בנתונים עוקבים, כגון טקסט או תמונות.





רובוטריקים מורכבים משני חלקים עיקריים: מקודד ומפענח. החלק הראשון לוקח קלט (תיאור טקסט) ומשנה אותו לוקטורים נסתרים. לאחר מכן, המפענח לוקח אותו ומייצר פלט (תמונה) שרלוונטי לקלט.

מה ההבדל בין Dalle-mini ל-DALL-E?

ה-Dalle-mini ו-DALL-E משתמשים בארכיטקטורת מקודד-מפענח משותפת עבור טקסט ותמונות כאחד. הם יכולים לקודד ולפענח את שני האופנים באמצעות אותה רשת. זה מאפשר להם ללמוד מרחב סמוי משותף אשר לוכד את הקשר הסמנטי בין טקסט לתמונות. לאחר מכן, מאפשר להם לבצע יצירה חוצה אופנים, כגון יצירת תמונות מטקסט או להיפך.



איך Dalle-mini עובד?

כדי ליצור תמונה מתיאור טקסט, Dalle-mini מסמל תחילה את הטקסט באמצעות אלגוריתם קידוד בתים (BPE), אשר מפצל את הטקסט ליחידות של מילות משנה על סמך התדירות וההתרחשות המשותפת שלהן:


הבה נעבור לפרטים על העבודה הפנימית של Dalle-mini:

עבודה פנימית של Dalle-mini

נניח שהמילה ' משחק ' עשוי להתפצל ל' פלא ' ו' יינג '. לאחר מכן, האסימונים ממופים לזיהויים מספריים באמצעות אוצר מילים של 8192 אסימונים. המזהים מוזנים לתוך המקודד, ומייצרים ייצוג סמוי בגודל 256 x 64:


לאחר מכן, המפענח לוקח את הייצוג הסמוי ומייצר תמונה בגודל 256 x 256 פיקסלים. המפענח משתמש בתהליך אוטורגרסיבי, כלומר הוא יוצר כל פיקסל אחד אחד, מותנה בפיקסלים הקודמים ובייצוג הסמוי.

כיצד ליצור תמונה מתיאור טקסט באמצעות Dalle-mini?

כדי ליצור תיאור טקסט מתמונה באמצעות Dalle-mini, הזן את הטקסט בחלון ההנחיה. לדוגמה, הקלד ' ציור של פרחים אקראיים ' בהנחיה ולחץ על ' לָרוּץ ' כפתור:


הפלט מראה ש-Dalle-mini יצר תמונות רלוונטיות בהתאם לטקסט הקלט.

סיכום

Dalle-mini הוא דגם יוצא דופן המדגים את הפוטנציאל של שנאים לייצור חוצה אופנים. הם יכולים ליצור דימויים מציאותיים ומגוונים מתיאורי שפה טבעית, כמו גם טקסטים קוהרנטיים ורלוונטיים מתמונות. הם יכולים גם להתמודד עם קומפוזיציות מורכבות, כגון שילוב של מספר אובייקטים או תכונות בתמונה או טקסט אחד. מאמר זה הסביר את ה-Dalle-mini ואת פעולתו בפירוט.