מהו ה-Dalle-mini וכיצד הוא עובד?

Dalle-mini הוא מודל למידה עמוקה שיכול ליצור תמונות באיכות גבוהה מטקסט קלט של המשתמש. הוא מבוסס על מודל DALL-E, ש-OpenAI הוציאה בינואר 2021. DALL-E מייצג ' שפה מפורקת וביטוי סמוי ' היא רשת עצבית מבוססת שנאים שיכולה לקודד טקסט ותמונות למרחב סמוי משותף, ואז לפענח אותם בחזרה לכל אחת מהשיטות.

מאמר זה יסביר את התוכן הבא:

מה זה ה-Dalle-mini?

תן לה-מיני היא גרסה קטנה ומהירה יותר של DALL-E, שנוצרה על ידי EleutherAI, קולקטיב מחקר בקוד פתוח. Dalle-mini משתמש ב-6 מיליארד פרמטרים בלבד, בהשוואה ל-12 מיליארד של DALL-E, והוא יכול לרוץ על GPU יחיד. Dalle-mini משתמש גם באסימון ואוצר מילים שונים עבור קלט הטקסט, מה שהופך אותו לתואם יותר עם שפות ותחומים שונים:

הערה : משתמשים יכולים ליצור תמונות ללא עלות באמצעות ה-Dalle-mini על ידי ביצוע ה- קישור .

מהי העבודה של Dalle-mini?

הרעיון המרכזי מאחורי Dalle-mini הוא כוחם של שנאים, שהם רשתות עצביות. הם יכולים ללמוד תלות ארוכת טווח ודפוסים מורכבים בנתונים עוקבים, כגון טקסט או תמונות.

רובוטריקים מורכבים משני חלקים עיקריים: מקודד ומפענח. החלק הראשון לוקח קלט (תיאור טקסט) ומשנה אותו לוקטורים נסתרים. לאחר מכן, המפענח לוקח אותו ומייצר פלט (תמונה) שרלוונטי לקלט.

מה ההבדל בין Dalle-mini ל-DALL-E?

ה-Dalle-mini ו-DALL-E משתמשים בארכיטקטורת מקודד-מפענח משותפת עבור טקסט ותמונות כאחד. הם יכולים לקודד ולפענח את שני האופנים באמצעות אותה רשת. זה מאפשר להם ללמוד מרחב סמוי משותף אשר לוכד את הקשר הסמנטי בין טקסט לתמונות. לאחר מכן, מאפשר להם לבצע יצירה חוצה אופנים, כגון יצירת תמונות מטקסט או להיפך.

איך Dalle-mini עובד?

כדי ליצור תמונה מתיאור טקסט, Dalle-mini מסמל תחילה את הטקסט באמצעות אלגוריתם קידוד בתים (BPE), אשר מפצל את הטקסט ליחידות של מילות משנה על סמך התדירות וההתרחשות המשותפת שלהן:

הבה נעבור לפרטים על העבודה הפנימית של Dalle-mini:

עבודה פנימית של Dalle-mini

נניח שהמילה ' משחק ' עשוי להתפצל ל' פלא ' ו' יינג '. לאחר מכן, האסימונים ממופים לזיהויים מספריים באמצעות אוצר מילים של 8192 אסימונים. המזהים מוזנים לתוך המקודד, ומייצרים ייצוג סמוי בגודל 256 x 64:

לאחר מכן, המפענח לוקח את הייצוג הסמוי ומייצר תמונה בגודל 256 x 256 פיקסלים. המפענח משתמש בתהליך אוטורגרסיבי, כלומר הוא יוצר כל פיקסל אחד אחד, מותנה בפיקסלים הקודמים ובייצוג הסמוי.

כיצד ליצור תמונה מתיאור טקסט באמצעות Dalle-mini?

כדי ליצור תיאור טקסט מתמונה באמצעות Dalle-mini, הזן את הטקסט בחלון ההנחיה. לדוגמה, הקלד ' ציור של פרחים אקראיים ' בהנחיה ולחץ על ' לָרוּץ ' כפתור:

הפלט מראה ש-Dalle-mini יצר תמונות רלוונטיות בהתאם לטקסט הקלט.

סיכום

Dalle-mini הוא דגם יוצא דופן המדגים את הפוטנציאל של שנאים לייצור חוצה אופנים. הם יכולים ליצור דימויים מציאותיים ומגוונים מתיאורי שפה טבעית, כמו גם טקסטים קוהרנטיים ורלוונטיים מתמונות. הם יכולים גם להתמודד עם קומפוזיציות מורכבות, כגון שילוב של מספר אובייקטים או תכונות בתמונה או טקסט אחד. מאמר זה הסביר את ה-Dalle-mini ואת פעולתו בפירוט.

מהו ה-Dalle-mini וכיצד הוא עובד?

מה זה ה-Dalle-mini?

מהי העבודה של Dalle-mini?

מה ההבדל בין Dalle-mini ל-DALL-E?

איך Dalle-mini עובד?

כיצד ליצור תמונה מתיאור טקסט באמצעות Dalle-mini?

סיכום

קטגוריה

רשום פופולרי

כיצד לפתור בעיות נפוצות ב- Metasploit במהלך בדיקת חדירה

Date.getDay() מחזירה יום שגוי ב-JavaScript [תוקן]

כיצד להתקין ולהגדיר את Hamachi בלינוקס

כיצד אוכל לדחוף סניף מקומי חדש למאגר Git מרוחק ולעקוב אחריו גם?

כיצד להתחבר למופע לינוקס מ-Windows באמצעות PuTTY

ספריית תוכנה סדרתית ב- Arduino

כיצד לשלוט בתנועה לרשתות משנה באמצעות ACL רשת

הוסף Dict ל-DataFrame ב-Pandas

מהו Git Commit Hash וכיצד להשתמש בו?

כיצד לנקות זיכרון Arduino

כיצד לטפל בפונקציית ClearTimeout() של JavaScript?

כלול קובץ HTML נוסף בקובץ HTML

שיטות C++ Getters ו-Setters

האם אוכל להעלות את קובץ האודיו שלי שנראה כמו הודעה קולית בדיסקורד?

כיצד להגדיר נתיבי תבנית ב- Tailwind CSS

כיצד לשלב את מנהל ההתקן של MongoDB Node.js

כיצד לשרטט את קו ההתאמה הטובה ביותר ב-MATLAB?

כיצד להשבית או להסיר את OneDrive ב- Windows 10/11?

התעורר את ESP32 משינה עמוקה באמצעות טיימרים-MicroPython

כיצד ליצור שקעים תלויים ב- Microsoft Word?