כיצד להשתמש באסימונים בשנאי פנים חיבוקים?

עיבוד שפה טבעית (NLP) פועל על הצורה הגולמית של הנתונים. מודלים של למידת מכונה מאומנים על נתונים מורכבים, אך הם אינם יכולים להבין נתונים גולמיים. צורה גולמית זו של נתונים חייבת להיות משויכת אליה ערך מספרי כלשהו. ערך זה קובע את השווי והחשיבות של המילה בנתונים ועל בסיס זה מתבצעים חישובים.

מאמר זה מספק מדריך שלב אחר שלב על שימוש בטוקנייזרים ב-Huging Face Transformers.

מה זה Tokenizer?

Tokenizer הוא מושג חשוב ב-NLP, ומטרתו העיקרית היא לתרגם את הטקסט הגולמי למספרים. קיימות טכניקות ומתודולוגיות שונות למטרה זו. עם זאת, ראוי לציין כי כל טכניקה משרתת מטרה מסוימת.
כיצד להשתמש באסימונים בשנאי פנים חיבוקים?

כיצד להשתמש באסימונים בשנאי פנים חיבוקים?

יש להתקין תחילה את ספריית הטוקניזר לפני השימוש בה וייבוא פונקציות ממנה. לאחר מכן, אמן מודל באמצעות AutoTokenizer, ולאחר מכן ספק את הקלט לביצוע טוקניזציה.

חיבוק פנים מציג שלוש קטגוריות עיקריות של טוקניזציה המובאות להלן:

Tokenizer מבוסס מילים
Tokenizer מבוסס תווים
Tokenizer מבוסס מילות משנה

להלן מדריך שלב אחר שלב לשימוש ב-Tokenizers ברובוטריקים:

שלב 1: התקן רובוטריקים
כדי להתקין שנאים, השתמש בפקודה pip בפקודה הבאה:

! צִפצוּף להתקין רוֹבּוֹטרִיקִים

שלב 2: ייבוא שיעורים
משנאים, יבוא צנרת , ו AutoModelForSequenceClassification ספרייה לביצוע סיווג:

מצינור ייבוא שנאים, AutoModelForSequenceClassification

שלב 3: דגם ייבוא
ה ' AutoModelForSequenceClassification ” היא שיטה ששייכת ל-Auto-Class לטוקניזציה. ה from_pretrained() השיטה משמשת להחזרת מחלקת המודל הנכונה בהתבסס על סוג המודל.

כאן סיפקנו את שם הדגם ב' שם המודל משתנה:

שם המודל = 'distilbert-base-uncased-finetuned-sst-2-english'
מודל pre_training =AutoModelForSequenceClassification.from_pretrained ( שם המודל )

שלב 4: ייבוא AutoTokenizer
ספק את הפקודה הבאה ליצירת אסימונים על ידי העברת ה-' שם המודל ' כמו הטיעון:

משנאים ייבוא AutoTokenizer

האסימון שנוצר =AutoTokenizer.from_pretrained ( שם המודל )

שלב 5: צור אסימון
כעת, ניצור אסימונים על משפט ”אני אוהב אוכל טוב“ באמצעות ' האסימון שנוצר משתנה:

מילים =generatetoken ( 'אני אוהב אוכל טוב' )
הדפס ( מילים )

הפלט ניתן באופן הבא:

הקוד לעיל Google Co ניתן כאן.

סיכום

כדי להשתמש ב-Tokenizers ב-Huging Face, התקן את הספרייה באמצעות פקודת pip, אמן דגם באמצעות AutoTokenizer, ולאחר מכן ספק את הקלט לביצוע טוקניזציה. על ידי שימוש בטוקניזציה, הקצה משקלים למילים המבוססות על רצף שלהן כדי לשמור על משמעות המשפט. ציון זה קובע גם את ערכם לניתוח. מאמר זה הוא מדריך מפורט כיצד להשתמש ב-Tokenizers ב-Huging Face Transformers.

כיצד להשתמש באסימונים בשנאי פנים חיבוקים?

מה זה Tokenizer?

כיצד להשתמש באסימונים בשנאי פנים חיבוקים?

סיכום

קטגוריה

רשום פופולרי

איך לקבל שינויים מסניף אחר?

8 תיקונים עבור גלילת לוח מגע לא עובד

האם אוכל להעלות את קובץ האודיו שלי שנראה כמו הודעה קולית בדיסקורד?

מהי העבודה של Jasper.ai?

כיצד לתקן בעיות זמן שגויות בדיסקורד

Pandas Groupby Agregate

Oracle Limit Rows

התקן ג'אווה על אובונטו 24.04

כיצד להגדיר שכפול רב אזורי עם אמזון אורורה?

שיטת Python File readable()

כיצד לאפשר חלונות קופצים בגוגל כרום

כיצד להסיר אפסים מובילים ממחרוזת ב-JavaScript

סעיף OVER של SQL

כיצד לטפל באירועי שינויים הניתנים לעריכה ב-JavaScript

כיצד להשתמש בדף נוף ב-LaTeX

שימוש ב-ESP32 Bluetooth Classic עם Arduino IDE

כיצד לבדוק אם מחרוזת מכילה נקודה ב-JavaScript

כיצד להוציא/לעדכן קובץ בודד מ-Remote Origin Master?

כיצד להציג את תג הסטטוס עבור פעולת GitHub?

כיצד לכבות את חוסם חלונות קופצים באייפון