כיצד להשתמש באסימונים בשנאי פנים חיבוקים?

Kyzd Lhstms B Symwnym Bsn Y Pnym Hybwqym



עיבוד שפה טבעית (NLP) פועל על הצורה הגולמית של הנתונים. מודלים של למידת מכונה מאומנים על נתונים מורכבים, אך הם אינם יכולים להבין נתונים גולמיים. צורה גולמית זו של נתונים חייבת להיות משויכת אליה ערך מספרי כלשהו. ערך זה קובע את השווי והחשיבות של המילה בנתונים ועל בסיס זה מתבצעים חישובים.

מאמר זה מספק מדריך שלב אחר שלב על שימוש בטוקנייזרים ב-Huging Face Transformers.

מה זה Tokenizer?

Tokenizer הוא מושג חשוב ב-NLP, ומטרתו העיקרית היא לתרגם את הטקסט הגולמי למספרים. קיימות טכניקות ומתודולוגיות שונות למטרה זו. עם זאת, ראוי לציין כי כל טכניקה משרתת מטרה מסוימת.
כיצד להשתמש באסימונים בשנאי פנים חיבוקים?







כיצד להשתמש באסימונים בשנאי פנים חיבוקים?

יש להתקין תחילה את ספריית הטוקניזר לפני השימוש בה וייבוא ​​פונקציות ממנה. לאחר מכן, אמן מודל באמצעות AutoTokenizer, ולאחר מכן ספק את הקלט לביצוע טוקניזציה.



חיבוק פנים מציג שלוש קטגוריות עיקריות של טוקניזציה המובאות להלן:



  • Tokenizer מבוסס מילים
  • Tokenizer מבוסס תווים
  • Tokenizer מבוסס מילות משנה

להלן מדריך שלב אחר שלב לשימוש ב-Tokenizers ברובוטריקים:





שלב 1: התקן רובוטריקים
כדי להתקין שנאים, השתמש בפקודה pip בפקודה הבאה:

! צִפצוּף להתקין רוֹבּוֹטרִיקִים



שלב 2: ייבוא ​​שיעורים
משנאים, יבוא צנרת , ו AutoModelForSequenceClassification ספרייה לביצוע סיווג:

מצינור ייבוא ​​שנאים, AutoModelForSequenceClassification

שלב 3: דגם ייבוא
ה ' AutoModelForSequenceClassification ” היא שיטה ששייכת ל-Auto-Class לטוקניזציה. ה from_pretrained() השיטה משמשת להחזרת מחלקת המודל הנכונה בהתבסס על סוג המודל.

כאן סיפקנו את שם הדגם ב' שם המודל משתנה:

שם המודל = 'distilbert-base-uncased-finetuned-sst-2-english'
מודל pre_training =AutoModelForSequenceClassification.from_pretrained ( שם המודל )

שלב 4: ייבוא ​​AutoTokenizer
ספק את הפקודה הבאה ליצירת אסימונים על ידי העברת ה-' שם המודל ' כמו הטיעון:

משנאים ייבוא ​​AutoTokenizer

האסימון שנוצר =AutoTokenizer.from_pretrained ( שם המודל )

שלב 5: צור אסימון
כעת, ניצור אסימונים על משפט ”אני אוהב אוכל טוב“ באמצעות ' האסימון שנוצר משתנה:

מילים =generatetoken ( 'אני אוהב אוכל טוב' )
הדפס ( מילים )

הפלט ניתן באופן הבא:

הקוד לעיל Google Co ניתן כאן.

סיכום

כדי להשתמש ב-Tokenizers ב-Huging Face, התקן את הספרייה באמצעות פקודת pip, אמן דגם באמצעות AutoTokenizer, ולאחר מכן ספק את הקלט לביצוע טוקניזציה. על ידי שימוש בטוקניזציה, הקצה משקלים למילים המבוססות על רצף שלהן כדי לשמור על משמעות המשפט. ציון זה קובע גם את ערכם לניתוח. מאמר זה הוא מדריך מפורט כיצד להשתמש ב-Tokenizers ב-Huging Face Transformers.