כיצד להשתמש בערכות נתונים של חיבוק פנים

Kyzd Lhstms B Rkwt Ntwnym Sl Hybwq Pnym



הישימות והשימושיות של מודלים של Machine Learning נבדקת על פי נתונים. מהימנות הבדיקות תלויה במידה רבה בכמות ובאיכות הנתונים עליהם מיושמים מודלים אלו. זוהי משימה שלמה בפני עצמה ליצור, להשיג ולנקות מערך נתונים גדול מתאים כדי לבדוק את ' עיבוד שפה טבעית (NLP) 'מודל למידת מכונה.

Hugging Face מציעה פתרון מסודר לכך עם הספרייה הגדולה במיוחד של מערכי נתונים לבחירה ולמצוא את זה שמתאים בצורה מושלמת לדרישות שלך. כאן, אנו נראה לך כיצד למצוא את מערך הנתונים האידיאלי ולהכין אותו כדי לבדוק כראוי את המודל שלך.







כיצד להשתמש בערכות נתונים של חיבוק פנים?

אנו נראה לך כיצד להשתמש ב-Huging Face Datasets באמצעות הדוגמה של ' קטנטנות 'ערכת נתונים מ-Huging Face.



דוגמא

מערך הנתונים של TinyStories כולל יותר מ-2 מיליון שורות של נתונים בפיצול הרכבת ויש לו יותר מ-2,000 הורדות בפלטפורמת Hugging Face. אנו נשתמש בו בקוד ב-Google Colab המופיע להלן:



! צִפצוּף להתקין רוֹבּוֹטרִיקִים
! צִפצוּף להתקין מערכי נתונים

ממערכי נתונים ייבוא ​​load_dataset

מערך נתונים = load_dataset ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
example_string = מערך נתונים [ 'רכבת' ] [ סיפור_קטנטנים ] [ 'טֶקסט' ]

הדפס ( example_string )


בקוד זה, שקול את השלבים המפורטים להלן:





שלב 01 : הצעד הראשון הוא ' הַתקָנָה ' של מערכי נתונים של שנאים.

שלב 02 : לאחר מכן, ייבא את מערך הנתונים הנדרש, ' קטנטנות ' לתוך הפרויקט שלך.



שלב 03 : לאחר מכן, טען את מערך הנתונים שנבחר באמצעות ' load_dataset() ' פונקציה.

שלב 04 : כעת, אנו מציינים את מספר הסיפור שאנו רוצים ממערך הנתונים של TinyStories. ציינו את המספר 03 בדוגמא הקוד שלנו.

שלב 05 : לבסוף, נשתמש בשיטת 'print()' כדי להציג את הפלט.

תְפוּקָה



הערה: ניתן לצפות בקוד ובפלט ישירות ב-Google Colab שלנו .

סיכום

' מערכי נתונים של חיבוק פנים ' הופכים את זה ליעיל להפליא עבור משתמשים לבדוק את המודלים של Machine Learning שלהם תוך ייבוא ​​ישיר של מערכי נתונים גדולים מהספרייה המקוונת שלהם. כתוצאה מכך, היישום של אלגוריתמי NLP הפך לקל ומהיר יותר מכיוון שמתכנתים מסוגלים לבדוק את הפרויקטים שלהם מול מערך נתונים שיש לו גם איכות וגם כמות.