חיבוק פנים מסנן() שיטת

Hybwq Pnym Msnn Sytt



ל-Huging Face יש מספר מודלים ומערכים של עיבוד שפה טבעית (NLP). מערכי הנתונים העצומים הללו מכילים מידע רב שעוזר לאמן את המודל במדויק. עם זאת, לפעמים אנחנו לא צריכים את כל מערך הנתונים כי אנחנו צריכים רק חלק קטן ממנו כדי לענות על הצרכים הנוכחיים שלנו. אם אנחנו רוצים להשתמש באותו מערך נתונים כרגיל עם כל המידע, אימון המודל והאופטימיזציה לוקחים הרבה זמן וזה בזבוז זמן.

אז, אנחנו צריכים איזושהי שיטה או חבילה שיכולה לחלץ את המידע הרלוונטי ממערכי הנתונים. בשפה פשוטה, אנו יכולים לומר שאנו זקוקים לאפשרות סינון נוספת כדי לסנן את מערכי הנתונים בהתאם לדרישות שלנו.

Hugging Face מספק אפשרויות שונות לסינון מערכי הנתונים, מה שעוזר למשתמשים ליצור את מערכי הנתונים המותאמים אישית המכילים רק דוגמאות או מידע העומדים בתנאים ספציפיים.







בחר () שיטה

שיטה זו עובדת על רשימת מדדים מה שאומר שעלינו להגדיר רשימה. בתוך הרשימה הזו, עלינו להזכיר את כל ערכי האינדקס של השורות שאנו רוצים לחלץ. אבל שיטה זו פועלת רק עבור מערכי נתונים קטנים ולא עבור מערכי נתונים ענקיים, מכיוון שאיננו יכולים לראות את כל מערך הנתונים אם הוא ב-GBs (גיגה בייט) או TBs (טרה בייט).



דוגמא :

new_dataset = מערך נתונים. בחר ( [ 0 , אחד עשר , עשרים ואחת , ארבע חמש , חמישים , 55 ] )

הדפס ( רק ( new_dataset ) )

בדוגמה זו, השתמשנו בשיטת 'בחר' כדי לסנן את המידע הנדרש ממערך הנתונים.



Filter() שיטה

שיטת filter() מתגברת על בעיות תהליך select() מכיוון שאין תנאי ספציפי. השיטה filter() מחזירה את כל השורות התואמות למצב או תנאי מסוים.





דוגמא: אנו שומרים את תוכנית Python עם השם 'test.py'.

מ מערכי נתונים יְבוּא load_dataset

# שלב 1: טען את מערך הנתונים
מערך נתונים = load_dataset ( 'imdb' )

# שלב 2: הגדר את פונקציית הסינון
def מסנן_מותאם אישית ( דוגמא ) :
'''
פונקציית סינון מותאמת אישית כדי לשמור דוגמאות עם חיוביות
סנטימנט (תווית == 1).
'''

לַחֲזוֹר דוגמא [ 'תווית' ] == 1

# שלב 3: החל את המסנן כדי ליצור מערך נתונים מסונן חדש
filtered_dataset = מערך נתונים. לְסַנֵן ( מסנן_מותאם אישית )

# שלב 4: בדוק את שמות העמודות הזמינים במערך הנתונים המסונן
הדפס ( 'עמודות זמינות במערך הנתונים המסונן:' ,
filtered_dataset. column_names )

# שלב 5: גישה למידע ממערך הנתונים המסונן
filtered_examples = filtered_dataset [ 'רכבת' ]
num_filtered_examples = רק ( filtered_examples )

# שלב 6: הדפס את המספר הכולל של הדוגמאות המסוננות
הדפס ( 'סה'כ דוגמאות מסוננות:' , num_filtered_examples )

תְפוּקָה:



הֶסבֵּר:

שורה 1: אנו מייבאים את חבילת ה-load_dataset הנדרשת ממערכי הנתונים.

שורה 4: אנו טוענים את מערך הנתונים 'imdb' באמצעות ה-load_dataset.

שורות 7 עד 12: אנו מגדירים את פונקציית הסינון המותאמת אישית ' מסנן_מותאם אישית ' לשמור על הדוגמאות עם סנטימנט חיובי (תווית == 1). פונקציה זו מחזירה רק את השורות שערך התווית שלהן הוא 1.

שורה 15: שורה זו מראה שלמערך הנתונים יש את נתוני סקירת הסרטים 'imdb'. כעת אנו מיישמים את פונקציית הסינון על מסד הנתונים הזה כדי להפריד בין הביקורות החיוביות למסד הנתונים המאוחסן עוד יותר ב-'filtered_dataset.'

שורות 18 ו-19: כעת, אנו בודקים אילו שמות עמודות זמינים ב-filtered_dataset. לכן, הקוד 'filtered_dataset.column_names' מספק את הפרטים של הדרישות שלנו.

שורות 22 ו-23: בשורות אלו, אנו מסננים את העמודה 'רכבת' של מערך הנתונים filtered ומדפיסים את המספר הכולל (אורך) של עמודת הרכבת.

שורה 26: בשורה האחרונה הזו, נדפיס את התוצאה משורה מספר 23.

Filter() עם אינדקסים

ניתן להשתמש בשיטת filter() גם עם מדדים כפי שניתן לראות במצב select() . אבל בשביל זה, עלינו להזכיר כי יש לציין את מילת המפתח 'with_indices=true' מחוץ לשיטת filter() כפי שמוצג בדוגמה הבאה:

odd_dataset = מערך נתונים. לְסַנֵן ( למבדה דוגמא , idx: idx % 2 != 0 , עם_מדדים = נָכוֹן )

הדפס ( רק ( odd_dataset ) )

בדוגמה זו, השתמשנו בשיטת filter() כדי לסנן את המידע הנדרש ממערך הנתונים, כולל רק את השורות האי-זוגיות.

ניתן למצוא את הפרטים המלאים של כל פרמטר של שיטת filter() כאן קישור .

סיכום

ספריית הנתונים של Hugging Face מספקת ערכת כלים חזקה וידידותית לעבודה יעילה עם מערכי נתונים שונים, במיוחד בהקשר של עיבוד שפה טבעית (NLP) ומשימות למידת מכונה. הפונקציה filter() המוצגת בתוכנית מאפשרת לחוקרים ולעוסקים לחלץ תת-קבוצות רלוונטיות של נתונים על ידי הגדרת קריטריוני הסינון המוגדרים על ידי המשתמש. באמצעות פונקציונליות זו, המשתמשים יכולים ליצור ללא מאמץ מערכי נתונים חדשים העומדים בתנאים ספציפיים כגון שמירה על סנטימנט חיובי בביקורות סרטים או חילוץ נתוני טקסט ספציפיים.

הדגמה שלב אחר שלב ממחישה כמה קל לטעון מערך נתונים, להחיל את פונקציות הסינון המותאמות אישית ולגשת לנתונים המסוננים. בנוסף, הגמישות של פרמטרי הפונקציה מאפשרת פעולות סינון מותאמות אישית, כולל תמיכה בעיבוד מרובה עבור מערכי נתונים גדולים. עם ספריית הנתונים של Hugging Face, המשתמשים יכולים לייעל את הנתונים שלהם.