Pandas Join לעומת מיזוג

Pandas Join L Wmt Myzwg



'Pandas' הוא כלי בעל ביצועים גבוהים עבור סביבת הפיתון. זהו קוד מקור 'פתוח' לניתוח נתונים. ההצטרפות של הפנדות ושיטת המיזוג של הפנדות משמשות לחיבור של שתי מסגרות הנתונים יחד למסגרת נתונים אחת. בשתי השיטות של הפנדות, ההבדל הוא שפונקציית 'הצטרפות' של הפנדות מצטרפת ל-dataframe באמצעות אינדקס. בעוד שפונקציית ה'מיזוג' של הפנדות מצטרפת ל-dataframe על ידי שימוש באינדקס ובשיטת העמודה שבה נוכל לבחור בעצמנו את העמודה הרצויה. שיטת המיזוג של הפנדות משמשת בעיקר בהשוואה לשיטת ההצטרפות של הפנדות. התוכנה בה נשתמש לצורך היישום היא תוכנת 'spyder', שנמצאת בסביבת python אשר תספק לנו הטבות עבור הטמעת קוד של שיטת pandas join() ופונקציית שיטת pandas merge() .

תחביר של שיטת Pandas Join()

'df1. לְהִצְטַרֵף ( df2 )

ה-'df' בתחביר הנ'ל הוא הקיצור של 'dataframe'. ישנן שתי מסגרות נתונים בתחביר עם הפונקציה 'dot join', המיועדת לקריאה למתודה. זוהי שיטת הפנדות לחיבור שתי מסגרות נתונים. זה עובד על ידי שימוש באינדקס כדי לשלב את מסגרות הנתונים באחד.







תחביר של Pandas Merge() Method

'df1. לְמַזֵג ( df2 , עַל = 'שם_עמודה' )

לתחביר שיטת המיזוג של פנדה יש ​​שתי מסגרות נתונים כמו 'df1' ו-'df2'. הפונקציה 'מיזוג נקודות' קוראת לשיטת החיבור של שתי מסגרות הנתונים עם מראה של עמודות הפוך.



אנו נסקור את הדרכים הבאות לשילוב שתי מסגרות נתונים על מנת להשתמש בשיטות של מיזוג פנדה והצטרפות פנדה:



  • שיטת ה-Pandas Join חופפת.
  • פנדות מצטרפות לשיטה באמצעות איפוס אינדקס.
  • שיטת המיזוג של פנדות (עמודה 'שמאל וימין').
  • שיטת המיזוג של פנדות מפורשת.

יצירת מסגרות הנתונים ליישום שיטת המיזוג של Pandas ו-Pandas Join

ראשית, עלינו ליצור מסגרת נתונים. לשם כך, נשתמש בכלי 'ספיידר'. לאחר פתיחתו, התחל לכתוב את הקוד. ייבוא ​​פנדות כ-'pd' עבור עמותת ספריית פנדות. יש לנו את משתני מסגרת הנתונים כ-'x', 'y', 'p', ו-'q בהתאם ו-'a' עם הערכים '1' ו-'b' כשהערך מוקצה כ-'2'.





הפלט הוא 'df' שנוצר עם הערכים שהוקצו. אנחנו יכולים לעשות את זה גדול ככל הנתונים.



יצירת מסגרת נתונים נוספת

עלינו ליצור מסגרת נתונים נוספת, כדי להבין את שיטות ההצטרפות של הפנדות והתמזגות הפנדות בצורה ברורה. כאן, יצרנו 'df' זהה ל-'df' לעיל, רק הערכים שהוקצו למשתנים שונים. יש לנו 'h', 'j', 's' ו- 'd', בעוד שהערכים 'b' עם הערך '8' ו- 'Y' עם הערך '3'.

הפלט מראה 'df' פשוט שנוצר.

דוגמה מס' 01: שיטת ההצטרפות של פנדות (חפיפה)

כעת, נראה כיצד לחבר שתי מסגרות נתונים בשיטת ההצטרפות של פנדה. עבור שיטה זו, נוכל לבחור את העמודה לבחירתך עליה אנו רוצים לעבוד מתוך ה-dataframe. לקחנו את הדוגמה עם העמודה החופפת 'שמאל' מה-'df', כך שנוכל לתקן זאת עם 'הסיומת' כדי להתגבר על חפיפת הנתונים. כאן, המשתנים המשמשים הם 'x', 'z', 'v', 'd'. 'p', 'o', 'l' ו-'y' כאשר הערכים הוקצו כ-'3', '6', '7' ו-'9'. ה-'.join' קורא לשיטה, כאשר ה-align מוגדר ל-right join עם סיומת 'df' הימנית. '. ה'סיומת' המשמשת בקוד היא בגלל שבמסגרת הנתונים, יש שתי עמודות עם אותו שם שהוא 'מפתח' ושלא יחפוף את הנתונים.

הפלט אינו מציג נתונים חופפים בשיטה של ​​חיבור שני 'df' בשיטת ההצטרפות של pandas.

דוגמה מס' 02: שיטת הצטרפות של פנדות באמצעות איפוס אינדקס

בדוגמה זו, נציין בנפרד את העמודה עם הפרמטר 'on' לשימוש כ-'מפתח' ב- method join המסייע בחיבור שתי מסגרות הנתונים. הדבר המשולב נעשה עם הפרמטר הזה. כמו כן, האינדקס של אחד משני 'df' צריך להיות דומה כדי להצטרף אליהם. סוגים דומים של נתונים או נתונים המשמשים לאותה מטרה יכולים להיות יחד לעיבוד. זה ישתמש באינדקס עדיין, באמצעות מימין. המשתנים הם 's', 't', 'u', 'v', 'n', 'w', 'k' ו-'q'. הערכים שהוקצו הם '3', '6', '7' ו- '9'. 'איפוס הנקודה אינדקס' היא שיטה של ​​פנדות לאיפוס האינדקס של ה'df'. אינדקס האיפוס מגדיר את כל המספרים השלמים של רישום ה-Dataframe שלך ​​מ-0 עד שנתוני ה-Dataframe שם מתארכים למעלה.

הנה הפלט המוצג עם שיטת ההצטרפות 'מפתח' לאינדקס של פנדות.

דוגמה מס' 03: שיטת מיזוג פנדה (עמודה 'שמאל וימין')

שיטת המיזוג אכן מבצעת פעולה דומה לשיטת ההצטרפות של הפנדות. שתי השיטות מיועדות לשילוב נתונים על מסגרת נתונים דומה. שיטת המיזוג היא מגוונת יותר הדורשת ציון המפתח. אנו יכולים גם לציין זאת בעמודה השמאלית והימנית בהתאם לעבודה של מסגרת הנתונים שלך. המשתנים בקוד הם 's', 'd', 'g', 'f', 'k', 'j', 'b' ו-'q'. הערכים שהוקצו הם '9', '5', '6' ו- '7'. היישום החיצוני של 'הצטרפות' נעשה בשני 'df' באמצעות הפרמטר 'how' של פונקציית שיטת המיזוג של פנדה.

הפלט שאנו רואים מציג את הנתונים הממוזגים של שתי מסגרות הנתונים. ה-'NaN' מייצג את 'לא מספר' מה שאומר שכאשר אין מספר מוקצה בנתונים, ה-'NaN' מציג שם.

דוגמה מס' 04: שיטת המיזוג במפורש

כאן, בדוגמה זו, שיטת המיזוג היא הרס של האינדקס וערך האינדקס אינו מונחה על ה-dataframe. אנו נעשה שיטה זו בהתאם לעבודה שיש לבצע, כאשר המפורש המפרט הוא לעקוב. זה ימזג את הנתונים על סמך אינדקס שמאלי או אינדקס ימני עם הפרמטר. המשתנים במסגרת הנתונים הזו הם 't', 'r', 'I', 'u', 'h', 'o', 'e' ו- 'e'. הערכים שהוקצו הם '2', '4', '6' ו- '4'. הדוגמה לעיל של שיטת המיזוג של הפנדות עם בחירת העמודות לפי הצורך היא השיטה היעילה והיעילה ביותר לחיבור שני הנתונים פריימים. בדיקה בסוף שורת הקוד אם מפתח המיזוג הוא ייחודי במערך הנתונים.

בפלט למטה האינדקס לא מוצג ללא האינדקס אלא הפונקציה מבוצעת על סמך האינדקס הימני והשמאלי.

סיכום

שיטות המיזוג() וה-join() הן שתיהן שיטות מאוד נוחות ויעילות. שתי הפונקציות הללו משמשות לחיבור שתי מסגרת הנתונים הנפרדות באותה מסגרת נתונים אך יש להן שימוש שונה בהתאם למקרה. במאמר זה למדנו את ההבדלים העיקריים בין שיטת ההצטרפות והמיזוג של הפנדות. לאחר שנעשה את הדוגמאות ונבין את שיטת ההצטרפות של הפנדות, נסיים אותה בידיעה שאם אנחנו רוצים הצטרפות גמישה יותר ובסגנון מסד נתונים, עדיף ללכת על שיטת המיזוג של הפנדות. מצד שני, אם ברצוננו לבצע את שילוב ה-dataframe עם האינדקס באופן נרחב, נוכל ללכת עם פונקציית השיטה pandas join() .