Pandas คือ Library หนึ่งของ Python ที่มีความสามารถสำหรับจัดเตรียม ทำความสะอาด เก็บกวาดข้อมูลไว้ทำหรับการทำ Data Visualization และ สร้าง Model ต่อไป โดยเจ้า Pandas นี้ถูกสร้างขึ้นบนพื้นฐานของ Library Numpy ครับ
สิ่งที่ทำให้ Pandas ถูกนำไปใช้อย่างแพร่หลายนั้น เพราะมี Object ที่สารพัดประโยชน์มากๆ เรียกว่า DataFrame
หน้าตาของเจ้า DataFrame ก็เป็นแบบนี้ครับ
column 1
|
column 2
|
column 3
|
column 4
|
column 5
|
column 6
|
|
---|---|---|---|---|---|---|
row 1
|
0.214779
|
0.272664
|
0.357340
|
0.618624
|
0.641341
|
0.714018
|
row 2
|
0.580274
|
0.333899
|
0.773196
|
0.636368
|
0.505414
|
0.118418
|
row 3
|
0.278652
|
0.690974
|
0.161503
|
0.876776
|
0.484106
|
0.957664
|
row 4
|
0.130578
|
0.634538
|
0.717046
|
0.995793
|
0.027856
|
0.629417
|
row 5
|
0.581069
|
0.782601
|
0.253953
|
0.585427
|
0.430106
|
0.144663
|
row 6
|
0.703484
|
0.852963
|
0.452932
|
0.103252
|
0.479658
|
0.761146
|
สังเกตุให้ดี หน้าตามันคล้ายๆ Spreadsheet ของ Excel เลย โดยมี Column (แถวแนวตั้ง) และ Row (แถวแนวนอน)
ซึ่งหากเราตัด Row มา หนึ่ง Row แบบนี้
row 3
|
0.278652
|
0.690974
|
0.161503
|
0.876776
|
0.484106
|
0.957664
|
---|
หรือตัด Column มา หนึ่ง Column แบบนี้
column 5 | |
---|---|
row 1 | 0.641341 |
row 2 | 0.505414 |
row 3 | 0.484106 |
row 4 | 0.027856 |
row 5 | 0.430106 |
row 6 | 0.479658 |
เจ้าหนึ่งแถวที่ได้ออกมา | ไม่ว่าจะแนวนอน (Row) หรือ แนวตั้ง (Column) | ใน Pandas เรียกว่า Series
(ถ้ายังไม่เข้าใจอ่านออกเสียงประโยคด้านบน ตามที่แบ่งไว้อีกทีนะ)
ดังนั้น เมื่อเอา หลายๆ Series มาประกอบร่างเข้าด้วยกันก็จะกลายเป็น DataFrame นั่นเอง
(เอากันให้ชัดอีกทีคือ Series เป็น Object หนึ่งมิติ ส่วน DataFrame นั้นเป็น Object สองมิติ)
การสร้าง Series ใน Pandas
เริ่มจาก import library pandas ด้วยคำสั่ง
as pd นั้นเป็นการอ้างอิงถึงชื่อ Library ที่เรานำเข้ามา ซึ่งมีประโยชน์อย่างไรเดี๋ยวจะได้ชมกัน
จากนั้นเริ่ม สร้าง series ด้วยคำสั่ง Series() โดยในวงเล็บนั้น จะประกอบไปด้วยสองส่วน
- ส่วนแรกคือ ข้อมูลที่เราต้องการใส่ลงไป (value) อยู่ในรูปแบบของ Python List []
- ส่วนสอง คือการปรับค่า attribute ‘index’ ซึ่งหมายถึงชื่อของแถว (index) ที่จะผูกกับข้อมูลของเรา ทำให้เราสามารถอ้างอิงกลับมาได้ภายหลัง โดยค่าใน index อยู่ในรูปแบบของ Python List [] เช่นกัน
จาก Code ด้านบน หากเราไม่กำหนด ชื่อ pd ตอน import เวลาเรียกคำสั่งจาก pandas เราต้องพิมพ์ pandas.Series แบบนี้ทุกครั้ง ซึ่งบาง Library ชื่อยาวมาก จะให้พิมพ์ทุกครั้งคงเสียเวลาน่าดู
ทีนี้ เราลองมาดูกันว่า Series ที่เราสร้างนั้น หน้าตาเป็นอย่างไร
Member II Music
Member III Mobile
dtype: object
เราจะเห็นว่า ชื่อของ member แต่ละคนผูกกับชื่อแถว Member I II III ตามที่เราได้ตั้งเอาไว้ใน index
ทีนี้หาเราต้องการเรียก index ของแต่ละชื่อออกมาก็สามารถทำได้ง่ายๆ โดยใส่ชื่อ Row ที่เราต้องการเรียกไว้หลัง my_series ในวงเล็บ [] อย่างนี้
ผลที่ได้ก็คือ
นอกจากจะใส่ชื่อ Row แล้ว ยังสามารถใส่ตัวเลขตามลำดับของ index ได้ โดยอันดับนั้นเริ่มต้นจาก 0 ไม่ใช่ 1 นะครับ ยกตัวอย่างเราต้องการเลือกแถวแรกสุดกับแถวที่สาม เขียนโค้ดได้ดังนี้
ผลที่ได้คือ
Member III Mobile
dtype: object
เห็นไหมครับว่าการสร้าง Series ใน Pandas นั้นไม่ยากเลย เขียนแค่ code เพียงบรรทัดเดียวเท่านั้น
ลองฝึกกันดูนะครับ ถ้าเข้าใจแล้วไปต่อกันที่การสร้าง DataFrame ใน Pandas กันเลย
กด Like กด Share กันได้นะครับ และ ยังสามารถกดติดตาม Facebook ของเราได้ที่นี่ หรือ Follow ใน Twitter เพื่อ ให้ทีมงาน AI Informatics มีกำลังใจผลิตเนื้อหาต่อไปครับ ขอบคุณครับ