การสร้าง Series และ DataFrames ใน Pandas

ส่งต่อความรู้

Pandas คือ Library หนึ่งของ Python ที่มีความสามารถสำหรับจัดเตรียม ทำความสะอาด เก็บกวาดข้อมูลไว้ทำหรับการทำ Data Visualization และ สร้าง Model ต่อไป โดยเจ้า Pandas นี้ถูกสร้างขึ้นบนพื้นฐานของ Library Numpy ครับ

สิ่งที่ทำให้ Pandas ถูกนำไปใช้อย่างแพร่หลายนั้น เพราะมี Object ที่สารพัดประโยชน์มากๆ เรียกว่า DataFrame

หน้าตาของเจ้า DataFrame ก็เป็นแบบนี้ครับ

column 1
column 2
column 3
column 4
column 5
column 6
row 1
0.214779
0.272664
0.357340
0.618624
0.641341
0.714018
row 2
0.580274
0.333899
0.773196
0.636368
0.505414
0.118418
row 3
0.278652
0.690974
0.161503
0.876776
0.484106
0.957664
row 4
0.130578
0.634538
0.717046
0.995793
0.027856
0.629417
row 5
0.581069
0.782601
0.253953
0.585427
0.430106
0.144663
row 6
0.703484
0.852963
0.452932
0.103252
0.479658
0.761146

สังเกตุให้ดี หน้าตามันคล้ายๆ Spreadsheet ของ Excel เลย โดยมี Column (แถวแนวตั้ง) และ Row (แถวแนวนอน)

ซึ่งหากเราตัด Row มา หนึ่ง Row แบบนี้

row 3
0.278652
0.690974
0.161503
0.876776
0.484106
0.957664

หรือตัด Column มา หนึ่ง Column แบบนี้

column 5
row 1 0.641341
row 2 0.505414
row 3 0.484106
row 4 0.027856
row 5 0.430106
row 6 0.479658

เจ้าหนึ่งแถวที่ได้ออกมา | ไม่ว่าจะแนวนอน (Row) หรือ แนวตั้ง (Column) | ใน Pandas เรียกว่า Series

(ถ้ายังไม่เข้าใจอ่านออกเสียงประโยคด้านบน ตามที่แบ่งไว้อีกทีนะ)

ดังนั้น เมื่อเอา หลายๆ Series มาประกอบร่างเข้าด้วยกันก็จะกลายเป็น DataFrame นั่นเอง

(เอากันให้ชัดอีกทีคือ  Series เป็น Object หนึ่งมิติ ส่วน DataFrame นั้นเป็น Object สองมิติ)

การสร้าง Series ใน Pandas

เริ่มจาก import library pandas ด้วยคำสั่ง

import pandas as pd

as pd นั้นเป็นการอ้างอิงถึงชื่อ Library ที่เรานำเข้ามา ซึ่งมีประโยชน์อย่างไรเดี๋ยวจะได้ชมกัน

จากนั้นเริ่ม สร้าง series ด้วยคำสั่ง Series() โดยในวงเล็บนั้น จะประกอบไปด้วยสองส่วน

  • ส่วนแรกคือ ข้อมูลที่เราต้องการใส่ลงไป (value) อยู่ในรูปแบบของ Python List []
  • ส่วนสอง คือการปรับค่า attribute ‘index’ ซึ่งหมายถึงชื่อของแถว (index) ที่จะผูกกับข้อมูลของเรา ทำให้เราสามารถอ้างอิงกลับมาได้ภายหลัง โดยค่าใน index อยู่ในรูปแบบของ Python List [] เช่นกัน
my_series = pd.Series([‘Cherprang ‘, ‘Music’, ‘Mobile’], index = [‘Member I’, ‘Member II’, ‘Member III’])

จาก Code ด้านบน หากเราไม่กำหนด ชื่อ pd ตอน import เวลาเรียกคำสั่งจาก pandas เราต้องพิมพ์ pandas.Series แบบนี้ทุกครั้ง ซึ่งบาง Library ชื่อยาวมาก จะให้พิมพ์ทุกครั้งคงเสียเวลาน่าดู

ทีนี้ เราลองมาดูกันว่า Series ที่เราสร้างนั้น หน้าตาเป็นอย่างไร

my_seriesMember I Cherprang
Member II Music
Member III Mobile
dtype: object

เราจะเห็นว่า ชื่อของ member แต่ละคนผูกกับชื่อแถว Member I II III  ตามที่เราได้ตั้งเอาไว้ใน index

ทีนี้หาเราต้องการเรียก index ของแต่ละชื่อออกมาก็สามารถทำได้ง่ายๆ โดยใส่ชื่อ Row ที่เราต้องการเรียกไว้หลัง my_series ในวงเล็บ [] อย่างนี้

my_series[‘Member II’]

ผลที่ได้ก็คือ

‘Music’

นอกจากจะใส่ชื่อ Row แล้ว ยังสามารถใส่ตัวเลขตามลำดับของ index ได้ โดยอันดับนั้นเริ่มต้นจาก 0 ไม่ใช่ 1 นะครับ ยกตัวอย่างเราต้องการเลือกแถวแรกสุดกับแถวที่สาม เขียนโค้ดได้ดังนี้

my_series[[0,2]]

ผลที่ได้คือ

Member I Cherprang
Member III Mobile
dtype: object

เห็นไหมครับว่าการสร้าง Series ใน Pandas นั้นไม่ยากเลย เขียนแค่ code เพียงบรรทัดเดียวเท่านั้น
ลองฝึกกันดูนะครับ ถ้าเข้าใจแล้วไปต่อกันที่การสร้าง DataFrame ใน Pandas กันเลย


กด Like กด Share กันได้นะครับ และ ยังสามารถกดติดตาม Facebook ของเราได้ที่นี่ หรือ Follow ใน Twitter เพื่อ ให้ทีมงาน AI Informatics มีกำลังใจผลิตเนื้อหาต่อไปครับ ขอบคุณครับ

2 thoughts on “การสร้าง Series และ DataFrames ใน Pandas

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *