
ช่วงก่อนแอดได้เขียนบทความไว้เยอะมากในเว็ปนี้ แต่บทความที่เขียนดันไม่ได้เกี่ยวข้องอะไรกับ Data analytics เลย 555 เขียนไปเรื่อยสุดๆ
แอดคิดแล้วคิดอีก ว่าจะทำยังไงดี เราเจาะไปแค่เรื่องเดียวเลยดีไหม
และตอนนี้ อย่างที่เห็น! แอดตัดสินใจแล้วว่า จะใช้ blog ในเว็ปนี้ เขียนเฉพาะบทความที่เกี่ยวกับ Data Analytics อย่างเดียวเท่านั้น
ยังไงก็ welcome ทุกคนเลยนะฮะ
Text-to-column
เครื่องมือช่วยแยกข้อมูลที่ติดกันแบบมีตัวคั่น
ฟังก์ชั่นที่ชื่อว่า text-to-column เป็นเครื่องมือที่เป็นประโยชน์มากในเรื่องของการแยกข้อมูล
แอดยกตัวอย่างข้อมูลใน format ที่เป็นวันที่ อย่างเช่น
28-02-2025
จากกรณีด้านบน ก่อนหน้าถ้าเกิดว่าไม่รู้ว่ามีเครื่องมือนี้ เราก็จะคงทำการแก้แบบ manual คือ Copy + Paste กันปกติ ()
แต่ถ้าเรามีข้อมูลแบบนี้สัก 1,000 Rows ล่ะ ?
มือหงิกแน่นอน 🧐
เราจะเห็นรูปแบบของข้อมูลเป็นแบบนี้ วัน-เดือน-ปี โดยที่เครื่องหมาย ” – ” คือตัวคั่น/แยกข้อมูล ภาษาอังกฤษคือ Delimeter
ไปลองดูวิดีโอวิธีการใช้กัน
Find-and-replace
หาค่าที่ต้องการ และแทนที่ค่านั้นด้วยค่าอื่น
ก็แค่ฟังก์ชั่นหาค่า มันจะไปสำคัญอะไร 555
ช้าก่อนไอ้สอง ฟังก์ชั่นนี้เอาจริงๆคือโครตมีประโยชน์ เวลาเราเจอข้อมูลที่เป็นแบบนี้
THB234 แทนที่จะเป็น 234
ข้อมูล THB234 ตัว Google Sheet จะมองว่ามันเป็นข้อมูลชนิดตัวอักษร ซึ่งไม่สามารถที่จะเอาไปคิดคำนวนอะไรได้เลย
เพราะฉะนั้น เราจะทำการ Find THB แล้วแทนค่าด้วย nothing ก็คือค่าว่างเปล่าไปเลย
Sorting-and-filtering
เรียงและกรองข้อมูล (ดูรูปแบบของข้อมูล + เลือกข้อมูลที่ต้องการ)
แอดมองว่า Sorting กับ Filtering นี่เป็นเครื่องมือที่คอย support กันมากกว่า (อารมณ์แบบพออยู่ด้วยกันแล้วก็คือเทพเลย) เรียงข้อมูลแบบไวๆ
- จากมากไปน้อย
- จากน้อยไปมาก
เสร็จปุ้ปพอเราเห็นแล้วว่าข้อมูลมันเรียงแบบไหน เราก็เลือกด้วยการใช้คำสั่ง filtering ละ ว่าอยากดูข้อมูลไหนเฉพาะเจาะจงลงไป
Sorting สำคัญยังไง ?
ลองนึกถึงข้อมูลที่เป็นชื่อจังหวัดกันดีกว่า หลังจากที่เราให้ user เข้า input ข้อมูลเข้ามาที่ table ของเรา แน่นอนว่า perspective ของ user ในเรื่องของชื่อจังหวัดแต่ละคนที่ใส่มาให้่เรา อาจจะไม่เหมือนกัน
เช่น
คนที่ 1 ใช้ กรุงเทพ
คนที่ 2 ใช้ กทม
คนที่ 3 ใช้ กรุงเทพมหานคร
คนที่ 4 ใช้ Bangkok
อะไรแบบนี้ แล้วอยากให้จินตนาการว่าถ้าเรามีข้อมูลแบบนี้สัก 1,000 rows ล่ะ (พัน rows อีกแล้ว 555) เราจะหาข้อมูลนี้ยังไง ?
จะทำการ Scroll down เม้าส์ลงไปเรื่อยๆ = มือหงิก
Filtering สำคัญยังไง ?
สมมติว่าเรามีข้อมูล 1 คอลัมภ์ ที่เราต้องการจะเลือก
เราต้องการจะเช็คแบบไวๆว่าข้อมูลใน column นี้มี cell ไหนบ้างนะที่เป็นค่าว่าง (เราไม่ค่อยชอบค่าที่เป็นค่าว่างสักเท่าไหร่ ในการทำ Analytics) เราจะต้องทำอะไรสักอย่างกับมัน
Remove-duplicate-trim-whitespace
ลบตัวซ้ำ + เล็มพื้นที่สีขาวออกจาก cell
ตัวช่องข้างบนเหมือนแปลความหมายจาก Eng เป็น Thai 555
แอดก็ไม่รู้จะเขียนยังไงให้เท่ดี เพราะความหมายมันก็ชัดเจน ตรงตัวอยู่แล้ว
สำหรับ Remove duplicate หรือว่าการลบข้อมูลที่ซ้ำนั้น เป็นสิ่งที่สำคัญมากในการทำ Data Analytics
เพราะข้อมูลที่ซ้ำ จะทำให้ผลลัพธ์ที่ได้มันเพี้ยน 555 เราเลยไม่เอาเก็บไว้
แถมยังทำให้ค่าเฉลี่ย หรือค่า Stat อะไรก็ตามในคอลัมภ์นั้น เพี้ยนไปอีก
ส่วนของ Trim-white-space
หลักๆเลย มีไว้ในกรณีที่ user เค้าได้ input ค่าอะไรสักอย่างลงไปแล้วดันไปเคาะ space bar 1 ที + กลายเป็นว่าค่าใน cell ตอนนี้ของเราเป็น
"ค่าที่ user ได้ใส่" + " "
Pivot-table
อันนี้ชาว Analytics ต้องรู้จักอย่างแน่นอน นี่คือ function ที่แอดเรียกได้ว่าเป็นจุดเริ่มต้นของการทำ Analytics จ๋าๆเลย ถึงแม้ว่ามันอาจจะไม่ได้ทำให้เรารู้ลึกขนาดนั้น
แต่มันก็พอได้!
แอดขอไม่อธิบายอะไรเพิ่มเติมในส่วนของฟังก์ชั่นนี้ (อ้าว 555) เพราะอยากให้ทุกคนได้ไปลองเล่นเอง
ก่อนที่จะไปทำ Pivot table ได้ เราในฐานะของเจ้าของ Data ใน table นั้นต้องมั่นใจก่อนว่าข้อมูลของเราทั้งหมดนั้น clean ที่สุดเท่าที่จะเป็นไปได้
- ไม่มีค่า Null ใน table
- Format ในคอลัมภ์เดียวกันเป็นเหมือนกัน (ตัวเลขเป็นตัวเลข, Text เป็น Text)
2 ข้อนี้สำคัญมากก่อนที่จะทำการ Pivot ข้อมูลใน table ของเรา
ปล. Pivot แปลว่า “หมุน”
หลักการคือหมุนข้อมูลที่เรามีไปมา
สรุป
เป็นไงกันบ้างครับ สำหรับเครื่องมือต่างๆ ที่ส่วนตัวแล้วแอดคิดว่ามีประโยชน์มากๆ สำหรับคนที่เริ่มต้นทำงานด้าน Data analysis (หรือกำลังจะไปทำ) มีทั้งเครื่องมือที่เอาไว้ทำ Data cleaning และ Analytics ปะปนกันไป
เครื่องมือที่ได้บอกไปทั้งหมด แอดคิดว่าเป็น Top 5 ที่เราในฐานะคน General คนนึงต้องเรียนรู้เอาไว้ เพื่อที่จะได้ทำงานของเราได้ไวขึ้น Smart มากขึ้นเลย
เจอกันบทความต่อไปค้าบ ~
Leave a Reply