ช่วงก่อนแอดได้เขียนบทความไว้เยอะมากในเว็ปนี้ แต่บทความที่เขียนดันไม่ได้เกี่ยวข้องอะไรกับ Data analytics เลย 555 เขียนไปเรื่อยสุดๆ

แอดคิดแล้วคิดอีก ว่าจะทำยังไงดี เราเจาะไปแค่เรื่องเดียวเลยดีไหม

และตอนนี้ อย่างที่เห็น! แอดตัดสินใจแล้วว่า จะใช้ blog ในเว็ปนี้ เขียนเฉพาะบทความที่เกี่ยวกับ Data Analytics อย่างเดียวเท่านั้น

ยังไงก็ welcome ทุกคนเลยนะฮะ

Text-to-column

เครื่องมือช่วยแยกข้อมูลที่ติดกันแบบมีตัวคั่น

ฟังก์ชั่นที่ชื่อว่า text-to-column เป็นเครื่องมือที่เป็นประโยชน์มากในเรื่องของการแยกข้อมูล

แอดยกตัวอย่างข้อมูลใน format ที่เป็นวันที่ อย่างเช่น

28-02-2025

จากกรณีด้านบน ก่อนหน้าถ้าเกิดว่าไม่รู้ว่ามีเครื่องมือนี้ เราก็จะคงทำการแก้แบบ manual คือ Copy + Paste กันปกติ ()

แต่ถ้าเรามีข้อมูลแบบนี้สัก 1,000 Rows ล่ะ ?

มือหงิกแน่นอน 🧐

เราจะเห็นรูปแบบของข้อมูลเป็นแบบนี้ วัน-เดือน-ปี โดยที่เครื่องหมาย ” – ” คือตัวคั่น/แยกข้อมูล ภาษาอังกฤษคือ Delimeter

ไปลองดูวิดีโอวิธีการใช้กัน

จะมีตอนที่แอดกดด้านล่าง ก็คือเป็นการใส่ค่าตัว delimeter นั่นเอง นี่จะช่วยให้โปรแกรมเข้าใจว่า อ๋อ ข้อมูลนี้ ใช้ตัวนี้เป็นตัวแยกนะ

Find-and-replace

หาค่าที่ต้องการ และแทนที่ค่านั้นด้วยค่าอื่น

ก็แค่ฟังก์ชั่นหาค่า มันจะไปสำคัญอะไร 555

ช้าก่อนไอ้สอง ฟังก์ชั่นนี้เอาจริงๆคือโครตมีประโยชน์ เวลาเราเจอข้อมูลที่เป็นแบบนี้

THB234 แทนที่จะเป็น 234

ข้อมูล THB234 ตัว Google Sheet จะมองว่ามันเป็นข้อมูลชนิดตัวอักษร ซึ่งไม่สามารถที่จะเอาไปคิดคำนวนอะไรได้เลย

เพราะฉะนั้น เราจะทำการ Find THB แล้วแทนค่าด้วย nothing ก็คือค่าว่างเปล่าไปเลย

ดูเม้าส์แอดเวลาแอดลากไปมุมล่างขวานะ มันจะค่าที่ google sheet คำนวนด้วย

Sorting-and-filtering

เรียงและกรองข้อมูล (ดูรูปแบบของข้อมูล + เลือกข้อมูลที่ต้องการ)

แอดมองว่า Sorting กับ Filtering นี่เป็นเครื่องมือที่คอย support กันมากกว่า (อารมณ์แบบพออยู่ด้วยกันแล้วก็คือเทพเลย) เรียงข้อมูลแบบไวๆ

  • จากมากไปน้อย
  • จากน้อยไปมาก

เสร็จปุ้ปพอเราเห็นแล้วว่าข้อมูลมันเรียงแบบไหน เราก็เลือกด้วยการใช้คำสั่ง filtering ละ ว่าอยากดูข้อมูลไหนเฉพาะเจาะจงลงไป

Sorting สำคัญยังไง ?

ลองนึกถึงข้อมูลที่เป็นชื่อจังหวัดกันดีกว่า หลังจากที่เราให้ user เข้า input ข้อมูลเข้ามาที่ table ของเรา แน่นอนว่า perspective ของ user ในเรื่องของชื่อจังหวัดแต่ละคนที่ใส่มาให้่เรา อาจจะไม่เหมือนกัน

เช่น

คนที่ 1 ใช้ กรุงเทพ

คนที่ 2 ใช้ กทม

คนที่ 3 ใช้ กรุงเทพมหานคร

คนที่ 4 ใช้ Bangkok

อะไรแบบนี้ แล้วอยากให้จินตนาการว่าถ้าเรามีข้อมูลแบบนี้สัก 1,000 rows ล่ะ (พัน rows อีกแล้ว 555) เราจะหาข้อมูลนี้ยังไง ?

จะทำการ Scroll down เม้าส์ลงไปเรื่อยๆ = มือหงิก

อันนี้ใช้ advance sorting เรียงจากน้อยไปมาก มากไปน้อยสลับกันไปมา

Filtering สำคัญยังไง ?

สมมติว่าเรามีข้อมูล 1 คอลัมภ์ ที่เราต้องการจะเลือก

เราต้องการจะเช็คแบบไวๆว่าข้อมูลใน column นี้มี cell ไหนบ้างนะที่เป็นค่าว่าง (เราไม่ค่อยชอบค่าที่เป็นค่าว่างสักเท่าไหร่ ในการทำ Analytics) เราจะต้องทำอะไรสักอย่างกับมัน

ในนี้แอดทำไว้ 2 แบบ แบบแรกคือแบบธรรมดา แบบที่สองทำ Highlight สีในเซลล์

Remove-duplicate-trim-whitespace

ลบตัวซ้ำ + เล็มพื้นที่สีขาวออกจาก cell

ตัวช่องข้างบนเหมือนแปลความหมายจาก Eng เป็น Thai 555

แอดก็ไม่รู้จะเขียนยังไงให้เท่ดี เพราะความหมายมันก็ชัดเจน ตรงตัวอยู่แล้ว

สำหรับ Remove duplicate หรือว่าการลบข้อมูลที่ซ้ำนั้น เป็นสิ่งที่สำคัญมากในการทำ Data Analytics

เพราะข้อมูลที่ซ้ำ จะทำให้ผลลัพธ์ที่ได้มันเพี้ยน 555 เราเลยไม่เอาเก็บไว้

แถมยังทำให้ค่าเฉลี่ย หรือค่า Stat อะไรก็ตามในคอลัมภ์นั้น เพี้ยนไปอีก

ตั้งแต่รู้จัก Function นี้ ชีวิตง่ายขึ้นเยอะ ไม่ต้องมา Highlight ทีละตัวละ

ส่วนของ Trim-white-space

หลักๆเลย มีไว้ในกรณีที่ user เค้าได้ input ค่าอะไรสักอย่างลงไปแล้วดันไปเคาะ space bar 1 ที + กลายเป็นว่าค่าใน cell ตอนนี้ของเราเป็น

"ค่าที่ user ได้ใส่" + " "

อาจจะเป็นข้อมูลหลังจากที่เราทำ Find and replace มาแล้ว แล้วยังหลงเหลือ whitespace อยู่นิดนึง หลังจากที่เรา replace ค่าใหม่

Pivot-table

อันนี้ชาว Analytics ต้องรู้จักอย่างแน่นอน นี่คือ function ที่แอดเรียกได้ว่าเป็นจุดเริ่มต้นของการทำ Analytics จ๋าๆเลย ถึงแม้ว่ามันอาจจะไม่ได้ทำให้เรารู้ลึกขนาดนั้น

แต่มันก็พอได้!

แอดขอไม่อธิบายอะไรเพิ่มเติมในส่วนของฟังก์ชั่นนี้ (อ้าว 555) เพราะอยากให้ทุกคนได้ไปลองเล่นเอง

ก่อนที่จะไปทำ Pivot table ได้ เราในฐานะของเจ้าของ Data ใน table นั้นต้องมั่นใจก่อนว่าข้อมูลของเราทั้งหมดนั้น clean ที่สุดเท่าที่จะเป็นไปได้

  • ไม่มีค่า Null ใน table
  • Format ในคอลัมภ์เดียวกันเป็นเหมือนกัน (ตัวเลขเป็นตัวเลข, Text เป็น Text)

2 ข้อนี้สำคัญมากก่อนที่จะทำการ Pivot ข้อมูลใน table ของเรา

ปล. Pivot แปลว่า “หมุน”

หลักการคือหมุนข้อมูลที่เรามีไปมา


สรุป

เป็นไงกันบ้างครับ สำหรับเครื่องมือต่างๆ ที่ส่วนตัวแล้วแอดคิดว่ามีประโยชน์มากๆ สำหรับคนที่เริ่มต้นทำงานด้าน Data analysis (หรือกำลังจะไปทำ) มีทั้งเครื่องมือที่เอาไว้ทำ Data cleaning และ Analytics ปะปนกันไป

เครื่องมือที่ได้บอกไปทั้งหมด แอดคิดว่าเป็น Top 5 ที่เราในฐานะคน General คนนึงต้องเรียนรู้เอาไว้ เพื่อที่จะได้ทำงานของเราได้ไวขึ้น Smart มากขึ้นเลย

เจอกันบทความต่อไปค้าบ ~

สนใจคอร์สเรียนแบบ Text-based ด้าน Data Analytics ฉบับรวดเร็ว ดูรายละเอียด พร้อมทดลองเรียน 3 บทแรกฟรีได้เลย

ติดตาม
common • learn

สมัครรับข้อมูลไว้ด้วย email
พร้อมรับของขวัญสุดพิเศษจากเรา

We don’t spam!
Read our privacy policy for more info.


Leave a Reply

Your email address will not be published. Required fields are marked *

👨🏻‍💻 If outside is hot, Stay in and learn!

🎉 Type "Apr20" before purchasing!

get 20% off !

(Fastlane, Marvel, Big Bang, Rizz D-Sci, FODE)

April Only !