EDA คืออะไร ? และทำไม Data Worker ทุกคนต้องทำก่อนสร้างโมเดล

ก่อนจะเริ่มสร้างโมเดล Machine Learning สวยๆ หรือทำ Dashboard สุดเท่ หลายคนมักข้ามขั้นตอนที่สำคัญที่สุดไปโดยไม่รู้ตัว นั่นก็คือการทำ EDA หรือ Exploratory Data Analysis ซึ่งถ้าพูดง่ายๆ ก็คือการ “ทำความรู้จักข้อมูลก่อนเอาไปใช้งานจริง” นั่นเองครับ

หลายคนที่เพิ่งเริ่มต้นเรียน data มักคิดว่าขั้นตอนนี้ไม่สำคัญ หรือข้ามไปเลยก็ได้ แต่ความจริงแล้ว EDA คือหัวใจของงาน data analytics เลยก็ว่าได้ เพราะถ้าไม่รู้จักข้อมูลที่ตัวเองมีอยู่ดีพอ จะสร้างอะไรออกมาก็ผิดพลาดได้ทั้งหมด บทความนี้จะพาทุกคนไปทำความเข้าใจ EDA แบบกันเอง ไม่งง และเอาไปใช้ได้จริงครับ

เลือกอ่านเฉพาะหัวข้อ

EDA คืออะไรกันแน่ ?

EDA ย่อมาจาก Exploratory Data Analysis ซึ่งหมายถึงกระบวนการสำรวจและวิเคราะห์ข้อมูลเบื้องต้น ก่อนที่จะนำข้อมูลไปประมวลผลจริงจัง เปรียบง่ายๆ ก็เหมือนกับที่เราซื้อผักมาแล้ว ก่อนจะเริ่มทำอาหาร เราก็ต้องหยิบขึ้นมาดูก่อนว่าสดไหม มีรูพยาธิไหม หรือเน่าไปส่วนไหนบ้าง ไม่ใช่หยิบทั้งหมดโยนลงกระทะทีเดียวเลย

แนวคิด EDA ถูกพัฒนาโดย John Tukey นักสถิติชาวอเมริกัน ตั้งแต่ช่วงทศวรรษ 1970 และยังคงเป็น best practice สำหรับนักวิเคราะห์ข้อมูลและ data scientist จนถึงปัจจุบัน เป้าหมายหลักของ EDA คือการทำความเข้าใจโครงสร้างของข้อมูล ตรวจหา pattern ที่น่าสนใจ ค้นหา outlier หรือค่าผิดปกติ และตรวจสอบ assumption ต่างๆ ก่อนที่จะนำไปสร้างโมเดลหรือวิเคราะห์ต่อ

ทำไม EDA ถึงสำคัญขนาดนี้ ?

ลองนึกภาพว่าคุณได้รับข้อมูลยอดขายจากบริษัทมา แล้วรีบเอาไปสร้างโมเดลทำนาย revenue เลยโดยไม่ดูข้อมูลก่อน ผลที่ได้อาจจะออกมาสวยงาม แต่พอตรวจสอบดูดีๆ อาจพบว่าข้อมูลบางส่วนมีค่าติดลบ (ซึ่งเป็นไปไม่ได้) หรือข้อมูลบางเดือนหายไปทั้งหมด หรือมีค่า outlier สุดขีดที่ทำให้ค่าเฉลี่ยทั้งหมดเบี้ยวไปหมด

การทำ EDA ช่วยให้เราพบปัญหาเหล่านี้ก่อน ซึ่งจะประหยัดเวลาและความผิดพลาดได้มหาศาล นอกจากนี้ EDA ยังช่วยให้เรา “ตั้งคำถามที่ถูกต้อง” กับข้อมูลได้ดีขึ้น เพราะบางครั้งคำถามที่เราตั้งไว้ตอนแรกอาจเปลี่ยนไปเลยหลังจากที่เห็นข้อมูลจริงๆ

EDA ทำอะไรบ้าง ? แบ่งเป็นขั้นตอนหลักๆ ได้ดังนี้

ขั้นตอนแรกคือการดูภาพรวมของข้อมูล (Data Overview) ซึ่งเป็นการเช็คขนาดของข้อมูลว่ามีกี่แถว กี่คอลัมน์ แต่ละคอลัมน์เก็บข้อมูลประเภทไหน เช่น ตัวเลข, ข้อความ, หรือวันที่ และมีค่าที่หายไป (missing values) ตรงไหนบ้าง ขั้นตอนนี้ใช้เวลาไม่นานแต่ให้ภาพรวมได้ดีมากครับ

ถัดมาคือการวิเคราะห์แบบ Univariate Analysis นั่นคือการดูตัวแปรทีละตัว เช่น กระจายตัวยังไง ค่าเฉลี่ยอยู่ที่เท่าไหร่ มีค่าต่ำสุด-สูงสุดเท่าไหร่ เพื่อให้เข้าใจแต่ละคอลัมน์อย่างละเอียด หลังจากนั้นก็จะเป็น Bivariate และ Multivariate Analysis คือการดูความสัมพันธ์ระหว่างตัวแปรหลายๆ ตัวพร้อมกัน เช่น อายุกับรายได้มีความสัมพันธ์กันไหม หรือราคาสินค้ากับยอดขายเป็นแบบไหน ขั้นตอนนี้มักจะให้ insight ที่น่าตื่นเต้นที่สุดครับ

เครื่องมือที่ใช้ทำ EDA ในปัจจุบัน

สำหรับคนที่ใช้ Python อยู่แล้ว ไลบรารีที่นิยมใช้ทำ EDA ได้แก่ Pandas สำหรับการจัดการข้อมูลเบื้องต้น, Matplotlib และ Seaborn สำหรับการสร้างกราฟและ visualization และ Plotly สำหรับกราฟแบบ interactive ที่ดูสวยงามและใช้งานง่ายขึ้น

นอกจากนี้ยังมีไลบรารีที่ช่วยทำ EDA แบบอัตโนมัติได้ด้วย เช่น ydata-profiling (เดิมชื่อ pandas-profiling) ที่แค่รันคำสั่งเดียว ก็จะสร้าง report สรุปข้อมูลทั้งหมดออกมาให้เลย เหมาะมากสำหรับคนที่อยากเริ่มทำ EDA ให้เร็วขึ้น แต่ก็ควรเรียนรู้แบบ manual ด้วยนะครับ เพราะการเข้าใจ process จริงๆ จะทำให้ interpret ผลได้แม่นยำกว่า

EDA กับ Data Cleaning เป็นเรื่องเดียวกันไหม ?

คำถามนี้เกิดขึ้นบ่อยมากในกลุ่มคนเรียน data analytics ครับ คำตอบคือ สองอย่างนี้ไม่ใช่สิ่งเดียวกัน แต่ก็แยกออกจากกันไม่ได้แบบชัดเจนนัก

EDA เป็นกระบวนการ “ค้นพบ” ปัญหาในข้อมูล ส่วน Data Cleaning คือการ “แก้ไข” ปัญหาเหล่านั้น ในทางปฏิบัติ สองอย่างนี้มักเกิดขึ้นสลับกันไปมา เช่น ระหว่างที่ทำ EDA อยู่ก็เจอค่า missing values แล้วก็แก้ไขทันที จากนั้นก็กลับมาดู distribution ใหม่อีกรอบ วนแบบนี้ไปเรื่อยๆ จนกว่าจะพอใจกับคุณภาพของข้อมูลครับ

สิ่งสำคัญคืออย่าลืมบันทึก (document) ทุกการตัดสินใจที่ทำระหว่าง EDA ด้วย เพราะเวลาต้องอธิบายให้คนอื่นฟัง หรือทำโปรเจกต์ซ้ำในอนาคต จะได้ไม่ต้องมานั่งคิดใหม่ตั้งแต่ต้น

EDA ในโลกจริงต่างจากใน tutorial ยังไง ?

ใน tutorial ออนไลน์ส่วนใหญ่ ข้อมูลที่ใช้สอนจะสะอาดสวยงาม แทบไม่มีปัญหา ซึ่งทำให้คนที่เรียนจบแล้วไปเจอข้อมูลจริงในที่ทำงานมักจะช็อคครับ เพราะข้อมูลในโลกจริงมักสกปรก วุ่นวาย และมี context ที่ซับซ้อนกว่ามาก

ตัวอย่างเช่น ข้อมูลยอดขายจากระบบ ERP ของบริษัทอาจมีคอลัมน์ที่ชื่อแปลกๆ ไม่มีเอกสารอธิบาย หรือข้อมูลวันที่ถูกเก็บในหลายรูปแบบปนกัน หรือแม้แต่ค่าที่ดูเหมือนปกติแต่จริงๆ เป็นค่า default ที่ระบบใส่ให้เวลาไม่มีข้อมูล ซึ่งสิ่งเหล่านี้จะตรวจพบได้ก็ต่อเมื่อทำ EDA อย่างละเอียดเท่านั้น

นั่นคือเหตุผลที่ data professional ที่มีประสบการณ์มักบอกว่า งาน data จริงๆ กว่า 70-80% คือการทำ data preparation และ EDA ไม่ใช่การสร้างโมเดลอย่างที่หลายคนคิดครับ

เริ่มทำ EDA ครั้งแรกควรเริ่มยังไง ?

ถ้าคุณเพิ่งเริ่มต้น แนะนำให้ใช้ checklist ง่ายๆ นี้ครับ เริ่มจาก
① ดูขนาดและประเภทของข้อมูลด้วย .shape และ .dtypes
② เช็ค missing values ด้วย .isnull().sum()
③ ดูสถิติเบื้องต้นด้วย .describe()
④ plot histogram หรือ boxplot ของตัวแปรหลักๆ เพื่อดู distribution
⑤ ดูความสัมพันธ์ระหว่างตัวแปรด้วย correlation heatmap และ
⑥ ตั้งคำถามจากสิ่งที่เห็นแล้วขุดลึกต่อ

สำคัญที่สุดคืออย่ากลัวที่จะ “ไม่รู้” ครับ เพราะ EDA คือกระบวนการค้นหาคำตอบจากข้อมูล การตั้งคำถามใหม่ระหว่างทางคือเรื่องปกติและเป็นสัญญาณที่ดีด้วยซ้ำ แสดงว่าคุณกำลังคิดอยู่กับข้อมูลจริงๆ ไม่ได้แค่รันโค้ดตามที่จำมา

สรุป

EDA หรือ Exploratory Data Analysis คือขั้นตอนที่ขาดไม่ได้ในทุก data project ไม่ว่าคุณจะเป็น data analyst, data scientist, หรือ data engineer ก็ตาม การทำ EDA ที่ดีจะช่วยให้คุณเข้าใจข้อมูลอย่างลึกซึ้ง ค้นพบ insight ที่ซ่อนอยู่ และหลีกเลี่ยงความผิดพลาดที่อาจเกิดขึ้นในภายหลัง

ถ้าอยากเรียนรู้เรื่อง EDA และ data analytics อย่างเป็นระบบ สามารถติดตามเนื้อหาและคอร์สออนไลน์ได้ที่ common-learn.com ซึ่งเน้นสอนแบบ text-based ที่อ่านเข้าใจได้ง่าย เหมาะกับทั้งมือใหม่และคนที่ต้องการ upskill ทางด้าน data ครับ