Back to: Big Bang Analytics – Hands On กับทุกเรื่องที่ DA ต้องรู้

Table as Storage — Big Bang Analytics

2 / 27 บทเรียน 7.4%

Lesson 1.2

มอง Table ให้เป็น “คลังข้อมูล”
ไม่ใช่ที่คำนวณ

ตารางสวยๆ ที่เห็นในออฟฟิศ — บางทีมันคือต้นเหตุของปัญหาทั้งหมด 😅

4:40

เนื้อหาประกอบ

เริ่มจากปัญหาที่เจอบ่อยในชีวิตจริง

ลองนึกภาพตามนะครับ — สมมติเราได้รับไฟล์ Excel / Google Sheet มา แล้วเปิดขึ้นมาเจอหน้าตาแบบนี้:

❌ ตารางที่เจอบ่อยในชีวิตจริง

เดือน	สินค้า A	สินค้า B	สินค้า C	รวม
ม.ค.	15,000	8,000	12,000	35,000
ก.พ.	18,000	9,500	11,000	38,500
มี.ค.	14,000	7,000	13,500	34,500
รวม	47,000	24,500	36,500	—

🤔 ดูเหมือนโอเคนะ?

ตารางนี้ดูสวยงาม อ่านง่าย เป็นระเบียบ — แต่สำหรับการทำ Data Analytics มันมีปัญหาซ่อนอยู่เต็มไปหมดเลยครับ

แนวคิดหลัก: Table คือ “คลังเก็บข้อมูล”

“Table ควรทำหน้าที่เก็บข้อมูลดิบให้ครบ ถูกต้อง และสะอาด — ไม่ใช่ที่สรุปผลหรือคำนวณ”

❌

แนวคิดผิด

Table = รายงานสรุปสวยๆ ที่ผู้บริหารอ่านได้เลย

✅

แนวคิดถูก

Table = คลังข้อมูล (Storage) ที่พร้อมนำไปวิเคราะห์ต่อ

ปัญหาที่ซ่อนอยู่ในตารางแบบแรก

ปัญหาที่ 1 — มีแถว “รวม” ปนอยู่กับข้อมูลจริง

ถ้าเอาตารางนี้ไปคำนวณต่อ แถว “รวม” จะถูกนับเป็นข้อมูลด้วยทันที ทำให้ผลลัพธ์ผิดหมดเลยครับ

ปัญหาที่ 2 — สินค้าถูกแยกเป็น Column

วันนึงมีสินค้า D เพิ่มขึ้นมา → ต้องไปเพิ่ม Column ใหม่ → สูตรทุกอย่างพังหมด 💥

ปัญหาที่ 3 — Filter และ Sort ทำได้ยาก

อยากดูเฉพาะสินค้า B ทำได้ยากมาก เพราะข้อมูลกระจายอยู่หลาย Column แทนที่จะอยู่ใน Row เดียวกัน

ปัญหาที่ 4 — ต่อกับ Pivot Table หรือ Chart ได้ยาก

เครื่องมือวิเคราะห์ส่วนใหญ่ต้องการข้อมูลในรูปแบบที่ถูกต้องก่อน ถ้าเอาตารางแบบนี้ไปใส่ มักได้ผลลัพธ์แปลกๆ

ตารางที่ถูกต้องควรเป็นแบบนี้

ดูเยอะขึ้น ดูไม่สวยเท่า — แต่ถูกต้องกว่ามากสำหรับการวิเคราะห์ข้อมูลครับ

✅ ตารางแบบ Storage (Tidy Data)

date	product	sales	หมายเหตุ
2024-01-01	สินค้า A	15,000	← 1 row = 1 record
2024-01-01	สินค้า B	8,000
2024-01-01	สินค้า C	12,000
2024-02-01	สินค้า A	18,000
2024-02-01	สินค้า B	9,500
2024-02-01	สินค้า C	11,000
… ไม่มีแถว “รวม” เลย ✓

เปรียบเทียบให้เห็นชัดๆ

สถานการณ์	❌ แบบผิด (Crosstab)	✅ แบบถูก (Storage)
เพิ่มสินค้าใหม่	ต้องเพิ่ม Column	แค่เพิ่ม Row ใหม่
Filter ข้อมูล	ยากมาก	ง่ายมาก
ทำ Pivot Table	ยุ่งยาก	ทำได้ทันที
ส่งให้ระบบอื่น	มักพัง	ใช้งานได้เลย
มีแถวรวมปนอยู่	มีบ่อย	ไม่มีเลย

กฎง่ายๆ ของ Table ที่ดี (Tidy Data)

กฎข้อ 1 — 1 แถว = 1 เหตุการณ์ (1 Row = 1 Record)

แต่ละแถวคือข้อมูลของสิ่งๆ เดียว เวลาเดียว

✅	2024-01-01 \| สินค้า A \| 15,000 → 1 แถว = ยอดขายสินค้า A เดือน ม.ค.
❌	ม.ค. \| 15,000 \| 8,000 → 1 แถว = ข้อมูลหลายสินค้าปนกัน

กฎข้อ 2 — 1 คอลัมน์ = 1 ตัวแปร (1 Column = 1 Variable)

Column คือประเภทของข้อมูล ไม่ใช่ชื่อสินค้าหรือชื่อเดือน

✅	Column ชื่อ product เก็บชื่อสินค้า
❌	Column ชื่อ สินค้า A, สินค้า B — ค่าข้อมูลกลายเป็นชื่อ Column

กฎข้อ 3 — ไม่มีการคำนวณในตารางข้อมูลดิบ

❌	ห้ามมี → แถว “รวม”, แถว “เฉลี่ย”, แถว “% การเติบโต”
✅	เอาไปคำนวณใน Pivot Table หรือ Sheet แยกต่างหากแทน

Workflow ที่ถูกต้องใน Google Sheets

แยก Storage ออกจาก Calculation ให้ชัดเจน — ถ้าข้อมูลดิบพัง ทุกอย่างก็พังหมดครับ

Google Sheets Structure

Sheet 1: raw_data

เก็บข้อมูลดิบ

ห้ามแตะ, ห้ามลบ, ห้ามเพิ่มสูตร — เก็บเอาไว้อย่างเดียว

Sheet 2: analysis

วิเคราะห์และคำนวณ

Pivot Table, สูตร, การวิเคราะห์ต่างๆ ทำได้ที่นี่

Sheet 3: dashboard

แสดงผลและสรุป

กราฟ, สรุปสวยๆ, รายงานที่อ่านได้ง่าย

สรุปให้จำง่ายๆ

🗄️

Table

คลังข้อมูล — ทำหน้าที่เก็บให้ครบและถูกต้อง เหมือนฐานข้อมูลในระบบ

🔧

Pivot / Chart / Formula

เครื่องมือวิเคราะห์ — ทำหน้าที่คำนวณและสรุปผล แยกออกจาก raw data เสมอ

ทดสอบความเข้าใจ

🧠 Quiz 1 / 3

ใน Google Sheets เราควรเก็บ “แถวรวม” (Total Row) ไว้ใน Sheet raw_data หรือไม่?

Aควรเก็บ เพราะทำให้อ่านง่ายขึ้น

Bไม่ควร เพราะจะถูกนับเป็นข้อมูลด้วยเวลานำไปวิเคราะห์

Cเก็บได้ถ้าซ่อน Row ไว้

🧠 Quiz 2 / 3

ถ้ามีข้อมูลขายสินค้า 5 ชนิด ในรูปแบบ Tidy Data ที่ถูกต้อง ควรมีกี่ Column?

A5 Column (1 column ต่อ 1 สินค้า)

B6 Column (5 สินค้า + 1 รวม)

CColumn เดียวชื่อ “product” แล้วแต่ละ Row คือสินค้าแต่ละชนิด

🧠 Quiz 3 / 3

อยากทำ Pivot Table สรุปยอดขายรายเดือน ควรทำใน Sheet ไหน?

Araw_data Sheet เพราะข้อมูลอยู่ที่นั่น

Banalysis Sheet แยกต่างหาก เพื่อไม่แตะต้องข้อมูลดิบ

CSheet ไหนก็ได้ ไม่สำคัญ

0/3