0
Table as Storage — Big Bang Analytics
2 / 27 บทเรียน 7.4%
Lesson 1.2

มอง Table ให้เป็น “คลังข้อมูล”
ไม่ใช่ที่คำนวณ

ตารางสวยๆ ที่เห็นในออฟฟิศ — บางทีมันคือต้นเหตุของปัญหาทั้งหมด 😅

4:40

เริ่มจากปัญหาที่เจอบ่อยในชีวิตจริง

ลองนึกภาพตามนะครับ — สมมติเราได้รับไฟล์ Excel / Google Sheet มา แล้วเปิดขึ้นมาเจอหน้าตาแบบนี้:

❌ ตารางที่เจอบ่อยในชีวิตจริง
เดือนสินค้า Aสินค้า Bสินค้า Cรวม
ม.ค.15,0008,00012,00035,000
ก.พ.18,0009,50011,00038,500
มี.ค.14,0007,00013,50034,500
รวม47,00024,50036,500
🤔 ดูเหมือนโอเคนะ?
ตารางนี้ดูสวยงาม อ่านง่าย เป็นระเบียบ — แต่สำหรับการทำ Data Analytics มันมีปัญหาซ่อนอยู่เต็มไปหมดเลยครับ

แนวคิดหลัก: Table คือ “คลังเก็บข้อมูล”

“Table ควรทำหน้าที่เก็บข้อมูลดิบให้ครบ ถูกต้อง และสะอาด — ไม่ใช่ที่สรุปผลหรือคำนวณ”

แนวคิดผิด

Table = รายงานสรุปสวยๆ ที่ผู้บริหารอ่านได้เลย

แนวคิดถูก

Table = คลังข้อมูล (Storage) ที่พร้อมนำไปวิเคราะห์ต่อ

ปัญหาที่ซ่อนอยู่ในตารางแบบแรก

ปัญหาที่ 1 — มีแถว “รวม” ปนอยู่กับข้อมูลจริง

ถ้าเอาตารางนี้ไปคำนวณต่อ แถว “รวม” จะถูกนับเป็นข้อมูลด้วยทันที ทำให้ผลลัพธ์ผิดหมดเลยครับ

ปัญหาที่ 2 — สินค้าถูกแยกเป็น Column

วันนึงมีสินค้า D เพิ่มขึ้นมา → ต้องไปเพิ่ม Column ใหม่ → สูตรทุกอย่างพังหมด 💥

ปัญหาที่ 3 — Filter และ Sort ทำได้ยาก

อยากดูเฉพาะสินค้า B ทำได้ยากมาก เพราะข้อมูลกระจายอยู่หลาย Column แทนที่จะอยู่ใน Row เดียวกัน

ปัญหาที่ 4 — ต่อกับ Pivot Table หรือ Chart ได้ยาก

เครื่องมือวิเคราะห์ส่วนใหญ่ต้องการข้อมูลในรูปแบบที่ถูกต้องก่อน ถ้าเอาตารางแบบนี้ไปใส่ มักได้ผลลัพธ์แปลกๆ

ตารางที่ถูกต้องควรเป็นแบบนี้

ดูเยอะขึ้น ดูไม่สวยเท่า — แต่ถูกต้องกว่ามากสำหรับการวิเคราะห์ข้อมูลครับ

✅ ตารางแบบ Storage (Tidy Data)
dateproductsalesหมายเหตุ
2024-01-01สินค้า A15,000← 1 row = 1 record
2024-01-01สินค้า B8,000
2024-01-01สินค้า C12,000
2024-02-01สินค้า A18,000
2024-02-01สินค้า B9,500
2024-02-01สินค้า C11,000
… ไม่มีแถว “รวม” เลย ✓

เปรียบเทียบให้เห็นชัดๆ

สถานการณ์ ❌ แบบผิด (Crosstab) ✅ แบบถูก (Storage)
เพิ่มสินค้าใหม่ต้องเพิ่ม Columnแค่เพิ่ม Row ใหม่
Filter ข้อมูลยากมากง่ายมาก
ทำ Pivot Tableยุ่งยากทำได้ทันที
ส่งให้ระบบอื่นมักพังใช้งานได้เลย
มีแถวรวมปนอยู่มีบ่อยไม่มีเลย

กฎง่ายๆ ของ Table ที่ดี (Tidy Data)

กฎข้อ 1 — 1 แถว = 1 เหตุการณ์ (1 Row = 1 Record)

แต่ละแถวคือข้อมูลของสิ่งๆ เดียว เวลาเดียว

2024-01-01 | สินค้า A | 15,000 → 1 แถว = ยอดขายสินค้า A เดือน ม.ค.
ม.ค. | 15,000 | 8,000 → 1 แถว = ข้อมูลหลายสินค้าปนกัน
กฎข้อ 2 — 1 คอลัมน์ = 1 ตัวแปร (1 Column = 1 Variable)

Column คือประเภทของข้อมูล ไม่ใช่ชื่อสินค้าหรือชื่อเดือน

Column ชื่อ product เก็บชื่อสินค้า
Column ชื่อ สินค้า A, สินค้า B — ค่าข้อมูลกลายเป็นชื่อ Column
กฎข้อ 3 — ไม่มีการคำนวณในตารางข้อมูลดิบ
ห้ามมี → แถว “รวม”, แถว “เฉลี่ย”, แถว “% การเติบโต”
เอาไปคำนวณใน Pivot Table หรือ Sheet แยกต่างหากแทน

Workflow ที่ถูกต้องใน Google Sheets

แยก Storage ออกจาก Calculation ให้ชัดเจน — ถ้าข้อมูลดิบพัง ทุกอย่างก็พังหมดครับ

Google Sheets Structure

1
Sheet 1: raw_data

เก็บข้อมูลดิบ

ห้ามแตะ, ห้ามลบ, ห้ามเพิ่มสูตร — เก็บเอาไว้อย่างเดียว

2
Sheet 2: analysis

วิเคราะห์และคำนวณ

Pivot Table, สูตร, การวิเคราะห์ต่างๆ ทำได้ที่นี่

3
Sheet 3: dashboard

แสดงผลและสรุป

กราฟ, สรุปสวยๆ, รายงานที่อ่านได้ง่าย

สรุปให้จำง่ายๆ

🗄️
Table

คลังข้อมูล — ทำหน้าที่เก็บให้ครบและถูกต้อง เหมือนฐานข้อมูลในระบบ

🔧
Pivot / Chart / Formula

เครื่องมือวิเคราะห์ — ทำหน้าที่คำนวณและสรุปผล แยกออกจาก raw data เสมอ

🧠 Quiz 1 / 3

ใน Google Sheets เราควรเก็บ “แถวรวม” (Total Row) ไว้ใน Sheet raw_data หรือไม่?
Aควรเก็บ เพราะทำให้อ่านง่ายขึ้น
Bไม่ควร เพราะจะถูกนับเป็นข้อมูลด้วยเวลานำไปวิเคราะห์
Cเก็บได้ถ้าซ่อน Row ไว้

🧠 Quiz 2 / 3

ถ้ามีข้อมูลขายสินค้า 5 ชนิด ในรูปแบบ Tidy Data ที่ถูกต้อง ควรมีกี่ Column?
A5 Column (1 column ต่อ 1 สินค้า)
B6 Column (5 สินค้า + 1 รวม)
CColumn เดียวชื่อ “product” แล้วแต่ละ Row คือสินค้าแต่ละชนิด

🧠 Quiz 3 / 3

อยากทำ Pivot Table สรุปยอดขายรายเดือน ควรทำใน Sheet ไหน?
Araw_data Sheet เพราะข้อมูลอยู่ที่นั่น
Banalysis Sheet แยกต่างหาก เพื่อไม่แตะต้องข้อมูลดิบ
CSheet ไหนก็ได้ ไม่สำคัญ
0/3