Back to: Big Bang Analytics – รวมทุกเรื่องที่ DA ต้องรู้
0
Lesson 1.1
Data Types
รู้จักประเภทของข้อมูลก่อนทำอะไรทุกอย่าง — เหมือนรู้จักวัตถุดิบก่อนเข้าครัว 🍳
5:47
เนื้อหาประกอบ
ทำไมต้องรู้เรื่อง Data Types?
ก่อนจะวิเคราะห์ข้อมูลได้ สิ่งแรกที่ต้องรู้คือ “ข้อมูลที่อยู่ตรงหน้าเราเป็นประเภทไหน?”
เพราะประเภทของข้อมูลจะบอกเราว่า — จะวิเคราะห์ยังไง, จะแสดงผลยังไง, และจะใช้สถิติอะไรกับมัน
🍳 อุปมา: เหมือนการทำอาหาร — รู้ก่อนว่าวัตถุดิบคืออะไร ถึงจะเลือกวิธีปรุงได้ถูกต้อง ไม่งั้นก็เอาเนื้อไปต้มน้ำตาล หรือเอาน้ำตาลไปย่างไฟ 🔥
ภาพรวม Data Types
ข้อมูลทุกอย่างในโลกนี้แบ่งออกได้เป็น 2 ประเภทหลัก แล้วแตกย่อยออกมาอีกชั้น:
Data
├── Quantitative (ตัวเลข / วัดได้)
│ ├── Continuous (ต่อเนื่อง → น้ำหนัก, อุณหภูมิ)
│ └── Discrete (นับได้ → จำนวนคน, จำนวนคลิก)
│
└── Qualitative (หมวดหมู่ / บอกคุณสมบัติ)
├── Nominal (ไม่มีลำดับ → เพศ, สี, ประเทศ)
└── Ordinal (มีลำดับ → เรตติ้ง, ไซส์เสื้อ)
Continuous
ข้อมูลต่อเนื่อง
ค่าที่เป็นไปได้มีอนันต์ สามารถมีทศนิยมได้
- น้ำหนัก → 65.3 kg
- อุณหภูมิ → 36.5°C
- รายได้ → 32,500.50 บาท
- เวลา → 1.75 ชั่วโมง
Discrete
ข้อมูลที่นับได้
ค่าที่เป็นไปได้มีจำกัด มักเป็นจำนวนเต็ม
- จำนวนลูกค้า → 0, 1, 2…
- สินค้าในตะกร้า → 1, 2, 3…
- จำนวนคลิก → 0, 1, 2…
- อายุ (แบบจำนวนเต็ม)
Nominal
ข้อมูลไม่มีลำดับ
แค่ชื่อหรือหมวดหมู่ ไม่มีมากกว่า/น้อยกว่า
- เพศ → ชาย, หญิง, อื่นๆ
- สีของสินค้า → แดง, น้ำเงิน
- ประเทศ → ไทย, ญี่ปุ่น
- ประเภทชำระ → โอน, เงินสด
Ordinal
ข้อมูลมีลำดับ
มีหมวดหมู่และลำดับชัดเจน แต่ระยะห่างอาจไม่เท่ากัน
- ความพึงพอใจ → น้อย < ปานกลาง < มาก
- ระดับการศึกษา → ป.ตรี < ป.โท < ป.เอก
- ไซส์เสื้อ → S < M < L < XL
- เรตติ้ง → ⭐ < ⭐⭐ < ⭐⭐⭐
สรุปในตาราง
| ประเภท | ตัวอย่าง | เรียงลำดับได้? | คำนวณได้? |
|---|---|---|---|
| Continuous | น้ำหนัก, อุณหภูมิ, รายได้ | ✓ | ✓ |
| Discrete | จำนวนคน, จำนวนคลิก | ✓ | ✓ |
| Nominal | เพศ, สี, ประเทศ | ✗ | ✗ |
| Ordinal | เรตติ้ง, ไซส์เสื้อ | ✓ | ⚠ บางส่วน |
ตัวอย่างจริง — Dataset ร้านกาแฟ ☕
ลองดู dataset ตัวอย่างแล้วระบุประเภทของแต่ละ column กัน:
coffee_orders.csv — 3 rows sample
| customer_id | age | gender | order_size | rating | price |
|---|---|---|---|---|---|
| 001 | 28 | ชาย | L | 4 | 85.50 |
| 002 | 35 | หญิง | M | 5 | 65.00 |
| 003 | 22 | หญิง | S | 3 | 45.00 |
| Column | Data Type | เหตุผล |
|---|---|---|
| customer_id | Nominal | แค่รหัส ไม่มีความหมายเชิงตัวเลข |
| age | Discrete | อายุเป็นจำนวนเต็ม (ในบริบทนี้) |
| gender | Nominal | ไม่มีลำดับ ไม่มีมากกว่า/น้อยกว่า |
| order_size | Ordinal | S < M < L มีลำดับชัดเจน |
| rating | Ordinal | 1–5 มีลำดับ แต่ระยะห่างไม่แน่นอน |
| price | Continuous | มีทศนิยม วัดได้ คำนวณได้ |
⚠️ ข้อผิดพลาดที่เจอบ่อย
Mistake #1 — เห็นตัวเลขแล้วคิดว่าเป็น Quantitative เสมอ
รหัสไปรษณีย์ 10900 ดูเหมือนตัวเลข แต่จริงๆ คือ Nominal — เอาไป +/- กันไม่มีความหมายเลย เบอร์โทร, รหัสนักศึกษา ก็เช่นกัน
Mistake #2 — สับสน Discrete กับ Continuous
อายุในชีวิตจริงเราพูดว่า “28 ปี” (Discrete) แต่จริงๆ อายุวัดได้ละเอียดมาก เช่น 28.5 ปี (Continuous) — ขึ้นอยู่กับ context การใช้งาน
นำไปใช้ยังไงในงานจริง?
📊 Nominal / Ordinal
- Bar Chart
- Pie Chart
- นับความถี่ (Count)
- One-Hot / Label Encoding (ML)
📈 Continuous / Discrete
- Histogram
- Boxplot
- หาค่าเฉลี่ย (Mean)
- Standard Deviation
ทดสอบความเข้าใจ
🧠 Quiz 1 / 4
“จำนวนดาวเทียมของ SpaceX ในวงโคจร” — ข้อมูลนี้เป็นประเภทไหน?
🧠 Quiz 2 / 4
“ระดับความเสี่ยงของหุ้น: ต่ำ / ปานกลาง / สูง” — ข้อมูลนี้คือ?
🧠 Quiz 3 / 4
“Platform ที่ใช้สั่งอาหาร: Grab / LINE MAN / Robinhood” — ประเภทคือ?
🧠 Quiz 4 / 4
“ราคาน้ำมันต่อลิตร เช่น 42.75 บาท” — ข้อมูลชนิดนี้คือ?
0/4
ยังไม่ได้ทำ quiz