0
Data Types — Big Bang Analytics
1 / 27 บทเรียน 3.7%
Lesson 1.1

Data Types

รู้จักประเภทของข้อมูลก่อนทำอะไรทุกอย่าง — เหมือนรู้จักวัตถุดิบก่อนเข้าครัว 🍳

5:47

ทำไมต้องรู้เรื่อง Data Types?

ก่อนจะวิเคราะห์ข้อมูลได้ สิ่งแรกที่ต้องรู้คือ “ข้อมูลที่อยู่ตรงหน้าเราเป็นประเภทไหน?”

เพราะประเภทของข้อมูลจะบอกเราว่า — จะวิเคราะห์ยังไง, จะแสดงผลยังไง, และจะใช้สถิติอะไรกับมัน

🍳 อุปมา: เหมือนการทำอาหาร — รู้ก่อนว่าวัตถุดิบคืออะไร ถึงจะเลือกวิธีปรุงได้ถูกต้อง ไม่งั้นก็เอาเนื้อไปต้มน้ำตาล หรือเอาน้ำตาลไปย่างไฟ 🔥

ภาพรวม Data Types

ข้อมูลทุกอย่างในโลกนี้แบ่งออกได้เป็น 2 ประเภทหลัก แล้วแตกย่อยออกมาอีกชั้น:

Data ├── Quantitative (ตัวเลข / วัดได้) │ ├── Continuous (ต่อเนื่อง → น้ำหนัก, อุณหภูมิ) │ └── Discrete (นับได้ → จำนวนคน, จำนวนคลิก) │ └── Qualitative (หมวดหมู่ / บอกคุณสมบัติ) ├── Nominal (ไม่มีลำดับ → เพศ, สี, ประเทศ) └── Ordinal (มีลำดับ → เรตติ้ง, ไซส์เสื้อ)
Continuous

ข้อมูลต่อเนื่อง

ค่าที่เป็นไปได้มีอนันต์ สามารถมีทศนิยมได้

  • น้ำหนัก → 65.3 kg
  • อุณหภูมิ → 36.5°C
  • รายได้ → 32,500.50 บาท
  • เวลา → 1.75 ชั่วโมง
Discrete

ข้อมูลที่นับได้

ค่าที่เป็นไปได้มีจำกัด มักเป็นจำนวนเต็ม

  • จำนวนลูกค้า → 0, 1, 2…
  • สินค้าในตะกร้า → 1, 2, 3…
  • จำนวนคลิก → 0, 1, 2…
  • อายุ (แบบจำนวนเต็ม)
Nominal

ข้อมูลไม่มีลำดับ

แค่ชื่อหรือหมวดหมู่ ไม่มีมากกว่า/น้อยกว่า

  • เพศ → ชาย, หญิง, อื่นๆ
  • สีของสินค้า → แดง, น้ำเงิน
  • ประเทศ → ไทย, ญี่ปุ่น
  • ประเภทชำระ → โอน, เงินสด
Ordinal

ข้อมูลมีลำดับ

มีหมวดหมู่และลำดับชัดเจน แต่ระยะห่างอาจไม่เท่ากัน

  • ความพึงพอใจ → น้อย < ปานกลาง < มาก
  • ระดับการศึกษา → ป.ตรี < ป.โท < ป.เอก
  • ไซส์เสื้อ → S < M < L < XL
  • เรตติ้ง → ⭐ < ⭐⭐ < ⭐⭐⭐

สรุปในตาราง

ประเภท ตัวอย่าง เรียงลำดับได้? คำนวณได้?
Continuous น้ำหนัก, อุณหภูมิ, รายได้
Discrete จำนวนคน, จำนวนคลิก
Nominal เพศ, สี, ประเทศ
Ordinal เรตติ้ง, ไซส์เสื้อ ⚠ บางส่วน

ตัวอย่างจริง — Dataset ร้านกาแฟ ☕

ลองดู dataset ตัวอย่างแล้วระบุประเภทของแต่ละ column กัน:

coffee_orders.csv — 3 rows sample
customer_id age gender order_size rating price
00128ชายL485.50
00235หญิงM565.00
00322หญิงS345.00
ColumnData Typeเหตุผล
customer_idNominalแค่รหัส ไม่มีความหมายเชิงตัวเลข
ageDiscreteอายุเป็นจำนวนเต็ม (ในบริบทนี้)
genderNominalไม่มีลำดับ ไม่มีมากกว่า/น้อยกว่า
order_sizeOrdinalS < M < L มีลำดับชัดเจน
ratingOrdinal1–5 มีลำดับ แต่ระยะห่างไม่แน่นอน
priceContinuousมีทศนิยม วัดได้ คำนวณได้

⚠️ ข้อผิดพลาดที่เจอบ่อย

Mistake #1 — เห็นตัวเลขแล้วคิดว่าเป็น Quantitative เสมอ
รหัสไปรษณีย์ 10900 ดูเหมือนตัวเลข แต่จริงๆ คือ Nominal — เอาไป +/- กันไม่มีความหมายเลย เบอร์โทร, รหัสนักศึกษา ก็เช่นกัน
Mistake #2 — สับสน Discrete กับ Continuous
อายุในชีวิตจริงเราพูดว่า “28 ปี” (Discrete) แต่จริงๆ อายุวัดได้ละเอียดมาก เช่น 28.5 ปี (Continuous) — ขึ้นอยู่กับ context การใช้งาน

นำไปใช้ยังไงในงานจริง?

📊 Nominal / Ordinal
  • Bar Chart
  • Pie Chart
  • นับความถี่ (Count)
  • One-Hot / Label Encoding (ML)
📈 Continuous / Discrete
  • Histogram
  • Boxplot
  • หาค่าเฉลี่ย (Mean)
  • Standard Deviation

🧠 Quiz 1 / 4

“จำนวนดาวเทียมของ SpaceX ในวงโคจร” — ข้อมูลนี้เป็นประเภทไหน?
AContinuous
BDiscrete
CNominal
DOrdinal

🧠 Quiz 2 / 4

“ระดับความเสี่ยงของหุ้น: ต่ำ / ปานกลาง / สูง” — ข้อมูลนี้คือ?
AContinuous
BDiscrete
CNominal
DOrdinal

🧠 Quiz 3 / 4

“Platform ที่ใช้สั่งอาหาร: Grab / LINE MAN / Robinhood” — ประเภทคือ?
AContinuous
BDiscrete
CNominal
DOrdinal

🧠 Quiz 4 / 4

“ราคาน้ำมันต่อลิตร เช่น 42.75 บาท” — ข้อมูลชนิดนี้คือ?
AContinuous
BDiscrete
CNominal
DOrdinal
0/4
ยังไม่ได้ทำ quiz