ช่วงที่ผมเริ่มเรียนเรื่องเกี่ยวกับ Data Sci ใหม่ๆ ตอนได้ยินเรื่อง Clustering นี่เอาเข้าจริงก็งงอยู่นะครับ 555 แบบศัพท์ไรวะ ชื่อเท่เกิ้นนน

พอได้หาข้อมูลไปมา ก็พอจะเข้าใจว่ามันคือการ “จัดกลุ่ม” แต่คำว่า “จัดกลุ่ม” เนี่ย เอาเข้าจริง พอพูดๆแล้ว ก็ยังไม่ค่อยเข้าใจเท่าไหร่นะครับ “จัดอะไร จัดทำไม จัดไปเพื่ออะไร” (ส่วนตัวเป็นคนที่ต้องเข้าใจว่า core ของการทำอะไรแบบนี้คือ เราจะทำไปเพื่ออะไร ? 555) ด้วยความที่เป็นคนที่ต้องเร้าหรือกับตัวเองเนี่ยแหละ เลยหาข้อมูลมาเยอะมาก ไม่ว่าจะอ่านเอา ถาม chatgpt, gemini เรียกได้ว่าเอาให้เคลียว่า “ทำไมเราต้องใช้มัน” จนเป็นในที่สุดครับ ก็ได้คลอดออกมากลายเป็นบทความนี้ 🙂 ให้ทุกคนได้อ่านกัน!

Clustering คืออะไร ?

ผมว่าพอผมเกริ่นให้ขนาดนี้ ก็น่าจะพอเห็นภาพลางๆกันละล่ะ Clustering ความหมายหลักของมันก็คือ “การจัดกลุ่มข้อมูล” โดยการจัดกลุ่มข้อมูลนั้น จะมีเกณฑ์กำหนดกำหนดว่า ข้อมูลแบบนี้ควรจะเป็นกลุ่มไหน ซึ่งสิ่งที่เอาเป็นเกณฑ์ในการแบ่งกลุ่มเนี่ย เราจะเรียกมันว่า “ลักษณะร่วม” ครับ โดนตัวเรานั้น มีหน้าที่ในการกำหนดสิ่งที่เรียกว่า “จำนวนกลุ่ม(n)” เท่านั้น

เป็นไงฮะ? ง่ายไปมั้ย ?

ไปฮะ ไปกันต่อ เดี๋ยวจะพาเข้าเรื่องยากละ 555+

Clustering เกิดขึ้นมาทำไม ? ทำงานยังไง ?

เอาให้แบบง่ายที่สุดเลยนะครับ ตัวของมัน จะทำสิ่งที่เรียกว่า “วัดความคล้ายของคุณสมบัติต่างๆ” ในข้อมูลที่มี เช่น การคำนวนระยะห่างของข้อมูลจากจุดใดจุดนึง (ศัพท์เท่ๆคือ euclidean distance) และอาจจะมีวิธีอื่นๆด้วย ที่เอามาปรับใช้เพื่อให้ข้อมูลที่ใกล้กันนั้น ถูกดึงเข้ามาอยู่เป็นกลุ่มเดียวกัน ยกตัวอย่างวิธีที่คุ้นหูกันมาบ้างก็เช่น

  1. K-Means
  2. Hierarchical clustering
  3. DBSCAN

วิธีการต่างๆที่บอกไปข้างต้น(จริงๆมีอีกนะครับ) เป็นวิธีย่อยๆที่เอามาช่วยให้การจัดกลุ่มของข้อมูลประเภทที่ไม่มีการกำกับหรือที่เราเรียกกันว่า “Unsupervised data” นั้น สามารถบอกกับตัวเองได้ว่า “เราจะต้องไปอยู่กลุ่มนี้นะ (กลุ่ม 0,1,2,3,4 …)” ขึ้นอยู่กับว่าเราจะกำหนดจำนวนกลุ่มไว้ที่เท่าไหร่ตามที่บอกไปข้างต้นน่ะครับ – อารมณ์เหมือนตอนแบ่งกลุ่มมัธยมเลย 555+

เราใช้ Clustering ตอนไหน ?

มีหลายสถานการณ์มากเลยครับ ที่เราสามารถใช้ Clustering Analysis ไปโยนใส่ข้อมูลที่มันไม่รู้ว่าตัวมันเองนั้น ควรจะอยู่ตรงไหน กลุ่มไหน ตัวอย่างง่ายๆที่เราเห็นกันบ่อยๆก็คือ การแยกรีวิวของลูกค้าที่เราได้รับว่ารีวิวที่เราได้นั้น เป็นรีวิวที่ “ดีหรือไม่ดี” – Positive or Negative, การดูว่าลูกค้าที่เรามีนั้น เป็นลูกค้าแบบไหน ประเภทไหน (จ่ายหนักนานๆที จ่ายน้อย ไม่บ่อย หรือประเภทไม่จ่ายเลย เข้ามาดูอย่างเดียว 5555+)

โดยการวิเคราะห์ Clustering นี้ จะเป็นงานของคนที่ทำงานในตำแหน่ง “นักวิทยาศาสตร์ข้อมูล” – Data Science เป็นหลัก หรือไม่แน่นะครับ อาจจะลากยาวไปจนถึงคนที่ทำงานเป็น “นักวิเคราะห์ข้อมูล” หรือ Data Analyst ก็ได้ มันเป็นได้หมดเลยครับสมัยนี้(อะไรก็ปนกันไปหมด คาดหวังกันแบบ Full-stack เกิ้นนนนนนพี่)

ทำไมการจัดกลุ่มจึงสำคัญ ?

เราจะพูดกันเฉพาะในแง่ธุรกิจอย่างเดียวนะครับ (เพราะแอดถนัดสุด ณ ตอนนี้ 5555 เรื่องอื่นอาจจะยังก่อน กลัวจะเขียนไม่แตกฉาน ฮ่าๆ) เพื่ออรรถรสในการรับอ่านรับชม

สมมติว่าเรามีลูกค้าประมาน 1,000 คนละกัน เป็นบริษัทเล็กๆ ใน 1,000 คนของเราเนี่ย ก็จะมีความหลากหลายของลูกค้าในแง่ของนิสัย พฤติกรรม ต่างกันใช่ไหมครับ ? (ร้อยพ่อพันแม่ใช้ได้จริง 555+) ซึ่งนั่นหมายความว่า เราจะมีนิสัยประมาน 1,000 นิสัยหรือพฤติกรรมอยู่ในมือ

เราต้องการที่จะทำโปรโมชั่นสักอย่างหนึ่งขึ้นมา ในแง่ธุรกิจนั้น การทำ promotion มันใช้เงินครับ 555 การที่เราใช้เงินกับโปรโมชั่นไปนั้น จะต้องได้ผลลัพธ์กลับมาซึ่งสิ่งนี้เราจะเรียกว่า ROI (Return on Investment – ผลตอบแทนจากการลงทุน) ในระดับนึงเลย 5-6 เท่าก็ว่าไป

เราจะต้องยิงโปรโมชั่น ให้ถูกกลุ่มลูกค้า เราจะต้องไม่หว่านแหไปทั่วครับ

เพราะฉะนั้นแล้ว “การรู้จักลูกค้าอย่างดี” จึงเป็นสิ่งสำคัญอย่างมากในธุรกิจ ซึ่งนั่นเป็นเหตุผลที่ว่า ทำไมเราจึงต้องจัดกลุ่มให้กับลูกค้าของเรา เพราะเราไม่สามารถทำโปรโมชั่น 1,000 อย่าง เพื่อลูกค้า 1,000 คนได้ 5555 มันแพงเกินไม่ไหว ไม่คุ้ม

แต่ถ้าเราแบ่งกลุ่มลูกค้าเป็น 5 กลุ่ม แล้วทำโปรโมชั่นเป็น 5 โปรโมชั่น แล้วยิงไปเนี่ย แบบนี้ผลลัพธ์มันชัดเจนกว่ามากๆเลยครับ (ROI จะสูงมากกว่ายิงกระจายไปทั่วแบบตอนแรกแน่นอน)

เราจะทำ Clustering ยังไงได้บ้าง ?

การทำ Clustering มีหลายแบบมากครับ ขึ้นอยู่กับเครื่องมือที่เราจะใช้ในการทำเลย อยากได้แบบ manual หน่อยก็เขียน code เองด้วย Python อยากได้แบบสำเร็จไวๆเห็นภาพ ก็ใช้โปรแกรมสำเร็จรูปอย่าง Rapid Miner ได้เลย ขึ้นอยู่กับความชอบและความต้องการของแต่ละคน

อย่างวิดีโอนี้ ที่แอดพึ่งลง!

สรุป

Clustering Analysis หรือการทำ Clustering ที่เราเรียกกันสั้นๆ เป็นวิธีทาง Data Sci ที่จะช่วยให้ธุรกิจ สามารถเข้าใจในเรื่องของสินค้า หรือแม้กระทั่งลูกค้ามากขึ้น ใครที่มีทักษะนี้เอาไว้ติดตัว โดยเฉพาะ Data Analyst นั้น ย่อมมีความได้เปรียบเป็นอย่างมากเลยครับ ไปเรียนกันเลย!


Leave a Reply

Your email address will not be published. Required fields are marked *

👨🏻‍💻 If outside is hot, Stay in and learn!

🎉 Type "Apr20" before purchasing!

get 20% off !

(Fastlane, Marvel, Big Bang, Rizz D-Sci, FODE)

April Only !