LLog EP01: The art of statistics เรียนรู้สถิติจากตัวอย่างข้อมูล

สวัสดีครับ วันนี้จะมาแชร์ความรู้ ความเข้าใจที่ได้จากอ่านหนังสือ “The art of statistics learning from data” ของ David Spiegelhalter เล่มแปลโดยคุณสุนันทา วรรณสิทธ์ แน่นอนว่าบวกกับความเข้าใจของแอดเองเข้าไปด้วย (ความเข้าใจในปี 2025 ณ วันที่อ่าน) —ซึ่งจะขอแบ่งเป็นตอนๆ ไปนะครับ อ่านทั้งเล่มไม่ทันจริงๆ ค่อยๆ มาปล่อยแล้วกัน เป็นยังไงบ้างไปดูกันเลย

ข้อมูล(สถิติ)ที่ดีนั้นมีความหมายแฝงอยู่ นั่นคือ ข้อมูลที่เก็บมานั้นมีการออกแบบกระบวนการเก็บ กระบวนการทดลองออกมาดีจริงๆ ดีมากๆ กับอีกอย่างคือ ข้อมูลนั้นอาจจะถูก make ขึ้นมาก็ได้ ดังนั้นตรวจสอบแหล่งที่มาของข้อมูลให้ดี

เราใช้สถิติในการทำความเข้าใจโลกนี้ จึงแปลงประสบการณ์ในชีวิตให้การเป็น “ข้อมูล” ซึ่งหมายถึงการแยกประเภท บันทึกค่า วิเคราะห์ผล และจึงค่อยสรุปผลที่ได้ หลักสำคัญคือ การจะได้มาซึ่งข้อมูลนั้น เราต้องนิยามให้ภาพที่ชัดเจนและตรงกัน

คำถามตัวอย่าง:
ในโลกนี้มี “ต้นไม้” ทั้งหมดกี่ต้น?

At the present time, there are about 400 trees per person on Earth. ©John T. Andrews‬‬‬‬‬

แน่นอนเราต้องมานิยามกันก่อน “ต้นไม้” จะนับว่าเป็น 1 ต้นคือ ต้องมีเส้นผ่านศูนย์กลางมากกว่า 5 นิ้ว (สมมติ-ความจริงอาจจะมีรายละเอียดมากกว่านี้ก็ได้ เน้นที่ชัดเจนเข้าใจตรงกัน)
แต่ว่าเราไม่สามารถเดินทางไปทั่วโลก เพื่อนับต้นไม้ทั้งหมดได้ นึกภาพออกมั้ย? อาจจะได้ถ้าระยะเวลา งบฯ มากพอจะทำมัน —แต่มันคุ้มค่ามั้ย?
จากนั้นทีมก็พยายามแบ่งกลุ่มหาภูมิประเทศที่ใกล้เคียงกัน หรือคล้ายกันเพื่อจำแนกหมวดหมู่ (คือ ป่าแต่ละประเภทความหนาแน่นของต้นไม้ต่างกัน) เช่น ป่าฝน, ป่าเขตร้อน, ป่าในเขตทราย และอื่นๆ
ลงพื้นที่ไปนับต้นไม้โดยเฉลี่ยในแต่ละกลุ่ม —ว่ามีกี่ต้น : 1 ตารางกิโลเมตร ในแต่ละประเภทของป่า
เพื่อจะนับต้นไม้ทั้งโลกต้องอาศัย(เทคนิค)ภาพถ่ายดาวเทียม เพื่อประเมินพื้นที่ป่าแต่ละประเภทว่ามีกี่ตารางกิโลเมตร
คูณเพื่อหายอดรวมต้นไม้ จะได้จำนวนต้นไม้ ~3.04 ล้านล้านต้น (ซึ่งต้องรายงานพร้อมกับความคลาดเคลื่อนนั่นคือ 2.94 – 3.14 ล้านล้านต้น)
ทั้งนี้ ยังต้องคำนึงถึงปัจจัยการบุกรุกป่านเพื่อตัดต้นไม้ของมนุษย์อีกด้วย

จะเห็นว่าหากเรานิยามไม่ตรงกัน หรือไม่ชัดเจนตั้งแต่แรก ยอดการคำนวณต้นไม้ ตอนสุดท้ายแล้วแต่ละคนจะไม่ตรงกันเลย ซึ่งจะทำให้การทดลองนั้นเสียเวลาเปล่า หรือได้ข้อสรุปผลที่ไม่ตรง ป้องกันความคลาดเคลื่อน

การใช้ข้อมูลเป็นแหล่งความรู้มีข้อจำกัด 2 ประการ
- อย่างแรก เราไม่มีทางวัดค่าสิ่งที่เราสนใจได้อย่างสมบูรณ์จากกลุ่มตัวอย่าง เช่น การถามว่า “สัปดาห์ที่ผ่านมาคุณมีความสุขแค่ไหนจากระดับ 0-10” เพราะมันไม่ครอบคลุมสุขภาวะทางอารมณ์ของคนทั้งประเภท
- อย่างที่สอง สิ่งที่เราเลือกวัด จะแตกต่างกันไปตามสถานที่ บุคคล ช่วงเวลา และอื่นๆ

ซึ่ง ความแปรเปลี่ยน (Variability) ที่ไร้รูปแบบนี้เป็นความท้ายทายให้กับสถิติ ในการตีความข้อมูลที่ไม่วันสมบูรณ์แบบ แยกแยะความสัมพันธ์จากความแปรเปลี่ยนพื้นฐานที่ทำให้เราทุกคนแตกต่างกัน ทำให้เราต้องตั้งคำถามกับข้อมูล(สถิติ)ที่ได้มาอยู่เสมอ

สรุปใน EP นี้

ก่อนจะไปสรุปข้อมูล สรุปผลทางสถิติเราจะเคลียร์ “นิยาม” ให้ชัดเจน เข้าใจตรงกันก่อน เพราะมันคือสิ่งที่กำหนดว่าเราจะวัดอะไรและวัดอย่างไร เพื่อให้ได้ข้อมูลที่แม่นยำและสามารถนำไปสู่ข้อสรุปที่ถูกต้องได้ 🎯
ข้อมูลสรุปผลจากกลุ่มตัวอย่างไม่สามารถสรุปผลกับประชากรทั้งหมดได้อย่างสมบูรณ์ 💯 เพราะเป็นเพียงการประมาณค่า (Estimation) เท่านั้น ในการรายงานผลควรรายงานปัจจัยความแปรเปลี่ยนร่วมด้วย เช่น ค่าเบี่ยงเบนมาตรฐาน (standard deviation) หรือ ช่วงความเชื่อมั่น (confidence interval) ช่วยให้เราเข้าใจว่าข้อมูลที่เราได้จากกลุ่มตัวอย่างนั้นมีความคลาดเคลื่อนจากค่าจริงของประชากรมากน้อยแค่ไหน

Feasible

LLog EP01: The art of statistics

สรุปใน EP นี้

Leave a Reply Cancel reply

Search

About

Archive

Categories

Recent Posts

Tags

Social Icons