สวัสดีครับ วันนี้จะมาแชร์ความรู้ ความเข้าใจที่ได้จากอ่านหนังสือ “The art of statistics learning from data” ของ David Spiegelhalter เล่มแปลโดยคุณสุนันทา วรรณสิทธ์ แน่นอนว่าบวกกับความเข้าใจของแอดเองเข้าไปด้วย (ความเข้าใจในปี 2025 ณ วันที่อ่าน) —ซึ่งจะขอแบ่งเป็นตอนๆ ไปนะครับ อ่านทั้งเล่มไม่ทันจริงๆ ค่อยๆ มาปล่อยแล้วกัน เป็นยังไงบ้างไปดูกันเลย
- ข้อมูล(สถิติ)ที่ดีนั้นมีความหมายแฝงอยู่ นั่นคือ ข้อมูลที่เก็บมานั้นมีการออกแบบกระบวนการเก็บ กระบวนการทดลองออกมาดีจริงๆ ดีมากๆ กับอีกอย่างคือ ข้อมูลนั้นอาจจะถูก make ขึ้นมาก็ได้ ดังนั้นตรวจสอบแหล่งที่มาของข้อมูลให้ดี
- เราใช้สถิติในการทำความเข้าใจโลกนี้ จึงแปลงประสบการณ์ในชีวิตให้การเป็น “ข้อมูล” ซึ่งหมายถึงการแยกประเภท บันทึกค่า วิเคราะห์ผล และจึงค่อยสรุปผลที่ได้ หลักสำคัญคือ การจะได้มาซึ่งข้อมูลนั้น เราต้องนิยามให้ภาพที่ชัดเจนและตรงกัน
คำถามตัวอย่าง:
ในโลกนี้มี “ต้นไม้” ทั้งหมดกี่ต้น?

- แน่นอนเราต้องมานิยามกันก่อน “ต้นไม้” จะนับว่าเป็น 1 ต้นคือ ต้องมีเส้นผ่านศูนย์กลางมากกว่า 5 นิ้ว (สมมติ-ความจริงอาจจะมีรายละเอียดมากกว่านี้ก็ได้ เน้นที่ชัดเจนเข้าใจตรงกัน)
- แต่ว่าเราไม่สามารถเดินทางไปทั่วโลก เพื่อนับต้นไม้ทั้งหมดได้ นึกภาพออกมั้ย? อาจจะได้ถ้าระยะเวลา งบฯ มากพอจะทำมัน —แต่มันคุ้มค่ามั้ย?
- จากนั้นทีมก็พยายามแบ่งกลุ่มหาภูมิประเทศที่ใกล้เคียงกัน หรือคล้ายกันเพื่อจำแนกหมวดหมู่ (คือ ป่าแต่ละประเภทความหนาแน่นของต้นไม้ต่างกัน) เช่น ป่าฝน, ป่าเขตร้อน, ป่าในเขตทราย และอื่นๆ
- ลงพื้นที่ไปนับต้นไม้โดยเฉลี่ยในแต่ละกลุ่ม —ว่ามีกี่ต้น : 1 ตารางกิโลเมตร ในแต่ละประเภทของป่า
- เพื่อจะนับต้นไม้ทั้งโลกต้องอาศัย(เทคนิค)ภาพถ่ายดาวเทียม เพื่อประเมินพื้นที่ป่าแต่ละประเภทว่ามีกี่ตารางกิโลเมตร
- คูณเพื่อหายอดรวมต้นไม้ จะได้จำนวนต้นไม้ ~3.04 ล้านล้านต้น (ซึ่งต้องรายงานพร้อมกับความคลาดเคลื่อนนั่นคือ 2.94 – 3.14 ล้านล้านต้น)
- ทั้งนี้ ยังต้องคำนึงถึงปัจจัยการบุกรุกป่านเพื่อตัดต้นไม้ของมนุษย์อีกด้วย
- จะเห็นว่าหากเรานิยามไม่ตรงกัน หรือไม่ชัดเจนตั้งแต่แรก ยอดการคำนวณต้นไม้ ตอนสุดท้ายแล้วแต่ละคนจะไม่ตรงกันเลย ซึ่งจะทำให้การทดลองนั้นเสียเวลาเปล่า หรือได้ข้อสรุปผลที่ไม่ตรง ป้องกันความคลาดเคลื่อน
- การใช้ข้อมูลเป็นแหล่งความรู้มีข้อจำกัด 2 ประการ
- อย่างแรก เราไม่มีทางวัดค่าสิ่งที่เราสนใจได้อย่างสมบูรณ์จากกลุ่มตัวอย่าง เช่น การถามว่า “สัปดาห์ที่ผ่านมาคุณมีความสุขแค่ไหนจากระดับ 0-10” เพราะมันไม่ครอบคลุมสุขภาวะทางอารมณ์ของคนทั้งประเภท
- อย่างที่สอง สิ่งที่เราเลือกวัด จะแตกต่างกันไปตามสถานที่ บุคคล ช่วงเวลา และอื่นๆ
- ซึ่ง ความแปรเปลี่ยน (Variability) ที่ไร้รูปแบบนี้เป็นความท้ายทายให้กับสถิติ ในการตีความข้อมูลที่ไม่วันสมบูรณ์แบบ แยกแยะความสัมพันธ์จากความแปรเปลี่ยนพื้นฐานที่ทำให้เราทุกคนแตกต่างกัน ทำให้เราต้องตั้งคำถามกับข้อมูล(สถิติ)ที่ได้มาอยู่เสมอ
สรุปใน EP นี้
- ก่อนจะไปสรุปข้อมูล สรุปผลทางสถิติเราจะเคลียร์ “นิยาม” ให้ชัดเจน เข้าใจตรงกันก่อน เพราะมันคือสิ่งที่กำหนดว่าเราจะวัดอะไรและวัดอย่างไร เพื่อให้ได้ข้อมูลที่แม่นยำและสามารถนำไปสู่ข้อสรุปที่ถูกต้องได้ 🎯
- ข้อมูลสรุปผลจากกลุ่มตัวอย่างไม่สามารถสรุปผลกับประชากรทั้งหมดได้อย่างสมบูรณ์ 💯 เพราะเป็นเพียงการประมาณค่า (Estimation) เท่านั้น ในการรายงานผลควรรายงานปัจจัยความแปรเปลี่ยนร่วมด้วย เช่น ค่าเบี่ยงเบนมาตรฐาน (standard deviation) หรือ ช่วงความเชื่อมั่น (confidence interval) ช่วยให้เราเข้าใจว่าข้อมูลที่เราได้จากกลุ่มตัวอย่างนั้นมีความคลาดเคลื่อนจากค่าจริงของประชากรมากน้อยแค่ไหน