วันนี้พาคุณผู้อ่านมาทำความรู้จักสถิติ (Statistic) กันซะหน่อย อาจจะเป็นฝันร้ายในวันวานของใครบางคน (รวมถึงเราด้วย) วันนี้ได้เปิดโลกเลยพยายามทำความเข้าใจมันมากขึ้น แล้วก็เอาสิ่งที่ได้มาฝากคุณผู้อ่านอีกเช่นเคย เป็นยังไง หัวข้อไหนปึ้งบ้างไปดูกันฮะ 😁
- คำว่า “statistic” 📊 มาจากคำว่า “state” 🗺️
- ค่าเฉลี่ยไม่ได้อยู่ตรงกลางเสมอไป
- “Normal Distribution” มีอยู่ทุกที่
- ทายแม่นกว่าใครด้วยกฏ 68-95-99.7
- มีความสัมพันธ์กันไม่ได้หมายถึงเป็นสาเหตุให้เกิด
- Sample size นั้นสำคัญฝุดๆ
- เรื่องเล่าจาก Outliers
- ยิ่งสุ่มยิ่งเจอ Law of Large Number: กฎที่ว่าด้วยจำนวนมาก
- กระจุก..หรือกระจาย ❤️🩹 แปรปรวน..หรือรวนเร
- Boxplot กล่องอเนกประสงค์ 📦
1. คำว่า “statistic” 📊 มาจากคำว่า “state” 🗺️
คำว่า “statistics” มีรากศัพท์มาจากคำภาษาละติน “status” (หมายถึง “สถานะ” หรือ “สภาวะ”) และต่อมาได้พัฒนาผ่านภาษาอิตาลี “statista” (หมายถึง “รัฐบุรุษ” หรือ “นักการเมือง”) และภาษาเยอรมัน “Statistik”
ในอดีตสถิติถูกนำมาใช้ในการรวบรวมและวิเคราะห์ข้อมูลเกี่ยวกับรัฐไม่ว่าจะเป็นข้อมูลประชากร การค้า และภาษี เพื่อใช้ในการบริหารและปกครองรัฐ ดังนั้น ควาเชื่อมโยงระหว่างคำว่า “statistics” กับ “state” จึงมาจากจุดเริ่มต้นของการใช้สถิติในการวิเคราะห์ข้อมูลของรัฐนั่นเอง
ได้มีการนิยามคำว่า “สถิติ” มากกมายในงานวิจัยของไทย ซึ่งขอสรุปเป็นภาษาของเราคือ …
วิธีการที่เราพยายามจะเข้าใจโลกนี้
ผ่านการเรียนรู้จากกลุ่มตัวอย่าง
โดยมีเป้าหมายเพื่อการตัดสินใจที่ดีขึ้น
อย่างเช่น เราอยากจะรู้ว่าประชากร (Population) ทั้งหมดคิดเห็นอย่างไร แต่เป็นไปไม่ได้ที่จะเก็บข้อมูลจากประชากรทั้งหมด ทำให้เราต้องสุ่มกลุ่มตัวอย่าง (Sample) ขึ้นมา โดยที่กลุ่มตัวอย่าง ต้องเป็นตัวแทนที่ดี (Representative) ของประชากรทั้งหมดที่หน้าตาลักษณะคล้ายกับประชากร ทำให้เราสามารถสรุปผลค่าต่างๆ (Inference) กลับไปหาประชากรทั้งหมดได้ (Generalization) ไม่ว่าจะเป็น Mean, SD, Min, Max, Range, หรืออื่นๆ ด้วยตัวเลขเดียวได้
2. ค่าเฉลี่ยไม่ได้อยู่ตรงกลางเสมอไป
จากที่เราได้เรียนรู้มาทั้งชีวิต เวลาเราจะรายงานตัวเลขสรุป รายวัน หรือรายเดือนส่วนใหญ่มักจะใช้ “ค่าเฉลี่ย” (Mean หรือ Average) ใช่มั้ยครับ? โดยการเอาข้อมูลมารวมกันแล้วหารด้วยจำนวนทั้งหมด แต่รู้หรือไม่ครับว่า บางสถานการณ์ ค่าเฉลี่ยที่เราคุ้นเคยอาจจะไม่ใช่ตัวแทนที่ดีของข้อมูลทั้งหมด เพราะมันไวต่อ “ค่าผิดปกติ” หรือ “Outliers”
ค่าผิดปกติ (Outliers) คืออะไร?
มันคือข้อมูลที่มีค่าต่างจากข้อมูลอื่น ๆ ในชุดข้อมูลเราอย่างมาก เช่น ถ้าเรามีข้อมูลเงินเดือนของพนักงาน 10 คน และส่วนใหญ่อยู่ระหว่าง 20,000 – 50,000 บาท แต่มีผู้บริหารคนหนึ่งเงินเดือน 500,000 บาท เงินเดือนของผู้ บ. คนนี้แหละคือ Outliers
ทำไม Outliers ถึงทำให้ค่าเฉลี่ยเพี้ยน?
เพราะค่าเฉลี่ยเกิดจากการเอาข้อมูลทั้งหมดมารวมกัน ซึ่งค่าผิดปกติที่มีค่าสูง (หรือต่ำ) มาก ๆ จะดึงค่าเฉลี่ยให้สูง (หรือต่ำ) ตามไปด้วย แล้วจึงหารด้วยจำนวนทั้งหมด (ซึ่งก็ไม่ได้มีเยอะ) ทำให้ค่าเฉลี่ยที่ได้ไม่สะท้อนถึงค่ากลาง ๆ ของข้อมูลส่วนใหญ่
แล้วถ้าข้อมูลมี Outliers แล้ว สามารถใช้อะไรแทนได้บ้าง
สามารถใช้ค่า Median หรือ ค่ามัธยฐาน มันคือค่าที่อยู่ตรงกลางของข้อมูลเมื่อเรียงจากน้อยไปมาก ถ้าจำนวนข้อมูลเป็นเลขคู่ ค่ามัธยฐานคือค่าเฉลี่ยของค่าสองค่าที่อยู่ตรงกลาง
ทำไมค่ามัธยฐานถึงดีกว่าในบางสถานการณ์?
เพราะค่ามัธยฐานไม่ไวต่อค่าผิดปกติ (Robust statistics) มันสนใจแค่ค่าที่อยู่ตรงกลาง ไม่ใช่ผลรวมทั้งหมด ดังนั้น ถ้ามีค่าผิดปกติในข้อมูล หรือมีข้อมูลใหม่เข้ามาที่สูงมากๆ ค่า Median จะยังคงเป็นตัวแทนที่ดีของค่ากลาง ๆ ของข้อมูลส่วนใหญ่

จะเห็นว่าค่า Mean นั้นโดนดึงไปสูงถึง 122,000 บาท ซึ่งไม่ได้สะท้อนถึงเงินเดือนของพนักงานส่วนใหญ่เลย ในขณะที่ค่า Median 30,000 บาท เป็นตัวแทนที่ดีกว่า
Note และโปรดจำ🌵
- ค่าเฉลี่ย (mean) เหมาะกับข้อมูลที่มีการกระจายตัวสม่ำเสมอ ไม่มีค่าผิดปกติ
- ค่ามัธยฐาน (median) เหมาะกับข้อมูลที่มีค่าผิดปกติ หรือมีการกระจายตัวที่ไม่สม่ำเสมอ
- จะเลือกใช้ค่ากลางที่เป็นตัวแทนแบบไหนขึ้นอยู่กับลักษณะของข้อมูลและวัตถุประสงค์ของงานด้วย
3. Normal Distribution” มีอยู่ทุกที่
“Normal Distribution” คืออะไร?
Normal Distribution หรือ การแจกแจงปกติ หรือที่เราคุ้นๆ กันเมื่อเห็นกราฟ “เส้นโค้งรูประฆังคว่ำ” (bell curve) ซึ่งมันแสดงให้เห็นว่าข้อมูลส่วนใหญ่จะกระจุกตัวอยู่รอบค่า Mean และข้อมูลที่อยู่ห่างจากค่าเฉลี่ยจะมีความถี่น้อยลงเรื่อยๆ ทำให้เกิดรูปร่างคล้ายระฆังคว่ำ
ทำไมถึง “มีอยู่ทุกที่”?
เหตุผลที่ Normal Distribution ปรากฏใธรรมชาติหลายอย่างก็เพราะว่า:
- ผลรวมของปัจจัยอิสระ: ปรากฏการณ์หลายอย่างเป็นผลรวมของปัจจัยอิสระจำนวนมาก เมื่อปัจจัยเหล่านี้มีอิทธิพลต่อกันแบบสุ่ม ผลรวมของมันมักจะมีการแจกแจงปกติ ตัวอย่างเช่น ส่วนสูงของมนุษย์ได้รับผลกระทบจากปัจจัยหลายอย่าง เช่น พันธุกรรม โภชนาการ การออกกำลังกาย และสิ่งแวดล้อม ซึ่งปัจจัยเหล่านี้มักจะทำงานอย่างเป็นอิสระต่อกัน
- Central Limit Theorem: ทฤษฎีนี้บอกว่า เมื่อเราสุ่มตัวอย่างจากประชากรใดๆ ก็ตาม (ไม่ว่าการแจกแจงจะเป็นแบบไหน) และคำนวณค่าเฉลี่ยของตัวอย่างเหล่านั้น ค่าเฉลี่ยของตัวอย่างจะมีการแจกแจงเข้าใกล้การแจกแจงปกติ เมื่อขนาดตัวอย่างมีขนาดใหญ่พอ
ตัวอย่างของปรากฏการณ์ที่มี Normal Distribution:
- ส่วนสูงของคนเรา: เมื่อเราเก็บข้อมูลส่วนสูงของกลุ่มตัวอย่าง โดยส่วนใหญ่ความสูงที่ได้มักจะใกล้ค่าเฉลี่ย และมีคนสูงหรือเตี้ยมากๆ อยู่จำนวนน้อย
- คะแนนสอบ: คะแนนสอบของนักเรียนจำนวนมากมักจะมีการแจกแจงปกติ โดยมีคะแนนส่วนใหญ่อยู่ใกล้ค่าเฉลี่ย

- ความดันโลหิต: ความดันโลหิตของคนส่วนใหญ่จะอยู่ใกล้ค่าปกติ (120/80) และมีคนที่มีความดันโลหิตสูงหรือต่ำมากๆ อยู่จำนวนน้อย อย่างเช่น ผู้ป่วยโรคความดัน
ความสำคัญของ Normal Distribution:
- การวิเคราะห์ข้อมูล: Normal Distribution เป็นพื้นฐานของการวิเคราะห์ข้อมูลทางสถิติ เช่น การทดสอบสมมติฐาน (Hypothesis testing) การสร้างช่วงความเชื่อมั่น (Confidence interval) และการวิเคราะห์การถดถอย (Linear regression)
- การทำนาย: Normal Distribution ช่วยให้เราทำนายความน่าจะเป็นของเหตุการณ์ต่างๆ ได้ดีขึ้น เมื่อข้อมูลมีการแจกแจงปกติ เราสามารถใช้ตารางการแจกแจงปกติมาตรฐาน (Z-table) หรือซอฟต์แวร์ทางสถิติเพื่อคำนวณความน่าจะเป็นที่ค่าของตัวแปรจะอยู่ในช่วงใดช่วงหนึ่งได้อย่างแม่นยำ เช่น ความน่าจะเป็นที่คนๆ หนึ่งจะมีส่วนสูงอยู่ในช่วงใดช่วงหนึ่ง

- การควบคุมคุณภาพ: การแจกแจงปกติถูกนำมาใช้ในการควบคุมคุณภาพของผลิตภัณฑ์ โดยการตรวจสอบว่าผลิตภัณฑ์มีการกระจายตัวอยู่ในช่วงที่กำหนดหรือไม่

4. ทายแม่นกว่าใครด้วยกฏ 68-95-99.7
กฎ 68-95-99.7 หรือ Empirical Rule เป็นกฎทางสถิติที่ใช้กับข้อมูลที่มีการกระจายตัวแบบปกติ (Normal Distribution) โดยกฎนี้บอกไว้ว่าข้อมูลส่วนใหญ่จะกระจายตัวอย่างไรเมื่อเทียบกับค่าเฉลี่ย (Mean) และส่วนเบี่ยงเบนมาตรฐาน (S.D.)
กฎ 68-95-99.7:
- 68%: ข้อมูลประมาณ 68% จะอยู่ในช่วงค่าเฉลี่ย ± 1 S.D.
- 95%: ข้อมูลประมาณ 95% จะอยู่ในช่วงค่าเฉลี่ย ± 2 S.D.
- 99.7%: ข้อมูลประมาณ 99.7% จะอยู่ในช่วงค่าเฉลี่ย ± 3 S.D.

ความน่าสนใจของ Empirical Rule:
- การประมาณค่าอย่างรวดเร็ว: ช่วยให้เราประมาณการกระจายตัวของข้อมูลได้อย่างรวดเร็ว โดยไม่ต้องคำนวณค่าที่ซับซ้อน
- การระบุค่าผิดปกติ: ช่วยให้เราระบุค่าผิดปกติในชุดข้อมูลได้ โดยค่าที่อยู่นอกช่วง ± 3 ส่วนเบี่ยงเบนมาตรฐานมักถูกพิจารณาว่าเป็นค่าผิดปกติ
- การตัดสินใจทางธุรกิจ: ในด้านธุรกิจ Empirical Rule ช่วยในการตัดสินใจ เช่น การควบคุมคุณภาพ การประเมินความเสี่ยง และการพยากรณ์
- ข้อควรระวังในการใช้: Empirical Rule ใช้ได้เฉพาะกับข้อมูลที่มีการแจกแจงแบบปกติหรือใกล้เคียงกับปกติเท่านั้น
ตัวอย่างการนำไปใช้:
- คะแนนสอบ: หากคะแนนสอบมีการแจกแจงแบบปกติ เราสามารถใช้ Empirical Rule เพื่อประมาณจำนวนนักเรียนที่ได้คะแนนในช่วงต่าง ๆ
- ส่วนสูงของประชากร: หากส่วนสูงของประชากรมีการแจกแจงแบบปกติ เราสามารถใช้ Empirical Rule เพื่อประมาณจำนวนคนที่สูงในช่วงต่าง ๆ
- การควบคุมคุณภาพ: ในภาคอุตสาหกรรม Empirical Rule ถูกนำมาใช้ในการตรวจสอบว่าผลิตภัณฑ์มีคุณภาพสม่ำเสมอหรือไม่
5. มีความสัมพันธ์กันไม่ได้หมายถึงเป็นสาเหตุให้เกิด
มาจากประโยคที่ว่า Correlation does not imply causation
Correlation หรือ ความสัมพันธ์
เป็นความสัมพันธ์ทางสถิติระหว่างตัวแปรสองตัว ที่บอกเราว่าตัวแปรสองตัวเปลี่ยนแปลงไปในทิศทางเดียวกันหรือไม่ (Positive) หรือในทิศทางตรงกันข้าม (Negative) เช่น ยอดขายไอติมและความร้อนมีความสัมพันธ์ Positive (เมื่ออากาศร้อนขึ้น ยอดขายไอติมก็เพิ่มขึ้น)
Causation หรือ ความเป็นเหตุเป็นผล
เป็นความสัมพันธ์ที่ตัวแปรหนึ่ง (สาเหตุ) ส่งผลให้เกิดการเปลี่ยนแปลงในอีกตัวแปรหนึ่ง (ผลลัพธ์) เช่น การออกกำลังกายอย่างสม่ำเสมอทำให้สุขภาพดีขึ้น (การออกกำลังกายเป็นสาเหตุของสุขภาพที่ดีขึ้น)
เพียงเพราะตัวแปรสองตัวมีความสัมพันธ์กัน ไม่ได้หมายความว่าตัวแปรหนึ่งเป็นสาเหตุของอีกตัวแปรหนึ่ง อาจมีปัจจัยที่สาม (ตัวแปรที่ซ่อนอยู่: Lurking Variable) ที่มีอิทธิพลต่อทั้งสองตัวแปร ทำให้เกิดความสัมพันธ์ที่ดูเหมือนเป็นเหตุเป็นผล (Spurious Correlation) เป็นความสัมพันธ์แบบปลอมๆ ไม่ได้เกี่ยวข้องกันจริงๆ
มาดูตัวอย่าง classic กัน:

มีรายงานว่ายอดขายไอศกรีมและความถี่ของการจมน้ำมีความสัมพันธ์กันแบบ Positive แต่เท่าที่เรารู้ไอติไม่ได้ทำให้คนจมน้ำ และการจมน้ำไม่ได้ทำให้คนซื้อไอติม แต่ปัจจัยที่สามคือ “ความร้อน” นั่นเอง เมื่ออากาศร้อนขึ้น คนจะซื้อไอติมมากขึ้นและไปว่ายน้ำมากขึ้น ทำให้มีโอกาสจมน้ำมากขึ้น

6. Sample size นั้นสำคัญฝุดๆ
ได้โปรดจำไว้ว่า “ขนาดตัวอย่างนั้นมีความสำคัญ” หากเราเก็บตัวอย่างขนาดเล็กอาจนำไปสู่ผลลัพธ์ที่ทำให้เข้าใจผิด จงรวบรวมข้อมูลให้เพียงพอเพื่อสรุปผลที่เชื่อถือได้ เพราะมันมีผลกระทบโดยตรงต่อความน่าเชื่อถือและความแม่นยำของผลลัพธ์ที่ได้
ทำไม Sample size จึงสำคัญ?
เพื่อเป็นตัวแทนที่ดีของประชากรทั้งหมดที่เราสนใจศึกษา ตัวอย่างขนาดเล็กทำให้ผลลัพธ์ที่ได้อาจไม่สามารถนำไปใช้กับประชากร (Inference) ทั้งหมดได้
และในด้านของความแม่นยำ ไม่ว่าจะเป็น ค่าเฉลี่ย, สัดส่วนนั้น (ที่เราจะสรุปเพื่อเป็นตัวแทน) ตัวอย่างขนาดเล็กมีแนวโน้มที่จะมีความคลาดเคลื่อนมากกว่าตัวอย่างขนาดใหญ่
✌️ Inference การ apply ค่าสถิติที่ได้จากกลุ่มตัวอย่างไปใช้กับประชากร เพื่อใช้ในการตัดสินใจ
แล้วเท่าไหร่จึงเหมาะสมหล่ะ?
ในความคิดของเรา ยิ่ง sample เข้าใกล้ population ยิ่งดี
ขนาดตัวอย่างที่เหมาะสมขึ้นอยู่กับปัจจัยหลายอย่าง เช่น ขนาดของประชากร, ความผันแปรของข้อมูล, และระดับความเชื่อมั่นที่ต้องการ และการคำนวณขนาดตัวอย่างที่เหมาะสมเป็นสิ่งสำคัญในการออกแบบการศึกษาทางสถิติ
แต่ในความจริงแล้ว Sample size จะใหญ่-เล็ก: ขึ้นอยู่กับ Budget, Timeline
เช่น n = 1,000 และ budget = 500,000 ดังนั้น CPI = 500 (500000/1000) อาจจะไปปรึกษากับทีมว่าการเก็บข้อมูล 500 บาทต่อคน เป็นไปได้มั้ย? [CPI: cost per interview]
แล้วเท่าไหร่ถึงยอมรับได้ ต้องการความมั่นใจที่เท่าไหร่สามารถคำนวณคร่าวๆ ได้ที่เว็บนี้เลย Sample Size Calculator | SurveyMonkey

MOE (Margin of Error) เป็นตัวชี้วัดความแม่นยำ ระบุช่วงของความไม่แน่นอนในผลการสำรวจหรือการวิจัย (หน่วยเป็น % ยิ่งน้อยยิ่งดี)
Error 5% → Confidence level 95% ทำซ้ำ 100 ครั้ง ได้ผลลัพธ์เหมือนเดิม 95 ครั้ง
ในทาง stat: Error+/- 5% ก็ยอมรับได้แล้ว (Diminishing return ยิ่งเยอะยิ่งไม่คุ้มค่า)

เอาแค่พอมั่นใจ 95% เพราะว่ามันช่วยลด CPI ลงได้เยอะ ซึ่งควรเอา budget ไปลงกับอย่างอื่น
7. เรื่องเล่าจาก Outliers
ค่าผิดปกติ หรือ outliers เป็นจุดที่ข้อมูลแตกต่างจากข้อมูลอื่น ๆ อย่างมาก ซึ่งเราก็มักจะมองข้ามหรือรีบกำจัดค่าผิดปกติเหล่านี้ออกไป ชิ้วๆๆ 👋 แต่ในความเป็นจริงบางครั้ง Outliers ก็สามารถให้ insight ดีๆ เกี่ยวกับข้อมูลที่เรากำลังศึกษาได้เช่นกัน
ทำไม Outliers จึงสำคัญ?
มันชี้ให้ถึงความผิดพลาดทั้งจากการวัด การป้อนข้อมูล หรือการบันทึกข้อมูลตั้งแต่ต้นทาง การตรวจเจอ Outliers ช่วยให้เราแก้ไขข้อผิดพลาดและปรับปรุงคุณภาพของข้อมูลได้
Outliers ช่วยให้เราค้นพบข้อมูลเชิงลึกใหม่ ๆ ที่อาจนำไปสู่การค้นพบทางวิทยาศาสตร์หรือการตัดสินใจทางธุรกิจ

Outliers อาจบ่งชี้ถึงกิจกรรม/พฤติกรรมที่ผิดปกติหรือผิดกฎหมาย อย่างเช่น ในการตรวจจับการฉ้อโกง การโอนเงินครั้งละมากๆ หรือบ่อยๆ อาจจะเป็นกิจกรรมที่น่าสงสัย
ตัวอย่าง:
- ทางการแพทย์: ค่าผิดปกติในผลการตรวจเลือดอาจบ่งชี้ถึงโรคที่หายากหรือผิดปกติ และการตรวจสอบค่าผิดปกติเหล่านี้ช่วยให้แพทย์วินิจฉัยและรักษาโรคได้อย่างแม่นยำ
- ทางการเงิน: ค่าผิดปกติในธุรกรรมทางการเงินอาจบ่งชี้ถึงการฉ้อโกงหรือการฟอกเงิน ช่วยให้ธนาคารและหน่วยงานกำกับดูแลตรวจจับและป้องกันอาชญากรรมทางการเงิน
ทั้งนี้เพียงแค่จะบอกว่า:
- ไม่เพิ่งลบค่าผิดปกติออกโดยอัตโนมัติ ควรตรวจสอบและทำความเข้าใจสาเหตุของการเกิดค่าผิดปกตินั้น ๆ ก่อน
- การวิเคราะห์ค่าผิดปกติควรทำอย่างระมัดระวัง และควรพิจารณาถึงบริบทของข้อมูล หรือปรึกษา Domain Expertise เพื่อให้เข้าใจสาเหตุมากขึ้น
8. ยิ่งสุ่มยิ่งเจอ Law of Large Number: กฎที่ว่าด้วยจำนวนมาก
กฎของจำนวนมาก (Law of Large Number) เป็นยังไงนะ? หากเราทำการสุ่มชุดข้อมูลหนึ่งขึ้นมาก ยิ่งจำนวนครั้งการสุ่มมากขึ้น แล้วค่าความน่าจะเป็นที่เกิดขึ้นจากการสุ่มนั้นๆ จะมีค่าใกล้เคียงความน่าจะเป็นที่ได้จากทฤษฎี หรือเข้าใกล้ค่าเฉลี่ยที่คาดหวัง (expected value) มากขึ้นเรื่อย ๆ เมื่อจำนวนการทดลองเพิ่มขึ้น
จะให้เข้าใจง่าย ๆ คือ ยิ่งเราทำการทดลองมากเท่าไหร่ ผลลัพธ์โดยรวมก็จะยิ่งเข้าใกล้ค่าเฉลี่ยที่ควรจะเป็นมากขึ้นเท่านั้น
มันยังไงคะซี๊สสส:
1. การโยนเหรียญ: ถ้าเราโยนเหรียญ 10 ครั้ง เราอาจได้หัว 7 ครั้ง และก้อย 3 ครั้ง ซึ่งดูเหมือนว่าเหรียญจะไม่ยุติธรรม แต่ถ้าเราโยนเหรียญ 1,000 ครั้ง เราจะพบว่าจำนวนครั้งที่ได้หัวและก้อยจะใกล้เคียงกันมากขึ้น เช่น อาจจะออกหัว 510 ครั้ง และออกก้อย 490 ครั้ง เมื่อเราโยนเหรียญจำนวนครั้งมากขึ้นเรื่อย ๆ สัดส่วนของหัวและก้อยจะเข้าใกล้ 50% ซึ่งเป็นค่าเฉลี่ยที่คาดหวัง

2. การทอยลูกเต๋า: กรณีเราทอยลูกเต๋า 6 ครั้ง เราอาจได้เลข 6 แค่ครั้งเดียว หรือไม่ได้เลย แต่ถ้าเราทอยลูกเต๋า 6,000 ครั้ง เราจะพบว่าจำนวนครั้งที่ได้แต่ละหน้าของลูกเต๋าจะใกล้เคียงกันมากขึ้น และเมื่อเราทอยลูกเต๋าจำนวนครั้งมากขึ้นเรื่อย ๆ สัดส่วนของแต่ละหน้าจะเข้าใกล้ 1/6 ซึ่งเป็นค่าเฉลี่ยที่คาดหวัง
3. การสำรวจความคิดเห็น: ถ้าเราสำรวจความคิดเห็นของคน 10 คนเกี่ยวกับประเด็นหนึ่ง ผลลัพธ์ที่ได้อาจไม่สะท้อนถึงความคิดเห็นของประชากรทั้งหมด แต่ถ้าเราสำรวจความคิดเห็นของคน 1,000 คน ผลลัพธ์ที่ได้จะมีความน่าเชื่อถือมากขึ้น และใกล้เคียงกับความคิดเห็นของประชากรทั้งหมดมากขึ้น
9. กระจุก..หรือกระจาย ❤️🩹 แปรปรวน..หรือรวนเร
Measure of variability เป็นการวัดว่าข้อมูลในชุดข้อมูลหนึ่งกระจายตัวมากน้อยแค่ไหน ช่วยให้เราเข้าใจว่าข้อมูลมีความแตกต่างกันมากน้อยเพียงใด
ความสำคัญของการวัดการกระจาย:
ค่าเฉลี่ยเพียงอย่างเดียวไม่เพียงพอที่จะอธิบายข้อมูลได้ทั้งหมด การวัดการกระจายช่วยให้เราเข้าใจลักษณะของข้อมูลได้ลึกซึ้งยิ่งขึ้น ช่วยให้เราเปรียบเทียบชุดข้อมูลสองชุดหรือมากกว่าได้อย่างมีประสิทธิภาพมากขึ้น

ประเภทของการวัดการกระจาย:
| ประเภทของการวัดการกระจาย | คำอธิบาย | ข้อดี | ข้อจำกัด |
|---|---|---|---|
| พิสัย (Range) | ความแตกต่างระหว่างค่าสูงสุดและค่าต่ำสุดในชุดข้อมูล | เข้าใจง่าย | ไวต่อค่าผิดปกติ |
| ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) | การวัดว่าข้อมูลแต่ละจุดเบี่ยงเบนจากค่าเฉลี่ยมากน้อยแค่ไหน | เป็นการวัดการกระจายที่นิยมใช้กันมาก | ไวต่อค่าผิดปกติ |
| ความแปรปรวน (Variance) | กำลังสองของส่วนเบี่ยงเบนมาตรฐาน | ใช้ในการวิเคราะห์ทางสถิติขั้นสูง | หน่วยวัดเป็นกำลังสอง ทำให้ตีความได้ยาก |
| พิสัยระหว่างควอไทล์ (Interquartile Range – IQR) | ความแตกต่างระหว่างควอไทล์ที่ 3 และควอไทล์ที่ 1 | ไม่ไวต่อค่าผิดปกติ | ไม่ได้ใช้ข้อมูลทุกจุด |
การวัดการกระจายช่วยอะไรบ้าง:
- บอก outliers: การวัดการกระจายช่วยให้เราระบุค่าผิดปกติในชุดข้อมูลได้
- ช่วยประเมินความเสี่ยง/ควบคุณภาพ: ในภาคอุตสาหกรรม การวัดการกระจายช่วยในการควบคุมคุณภาพของผลิตภัณฑ์
- การวิเคราะห์ข้อมูลทางวิทยาศาสตร์หรือการวิจัย: การวัดการกระจายช่วยในการวิเคราะห์ข้อมูลจากการทดลองหรือการสำรวจข้อมูล
10. Boxplot กล่องอเนกประสงค์ 📦
Boxplot เป็นแผนภาพที่ใช้แสดงการกระจายของข้อมูลเชิงปริมาณ โดยแสดงค่าควอไทล์ ค่ามัธยฐาน และค่าผิดปกติ (ถ้ามี)
ส่วนประกอบของ Boxplot:

- กล่อง (Box):
- แสดงช่วงของควอไทล์ที่ 1 (Q1) และควอไทล์ที่ 3 (Q3)
- ความกว้างของกล่องแสดงถึงพิสัย (Range) ระหว่างควอไทล์ (หรือที่เรียกว่า IQR)
- เส้นมัธยฐาน (Median Line):
- เส้นที่อยู่ในกล่อง แสดงถึงค่ามัธยฐานของข้อมูล
- หนวด (Whiskers):
- เส้นที่ยื่นออกมาจากกล่อง แสดงถึงช่วงของข้อมูลที่ไม่มีค่าผิดปกติ
- โดยทั่วไป หนวดจะยื่นออกมาจนถึงค่าสูงสุดและค่าต่ำสุดที่อยู่ในช่วง 1.5 เท่าของ IQR จากขอบกล่อง
- ค่าผิดปกติ (Outliers):
- จุดที่อยู่นอกหนวด แสดงถึงค่าผิดปกติของข้อมูล
ความน่าสนใจของ Boxplot:
- เราจะเห็นภาพรวมของการกระจายของข้อมูลได้อย่างรวดเร็ว
- สามารถเปรียบเทียบการกระจายของข้อมูลระหว่างชุดข้อมูลหลายชุดได้อย่างง่ายดาย
- เห็นค่า outlier ในชุดข้อมูลได้ ทั้งค่าที่สูงหรือต่ำมากๆ
- ข้อมูลมีการเบ้ไปทางซ้ายหรือทางขวา
| ลักษณะของ Boxplot | ข้อมูลสมมาตร | ข้อมูลเบ้ขวา | ข้อมูลเบ้ซ้าย |
|---|---|---|---|
| ตำแหน่งของเส้นมัธยฐาน | ถ้าเส้น median อยู่ตรงกลางของกล่อง แสดงว่าข้อมูลมีการกระจายตัวแบบสมมาตร หรือใกล้เคียงกับสมมาตร | ถ้าเส้น median อยู่ใกล้ขอบด้านล่างของกล่อง แสดงว่าข้อมูลมีการเบ้ขวา หรือหางยาวไปทางขวา | ถ้าเส้นmedian อยู่ใกล้ขอบด้านบนของกล่อง แสดงว่าข้อมูลมีการเบ้ซ้าย หรือหางยาวไปทางซ้าย |
| ความยาวของหนวด | ถ้าหนวดทั้งสองข้างมีความยาวใกล้เคียงกัน แสดงว่าข้อมูลมีการกระจายตัวแบบสมมาตร | ถ้าหนวดด้านขวามีความยาวมากกว่าหนวดด้านซ้าย แสดงว่าข้อมูลมีการเบ้ขวา | ถ้าหนวดด้านซ้ายมีความยาวมากกว่าหนวดด้านขวา แสดงว่าข้อมูลมีการเบ้ซ้าย |

ข้อควรระวังในการใช้ boxplot:
- Boxplot ไม่ได้แสดงการกระจายของข้อมูลอย่างละเอียดเท่าฮิสโตแกรม
- Boxplot อาจไม่เหมาะสมสำหรับข้อมูลที่มีการกระจายตัวแบบหลายยอด (multimodal distribution)

ฟิ้วว 😻 ยะ ยาววมากกกก แม้ว่าจะคัดมาเพียง 10 ข้อ แต่เนื้อหาก็อย่างแน่นเลย หวังเป็นอย่างยิ่งว่าคุณผู้อ่านจะยอมเปิดใจ ทำความรู้จักสถิติขึ้นมาอีกซักนิดนะฮะ ตอนหน้าจะพาไปรู้จักสถิติอะไรอีกรอติดตามได้เลยครับ 😎







2 responses to “ขมวดปึ้งงง ✨ 10 ข้อที่น่าสนใจใน Statistics”
เป็นประโยชน์มากกก อ่านจนจบเลื่อนดูทีแรกเหมือนจะเยอะ แต่พออ่านทีละข้อๆไป ข้างในอธิบายกระชับเข้าใจง่าย ตัวอย่างที่ยกมาทำให้เห็นภาพชัดดีค่ะว่าเอาไปใช้ทำอะไร ขอบคุณมากค่ะ
ขอบคุณมากเลยค้าบ คุณ Jint
คุ้มค่าที่นั่งเขียนมา 2 วันเลย 😁✌️