ในการรายงานผลสถิติต่างๆ ในสื่อ หรือในรายงาน อาจจะพบว่า event หนึ่งๆ ว่าจะเกิดขึ้นหรือไม่เป็นอัตรา เป็นเปอร์เซ็นต์ เป็นร้อยละ อย่างเช่น “อัตราการเสียชีวิตของเด็กที่ได้รับการผ่าตัดหัวใจอยู่ที่ 5 เปอร์เซ็นต์” แต่ว่าตัวเลขที่เขารายงานมานั้น มันน่าเชื่อถือแค่ไหน หรือมันโดน context รอบข้างทำให้เราอคติในข้อความนั้นกันนะ EP นี้เลยจะพามาลองทำความเข้าใจกันดูครับ
- ข้อมูลที่บันทึกว่าเหตุการณ์ (event) หนึ่งจะเกิดขึ้นหรือไม่นั้นเรียกว่า binary data มันมีความเป็นไปได้เพียง 2 ค่า เช่น เกิดขึ้น/ไม่เกิดขึ้น, ตาย/ไม่ตาย อาจจะสรุปผลได้ด้วยจำนวนครั้งและอัตราเปอร์เซ็นต์เมื่อเกิดเหตุการณ์นั้นขึ้น
ตัวอย่างเหตุการณ์:
เกิดอะไรขึ้นกับเด็กที่ได้รับการผ่าตัดหัวใจในสหราชอาณาจักรและไอร์แลนด์
ระหว่างปี 2012-2015
ตารางแสดงผลการผ่าตัดหัวใจของเด็กเกือบ 13,000 ราย ในสหราชอาณาจักรและไอร์แลนด์ระหว่างปี 2012-2015 ทารก 263 ราย เสียชีวิตภายใน 30 วันหลังผ่าตัด (เป็นโศกนาฎกรรมในครอบครัว) แม้อัตราการรอดชีวิตจะสูงเท่ากับ 98% ก็ตาม
- ตารางก็เป็นการนำเสนอแผนภาพอย่างหนึ่ง ซึ่งต้องมีการออกแบบว่าจะเลือกใช้สี แบบอักษร หรือการใช้ภาษาที่น่าสนใจ อ่านง่าย การจัดแสดงคอลัมน์ยังส่งผลต่ออารมณ์ผู้อ่านด้วย
- ในตารางแสดงผลทั้งการรอดชีวิตและเสียชีวิต เพื่อให้ดูเป็นการศึกษาและเป็นกลางมากที่สุด
- ในขณะที่หากมีสำนักข่าวแห่งหนึ่งรายงานเพียง การเสียชีวิตจากการผ่าตัดหัวใจเด็ก หล่ะ ดูเป็นการรายงานเชิงลบมากๆ — แบบนี้ผู้ปกครองเด็กจะกล้าให้ผ่าตัดได้อย่างไร
- กลับกันหากนำเสนอเพียง การรอดชีวิต ก็จะเป็นไปทางเชิงบวก มันกระทบกับความรู้สึกของเรา
- การตาย 5% ฟังดูแย่กว่า รอดชีวิต 95%
- ในขณะที่การรายงานตัวเลขการตายที่แท้จริงควบคู่กับอัตราเปอร์เซ็นต์อาจจเพิ่มความรู้สึกไปทางความเสี่ยง
- การรายงานเพียงด้านเดียว (เชิงบวก/เชิงลบ) เรียกว่า framing การวางกรอบ
- อีกตัวอย่างของการวางกรอบ เช่น “99% ของหนุ่มสาวในลอนดอนไม่ก่อเหตุร้ายแรง”
- เดาว่าข้อความนี้มุ่งให้ผู้คนรู้สึกดีต่อเมืองที่พวกเขาอยู่
- สามารถพลิกข้อความนี้เป็น “1% ของหนุ่มสาวในลอนดอนก่อเหตุร้ายแรง” หากลอนดอนมีประชากร 9 ล้านคนเป็นวัยรุ่น 1 ล้านคน —1% ของล้านคน ก็จะเท่ากับ 10,000 คนในเมืองนี้ที่ใช้ความรุนแรงและน่ากลัว
- ขอให้ลองสังเกตผลทางสถิติสักนิด โดยการลองเปลี่ยนกรอบเชิงบวกเป็นกรอบเชิงลบ และลองเป็นเปอร์เซ็นต์เป็นตัวเลขจริงๆ ดู
- ซึ่งในอุดมคติแล้ว เราควรนำเสนอกรอบทั้งเชิงบวกและเชิงลบ หากเราต้องการให้สารสนเทศเป็นกลาง
- ลำดับแถวที่ใช้ในการแสดงผลตารางก็มีผลเช่นกัน ในตารางตัวอย่างได้แสดงชื่อโรงพยาบาลเรียงตามจำนวนการผ่าตัดน้อยไปมาก
- หากลองเรียงลำดับตามอัตราการตายสูงสุดไว้ด้านบน อาจจะดูเหมือนเรากำลังเปรียบเทียบศักยภาพของโรงพยาบาลอยู่หรือไม่ โรงพยาบาลนั้นผ่าตัดได้ไม่ดีจริงๆ หรือไม่ มันอาจจะสร้างความเข้าใจผิดได้
- ซึ่งมันอาจจะเกิดจากความบังเอิญจากสาเหตุอื่นๆ ก็ได้ เช่น โรงพยาบาลนั้นอาจจะเคสผู้ป่วยที่หนักมากเท่านั้น จึงไม่ยุติธรรมเลยที่จะมุ่งความสนใจไปที่อัตราการรอดชีวิต
- อัตราการรอดชีวิตอาจจะนำเสนอในรูป bar chart แนวนอนก็ได้ จุดสำคัญคือการเริ่มแสดงผลของแกน measure
- หากเริ่มที่ 0% ทุกแท่งก็จะยาวเกือบเต็มกราฟทุกรายการ เพราะอัตราการรอดชีวิตที่สูง ก็จะไม่เห็นความแตกต่างเท่าไหร่

- หากไปเริ่มแสดงที่ 95% ก็จะเห็นความแตกต่างกันมากๆ ทั้งที่ตัวเลขมันไม่ต่างกันขนาดนั้น

- ดังนั้นจึงควรเลือกเส้นฐานที่เหมาะสมและมีความหมาย (ซึ่งก็ระบุได้ยากเช่นกันว่าเท่าไหร่) ต้องลองทำดู เอาที่คิดว่าเหมาะสมเป็นกลาง

- จำไว้ว่า “ตัวเลขอธิบายตัวเองไม่ได้…เราเป็นผู้ให้ความหมายแก่ตัวเลขนั้น—เนต ซิลเวอร์”
สรุปใน EP นี้
- พึงระวังตัวเลขที่เราได้อ่าน หรือได้รับมา 💯 มีความหมายที่สองแฝงอยู่ มีสติในการเสพข้อมูล 🤔
- เราควรนำเสนอกรอบทั้งเชิงบวกและเชิงลบ 📊 หากเราต้องการให้สารสนเทศเป็นกลาง และนำเสนอตัวเลขจำนวนที่แท้จริงคู่กับอัตราเปอร์เซ็นต์ 📈