สวัสดีครับ วันนี้ระหว่างพักเบรคงาน แอบไปไถ่ฟีด X นิดนึง แล้วไปเจอโพสต์นี้ที่นายอาร์มไปให้ความเห็น แล้วแอดรู้สึกน่าสนใจดี ก็เลยไปหาข้อมูลเพิ่มเติม เรื่องทำไมเราต้อง “Normalize กราฟในการทำ Visualization ด้วยนะ?” ได้ความว่า ..
(Disclaimer ก่อน: รูปภาพหรือข้อความในการประชุมนั้น แอดเห็นเพียงแค่รูปนี้รูปเดียว ไม่ได้หมายถึงในการประชุมครั้งนั้น เขาจะไม่ได้อธิบายถึงที่มาที่ไป อัตราส่วน หรือปัจจัยอื่นเพิ่มเติมนะครับ และกำลังจะแสดงความเห็นในเรื่อง visualization เท่านั้นครับ)

ในการแสดงข้อมูลที่เกี่ยวข้องจำนวนผู้คน จำนวนประชากร (อย่างเช่น จำนวนผู้ป่วย จำนวนอาชญากรรม จำนวนการใช้บริการ จำนวนการลงทะเบียน จำนวนคนว่างงาน) ในพื้นที่ทางภูมิศาสตร์ (จังหวัดหรือภูมิภาค)

หากใช้การแสดงผลด้วย “จำนวนรวม (Absolute Count)” เพียงอย่างเดียวนั้นอาจทำให้เกิดความเข้าใจผิดได้ ยังไงล่ะ?
หากพื้นที่หนึ่งมีประชากรหนาแน่นมาก เช่น ภาคตะวันออกในภาพ ซึ่งอาจรวมถึงจังหวัดที่มีประชากรมาก หรือมีแรงงานอพยบเยอะๆ อย่างกรุงเทพฯ เป็นเรื่องปกติที่จำนวนรวมของเคสจะสูงขึ้นตามไปด้วย
- การแสดงผลด้วยจำนวนรวมจะทำให้พื้นที่ที่มีประชากรมากดู “เยอะสุด” เพียงเพราะขนาดของประชากรของพื้นที่นั้นๆ ใหญ่กว่า ไม่ได้แปลว่าปัญหาในพื้นที่นั้นร้ายแรงกว่าใคร (ประชากรเยอะ เลยป่วยได้เยอะ)
- อาจจะต้องพิจารณาถึงปัจจัยอื่นๆ ด้วย อย่างในรูปคือเรื่องของการขึ้นทะเบียนฯ เราอาจจะต้องมีคำถามเกิดขึ้นในหัวว่า “พื้นที่นั้นมีโอกาสขึ้นทะเบียนฯ ได้ง่ายกว่าที่อื่นมั้ย?”, “สถานพยาบาลที่ขึ้นทะเบียนมีนโยบายเชิงรุกทำให้สามารถตรวจคัดกรองผู้ป่วยเข้าสู่ระบบได้ดีกว่าหรือไม่?” หรือ “พื้นที่ทีมีการลงทะเบียนน้อยเคส เป็นเพราะเกิดอุปสรรคในการตรวจคัดกรองผู้ป่วยเข้าสู่ระบบหรือไม่?”
การทำ Normalization โดยจำนวนประชากรจึงมีความสำคัญ ในการวิเคราะห์ข้อมูลทางภูมิศาสตร์เพื่อเปรียบเทียบปัญหา หรือสถานการณ์ระหว่างพื้นที่ต่างๆ อย่างเป็นธรรม
การใช้อัตราส่วน (Normalize Rate) จะทำให้เราสามารถเปรียบเทียบ “ความเสี่ยง” หรือ “ความรุนแรงของปัญหา” ที่แท้จริงระหว่างพื้นที่ได้ อย่างเช่น
- จังหวัด A มีผู้ป่วย 100 คน จากประชากร 1,000 คน (Rate 10%)
- จังหวัด B มีผู้ป่วย 500 คน จากประชากร 100,000 คน (Rate 0.5%)
- ถ้าดูแค่จำนวนรวม (500 > 100) เราอาจจะคิดว่าจังหวัด B นั้นแย่กว่ามาก
- แต่เมื่อ Normalize แล้วจะเห็นว่าจังหวัด A มีความเสี่ยงต่อประชากรสูงกว่าถึง 20 เท่า (10% เทียบกับ 0.5%)
ในทางการรายงานทางสาธารณสุข แอดมักจะเห็นว่าเขาจะนำเสนอเป็น “อัตราป่วย (ต่อแสนประชากร)” คือการนำจำนวนผู้ป่วย (หรือจำนวนเคส) มาหารด้วย จำนวนประชากรทั้งหมด ในพื้นที่นั้นๆ แล้วคูณด้วยฐาน (เช่น 100,000) เพื่อให้ได้ค่าเป็น อัตราต่อประชากร (Rate per capita) เช่น “จำนวนเคสต่อประชากร 100,000 คน”


จากในรูปจะเห็นว่า อันดับ 1-5 คือ ภูเก็ต, เชียงราย, แม่ฮ่องสอน, ลำพูน และพัทลุง เมื่อเทียบกันที่ประชากร 100,000 คน จังหวัดภูเก็ตจะผู้ป่วยสูงถึง 625 คน ซึ่งเป็นค่าที่มากสุดในประเทศ
แม้ว่าจังหวัดที่มีประชากรหนาแน่นอื่น ๆ อาจมีจำนวนผู้ป่วยรวมสูงกว่า แต่ 5 จังหวัดที่มีอัตราสูงที่สุดเหล่านี้ คือพื้นที่ที่ประชากรมีความเสี่ยงต่อการป่วยด้วยไข้เลือดออก ต่อหัว สูงที่สุด และจะเห็นว่าพื้นที่ที่มีอัตราสูงไม่ได้กระจุกตัวอยู่แค่ภาคใดภาคหนึ่ง แต่กระจายอยู่ทั้งในภาคเหนือตอนบน (เชียงราย, แม่ฮ่องสอน, ลำพูน), ภาคใต้ (ภูเก็ต, พัทลุง) ซึ่งอาจบ่งชี้ถึงปัจจัยเฉพาะถิ่นในการระบาดของยุงลาย ก็ได้นั่นเอง
ส่งท้าย
แน่นอนว่า infographic นั้นมีพื้นที่น้อยในการแสดงผล หรือดังนั้นจึงควรแสดงผลลัพธ์ที่เป็นธรรมให้กับข้อมูลด้วย หากเป็นไปได้อาจจะแสดงผลลัพธ์ทั้งคู่เลย ไม่ว่าจะเป็น “อัตราต่อประชากร” และ “จำนวนผลรวม” เพื่อป้องกันการเข้าใจผิดและเสริมการเปรียบเทียบให้ผู้อ่านเข้าใจข้อมูลมากยิ่งขึ้น






