สวัสดีครับคุณผู้อ่านทุกท่าน 👏 ครั้งนี้หนุ่มจะมีเขียนเล่าประสบการณ์การเข้าร่วมโครงการ GEEKS2 ของกรมควบคุมโรคนะครับ หรือในชื่อเต็ม “โครงการประชุมเชิงปฏิบัติการพัฒนาศักยภาพบุคลากรการแพทย์และสาธารณสุขด้านการจัดการข้อมูลและการวิเคราะห์ข้อมูล ภายใต้หลักสูตร “Growing Expertise in E-Health Knowledge and Skills” (GEEKS) รุ่นที่ 2” ตอนนั้นถือว่าเป็นโอกาสแบบแจ่มๆ เลยก็ว่าได้ หนุ่มเข้าเป็นพนักงานราชการที่กองดิจิทัลเพื่อการควบคุมโรคที่รับหน้าที่เป็นผู้จัดโครงการนี้ พอดีเป๊ะเลย
พื้นฐานคอร์สอบรม
โครงการมีการอบรม 2 หลักสูตรคือ Data science และ Data Engineer โดยเลือกอบรมได้ 1 หลักสูตร/คน เพราะทั้งสองอบรมพร้อมกัน เว้นแต่ผู้อบรมจะแบ่งภาคตัวเองได้ ฮ่าๆๆ

ผู้ที่สมัครเข้ามาจะต้องเข้า section รวม (ทั้ง DS และ DE) เพราะต้องมาเรียนพื้นฐานที่จะใช้สอบคัดเลือก ประมาณ 2 วัน เรียนแบบออนไลน์นะครับ พื้นฐานที่ใช้สอบจะเป็นภาษา python โดยผู้สมัครจะต้องผ่านเกณฑ์ที่โครงการกำหนด จึงจะผ่านไปเรียนคอร์สสดได้
และแน่นอนว่าหนุ่มก็ผ่านเกณฑ์จึงได้เข้าไปเรียน แต่ไม่ได้แย่งที่นั่งของผู้สมัครโครงการนะครับ หนุ่มใช้ที่นั่งของผู้จัดเข้าไปเรียน อิอิ 😂
การอบรม Data science
แล้วก็มาถึงคลาสสอนสดกันแล้ว ซึ่งการอบรมยาวนานมาก เพราะอย่าลืมว่าผู้อบรมต้องทำงานประจำกันด้วย การอบรมจะเริ่มตั้งแต่เดือนมีนาคม 2024 ถึงเดือนสิงหาคม 2024 กันเลย แบ่งเป็นการอบรมสดทั้งหมด 7 ครั้ง รอบละประมาณ 3 วัน ประกอบด้วย
- รอบ Basic 1
- รอบ Basic 2
- รอบ Intermediate 1
- รอบ Intermediate 2
- รอบ Advance 1
- รอบ Advance 2
- รอบ Pitching Project
เรียนกันจนร้องขอชีวิตเลยล่ะ งานหลวงก็ต้องทำ งานราษฎร์ก็ต้องสู้ ✌️
ในการเรียนการสอนรอบนี้เราได้อาจารย์จาก KMUTT: มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าธนบุรี (มจธ.) มาสอนด้วยล่ะ น่ารักแล้วเป็นกันเองสุดๆ

มาดูบรรยากาศในการเรียนแต่ละรอบกัน ในรอบ Basic คงหนีไม่พ้นเรื่องพื้นฐานต่างๆ อย่าง Introduction to Data science, intro to python พวก data type, data structure, control flow, data frame, pandas, numpy library ที่จำเป็นสำหรับงาน DS

ต่อด้วย Data exploration พวกไปเจาะลึกตัวแปรประเภทต่างๆ ทั้ง univariate และ multivariate การ plot graph เพื่อดูการกระจายตัวข้อมูล จากนั้นก็มาเรียนการทำความสะอาดข้อมูลไม่ว่าจะเป็นการจัดการกับค่าว่าง missing data ด้วยวิธีการต่างๆ ก่อนที่จะไปถึงพาร์ทการวิเคราะห์ข้อมูล

เข้าสู่รอบ Intermediate ต่อจากการ prepare data ครั้งที่แล้วเลย ถึงแม้จะเรียน DS แต่ก็แตะเรื่อง ETL process นิดนึง นอกจากจะจัดการข้อมูลเพื่อใช้วิเคราะห์ข้อมูลแล้ว ก็สามารถส่งข้อมูลไปเก็บลงฐานข้อมูลได้อีกด้วย
ส่วนฝั่ง DS ก็จะเป็นเรื่อง สถิติเบื้องต้น ตัวดีตัวเดิม 🫥 การสุ่มตัวอย่าง sample จาก population, Descriptive statistics, Inferential Statistics ในรูปแบบต่างๆ

ถัดมาก็จะเป็นพาร์ทที่เริ่มแตะโมเดลกันแล้ว โดยเริ่มจาก Basic Machine Learning Regression Model, Classification Model ไม่ว่าจะเป็น K-nearest Neighbors, Logistic Regression และ Decision Tree ต่อกันด้วย Clustering Model อย่าง k-means clustering
ใน Intermediate ยังไม่หมดแค่นั้น ในเรื่องของ Modeling against time อย่าง Survival analysis, time to event และ Hazard function ก็จัดเต็มอีกด้วย คือเรียนเสร็จแล้ววิเคราะห์ผู้เข้าอบรมได้เลยว่าจะรอดไปถึงรอบ pitching ได้กี่คนเลย 😝 อย่างตึงอะ’จารย์

และในตอน Intermediate ก็จะมีการจับคู่ หรือจับเดี่ยวก็ได้ (ในหน่วยงานที่มาเดี่ยว) เพื่อเสนอหัวข้อและแนวคิดที่จะทำ final project ปรึกษากับคณะอาจารย์ว่าตรงกับความเชี่ยวชาญกับผู้สอนคนไหน จะได้เป็นที่ปรึกษาในฝั่งโค้ดดิ้ง และที่ปรึกษาในฝั่งวิชาการสาธารณสุขผู้อบรมสามารถเชิญเองได้เลย หรือจะให้ทางผู้จัดฯ เสนอให้ก็ได้ —ที่ต้องให้แจ้งหัวข้อโปรเจ็คก่อน คือ ทางผู้จัดฯ ก็ต้องออกจดหมายเชิญที่ปรึกษาเช่นกัน และเป็นประโยชน์กับผู้อบรมคือ ยูต้องเริ่มทำโปรเจ็คได้แล้วน้าา เดี๋ยวไม่ทันนน
มาถึงคลาสสุดท้ายแล้ว Advance มีเนื้อหาอัดแน่นอีกเช่นเคย ไม่ว่าจะเป็น Deep Learning, Rnn, CNN เสร็จแล้วก็ต่อด้วย Text processing และ Text Similarity วิเคราะห์ข้อความกันยาวๆ
ต่อด้วย Anomaly detection การตรวจจับการโกงกับสิ่งผิดปกติ, Uncertainty and Monte Carlo Simulation ในเรื่องของความไม่แน่นอนและการจำลองเหตุการณ์ซ้ำๆ กันหลายๆ ครั้ง

อบรมกันมายาวนาน รุ่น 2 ก็มีโหวตว่าจะเอาเสื้อรุ่นกันมั้ย? และหนุ่มก็มีโอกาสออกแบบเสื้อรุ่นให้อีกด้วย และที่ทำไว้มี 2 อย่างคือ T-shirt และ Jacket เป็นแบบนี้เลยค้าบ 😎

และในรุ่น 3 ก็ได้ไปช่วยออกแบบเช่นกัน เป็นแบบนี้เลย โดยทำการรีแบรนด์จากนกฮูกใส่แว่นให้เฟี้ยวขึ้น ฮ่าๆๆ

มาเจอกันอีกครั้งใน advance 2 ตอนเสื้อเสร็จแล้วทุกคน พร้อมหยิบใส่เลย ปลื้มมสุด

โอเค มาดูบทเรียนกันมั้ง เราได้เรียนเรื่อง Geospatial Data Processing การประมวลผลข้อมูลภูมิสารสนเทศ อย่าลืมว่าในการวิเคราะห์ข้อมูลด้านสารธารณสุขก็จำเป็นต้องใช้ภูมิสารสนเทศมาเป็น factor ประกอบด้วยเช่นกัน
ต่อด้วย Time Series Modeling การสร้างแบบจำลองอนุกรมเวลาเป็นหัวข้อที่น่าสนใจสำหรับระบาดวิทยามากๆ และเจาะลึกไปถึงโมเดล ARIMA ในการวิเคราะห์อนุกรมเวลาที่ไม่เป็นฤดูกาล (non-seasonal time series data), SARIMA กับข้อมูลอนุกรมเวลาที่มี รูปแบบของฤดูกาล (seasonality) และ Prophet กับข้อมูลอนุกรมเวลาทางธุรกิจทั่วไป
คุณผู้อ่านครับ จริงๆ แล้วหัวข้อการเรียนมีเยอะมากกๆ หนุ่มขอยกตัวอย่างมาแค่นี้ก่อนนะ เรียกว่าเรียนจบคอร์สแล้ว “แสงออกเท้า” เวลอัพกันรัวๆ
Final project
มาถึงหัวข้อสุดหินกันล่ะ หัวข้อที่กลุ่มเลือกคือ “การวิเคราะห์การอยู่รอดจากการป่วยเป็นวัณโรคในผู้ป่วยที่ติดเชื้อเอชไอวีหรือเอดส์” ซึ่งเป็นหัวข้อที่หน่วยงานสนใจอยู่ในตอนนั้น ทั้งยังมีข้อมูลผู้ป่วยที่เหมาะสมต่อการวิเคราะห์แล้ว
ในส่วนของการได้มาซึ่งข้อมูล และการ prep data ที่เป็นส่วนของ DE หนุ่มขอข้ามไปนะครับ โดยสุดท้ายแล้วเราก็ได้ Single table มาจนได้หลังจากที่เข้าพบที่ปรึกษาทางวิชาการ + Literature Review เพื่อดูว่าปัจจัยใดที่จะใช้ในการวิเคราะห์ในโมเดลแล้วบ้าง รวมถึงได้พี่ๆ ผู้เชี่ยวชาญและคร่ำหวอดอยู่ในวงการผู้ป่วยที่ติดเชื้อเอชไอวีอย่างพี่บี พี่นิว พี่นิช่วยให้คำปรึกอย่างดีเยี่ยมมม 😂 น้ำตาจิไหล

ปั่นโปรกันจนดึก เป็นหมีแพนด้าไปสอบอีกวันนึง

แนวคิดหลักๆ ของโปรเจ็คนี้ก็คือ เมื่อผู้ป่วยที่ติดเชื้อเอชไอวีแล้วภูมิคุ้มกันในร่างกายของเขาก็จะลดลงทำให้เชื้อฉวยโอกาสต่างๆ สามารถเข้าสู่ร่างกายได้ง่ายกว่าคนทั่วไปที่ไม่ติดเชื้อ และวัณโรคก็เป็นเชื้อฉวยโอกาสหลักเลยที่ทำให้ผู้ป่วยเสียชีวิต
เราก็อยากจะศึกษาว่าปัจจัยใดบ้างที่จะส่งผลต่อการเปลี่ยนผู้ป่วยติดเชื้อฯ กลายเป็นผู้ป่วยวัณโรค เมื่อรู้ระยะเวลาที่อาจจะเกิดขึ้นจะได้วางแผนการรักษา หรือ recruit ผู้ป่วยให้เข้ามาดูแล ป้องกันก่อนจะลุกลามเป็นวงกว้าง ซึ่งกรอบแนวคิด (ตัวแปรต้น) ที่เราใช้ศึกษาจะมี 9 ปัจจัยตามรูปเลยครับ

จากการศึกาพบว่า ระยะเวลาที่ใช้ศึกษา 15 ปีจะมีผู้ติดเชื้อเอชไอวีจะอยู่รอดจากการป่วยเป็นวัณโรค 86.72% (N~320,000 ราย) โดยมี Median Survival Time อยู่ที่ 2,039 วัน หรือประมาณ 6 ปี (เมื่อเวลาผ่านไป 6 ปี ผู้ติดเชื้อเอชไอวีจะอยู่รอดจากการป่วยเป็นวัณโรค 89.82%)

และการศึกษาตัวแปรต้นที่ส่งผลต่อการเป็นวัณโรค พบว่าทั้ง 9 ตัวแปรส่งผลทั้งหมดเลยแต่ความแรงนั้นแตกต่างกันไป ผลที่ได้ตามสไลด์นี้เลยครับ
Pitching
วัน pitching ก็มาถึงหลังจากที่เรียนบทสุดท้ายคือ Visualization และการนำเสนอเพื่อพิชิตใจกรรมการในวันแรก ผู้อบรมต่อจดจ่อกับการปั่นสไลด์ แฮ่! เรียนสิเรียน ก็มีผลัดกันวิจารณ์ออกความคิดเห็น หรือฝึกขึ้นไปโชว์ตัวบนเวทีกันเป็นที่ตื่นเต้นสุดๆ

และวินาทีระทึกใจก็มาถึงผู้เข้าอบรมก็งัดเอาผลงานที่ตั้งใจขึ้นมาโชว์กรรมการเยอะมาก ซึ่งมีผลงานที่ผู้เข้าอบรมได้นำเสนอผลงานทั้งหมด 38 โครงการ ซึ่งได้รับเกียรติจากกรรมการ 7 ท่านจากทีมที่ปรึกษา 3 ท่าน (มจธ.), 2 ท่านจากกรมควบคุมโรค และอีก 2 ท่านจาก ม.มหิดล และ ม.เกษตรศาสตร์ มาให้คอมเม้นต์และตัดสินผลงานครั้งนี้ค้าบ

และตัวหนุ่มเองนอกจากจะเป็นผู้เข้าร่วม pitching ต้องรับบทบาทพิธีกรกับน้องคนในงานนี้ด้วย จัดปายยยลูกพี่

รูปสุดท้ายคือเหม่อจัด (น้อนนอนน้อยค้าบบ โปรดอภัย 👏) เอาหล่ะเปลี่ยนบทบาทต้องขึ้นเวทีแล้ว หลังจากฝึกซ้อมกันมาค่อนคืน ก็ยังตื่นเต้นอยู่ดี ฮ่าๆๆ ผลัดกันพูดตามหน้าที่ที่ได้ทำในโปรเจ็คนี้ ตั้งแต่..
- พาร์ทการเตรียมข้อมูลของ Data Engineer
- พาร์ทการโค้ดดิ่ง การทำโมเดลลิ่ง (ส่วนนี้หนุ่มทำ)
- พาร์ทการสรุปและรายงานผลที่ได้

และตอนสุดท้ายก็มีสรุปผลให้เห็นตัวอย่างคร่าวๆ ด้วย เพื่อให้เข้าใจง่ายมากขึ้นโดยการยกตัวอย่างเคสขึ้นมา..
1. อย่างรายแรก “หญิงวัยทํางาน ติดเชื้อ HIV ในระยะไม่แสดงอาการ ตรวจแล็บพบว่าระดับภูมิคุ้มกัน (CD4) อยู่ในระดับปานกลาง ยังไม่ได้รับการตรวจไวรัสในเลือด (Viral load) ตัวผู้ป่วยยังไม่ได้รับยาต้าน ART ตัวผู้ป่วยหลังจากลงทะเบียนแล้วไม่มาติดตามอาการ (มาขาดๆ หายๆ) สุดท้ายกลับมารักษาด้วยการติดเชื้อฉวยโอกาสอื่นๆ” จากปัจจัยเหล่านี้เมื่อเข้าโมเดลแล้วพยากรณ์ออกมาจะเห็นว่า ผู้ป่วยท่านนี้มีโอกาสเสี่ยงที่จะเป็นวัณโรค 75% ภายในระยะเวลา 6 ปี (~2,447 วัน) ซึ่งผู้ป่วยหญิงคนนี้ควรเข้าโครงการติดตาม ดูแล รักษาโดยด่วน

ส่วนรายที่สองพฤติกรรมผู้ป่วยต่างจากรายแรกเลยคือ “เป็นชายวัยทำงาน ที่ถึงแม้จะติดเชื้อระยะ AIDS (ระยะรุนแรง) แล้ว มีติดเชื้อฉวยโอกาสร่วมอยู่ด้วย ระดับภูมิคุ้มกันต่ำ (CD4) แต่เค้ารับยาต้าน ART ตามกำหนดเวลา มาติดตามอาการในระบบไม่ขาดหาย ทำให้สามารถกดระดับไวรัสในเลือด (Viral load) ลงต่ำได้” สังเกตว่าผู้ป่วยชายคนนี้มีต้องใช้ระยะเวลานานถึง 15 ปี ถึงจะมีโอกาสเสี่ยงที่จะเป็นวัณโรคเพียง 10% (หากเค้ายังสามารถ keep พฤติกรรมและติดตามรักษาในระบบอย่างต่อเนื่อง)

เมื่อถึงเวลาประกาศผลคะแนน เย้ๆๆ ได้รางวัลชนะเลิศประเภททีมด้วยแหละค้าบบ ดีจายยมากก น้ำตาจิไหล 😭 คุ้มค่ากับการนอนน้อย 2 วันติด เป็นสิ่งที่ภาคภูมิใจมากครับ

ดีใจมากที่เข้าร่วมเป็นส่วนหนึ่งในโครงการนี้ ต้องขอบคุณโอกาสที่หลายๆ ท่านยื่นให้มากกครับ ขอบคุณตัวเองที่ยังไม่ทิ้ง passionate เรื่อง data ที่ทุกวันนี้ก็ยังทำมาหากินกับวงการ data อยู่ อิอิ
















