-
มาลองฝึกทำ Cross-Validation ใน python กัน
ในบทความนี้ แอดจะพาไปใช้ cross-validation ในวิธีการต่างๆ แล้วดูว่ามันสำคัญยังไงในสายงาน data science และงาน Machine Learning ในทุกวันนี้ เรารู้ว่าการจะทำ ML นั้นมีความต้องการข้อมูลตั้งต้นในอดีตเป็นขา input ในจำนวนเยอะมากในการ train แล้วมันทำงานได้ดีกับข้อมูลในที่ถูกสร้างขึ้น real-time ในยุคนี้หรือไม่ ซึ่งข้อมูลขา input นั้นเราต้องเชื่อมั่นว่ามันจะเป็นตัวแทน และใช้พยากรณ์อนาคตได้ อย่างเช่น หากเราใช้ข้อมูลย้อนหลังถึง 20 ปี ต้องตั้งคำถามว่าข้อมูล 20 ปีที่แล้วมันจะสามารถพยากรณ์อนาคตได้ดีหรือไม่—ตอบคำถามนี้ให้ได้ก่อน เมื่อข้อมูลที่เรามีนั้นเราคิดว่ามันใช้ทำโมเดลได้ Cross-validation จึงเข้ามาเป็นตัวทดสอบว่าโมเดลที่เราสร้างขึ้นมาใช้งานนั้นมัน work จริงมั้ย โดยการแบ่งข้อมูล (splitting data) ออกเป็นส่วนๆ แล้ววันทดสอบซ้ำๆ ใช้ส่วนนึงไปเรียนรู้ (training) แล้วทดสอบความแม่นยำกับส่วนที่เหลือ (testing) ช่วยลดอาการที่โมเดลทำงานได้ดีเกินไปกับชุดข้อมูลในอดีต แต่ข้อมูลใหม่แย่ (overfitting) หรืออาการที่โมเดลทำงานได้ไม่ดีตั้งแต่เริ่ม หาความสัมพันธ์ของขา input และ output ไม่ได้เลย (underfitting)…
-
4 ข้อดีๆ ของ Module CSV
ไฟล์ csv ไฟล์เก็บข้อมูลแบบเบสิคง่ายๆ ที่เราใช้แลกเปลี่ยนข้อมูลกันไปมานั้น ลองมาดูกันว่าเมื่อมันทำงานคู่กับโค้ด python แล้วมันจะเจ๋งแจ๋วสักแค่ไหนกัน csv หรือ comma-separated values แน่นอนเป็นไฟล์ที่ใช้เก็บข้อมูลประเภทตาราง แต่ละ row (บรรทัด) แสดงถึงข้อมูลแต่ละรายการ โดยใช้เครื่องหมาย , (comma) เป็นตัวคั่นแต่ละคอลัมน์ออกจากกัน มั่นใจว่าคุณผู้ป่านทุกท่านน่าจะเคยผ่านหูผ่านตา เคยใช้งานกับไฟล์ชนิดนี้มากันแล้วอย่างน้อยซักครั้ง ยิ่งท่านใดที่ใช้ python น่าจะเคย load data มันขึ้นมา process กันบ้างแหละเน๊อะ ตัวอย่าง เราได้ทำการอ่านไฟล์ csv: Social Sentiment Data ที่ได้มาจาก Kaggle และอ่านมันออกมาทุกคอลัมน์เลย จะได้ผลลัพธ์ออกมาเป็นแบบนี้ แล้ว Module csv ที่ว่าดีมันเป็นยังไง: 1. มัน Detect ตัวคั่น delimiter จากไฟล์ได้ โดยปกติแล้วไฟล์ csv ถูกออกแบบมาใช้ , (comma)…
-
มาทำ AB Testing ใน python กัน
การทดลอง (Experimentation) เป็นวิธีการสำคัญในยุค Digital marketing ปัจจุบันอย่างมากกเลย รู้มั้ยครับว่า..เพลย์ลิสต์ของ Spotify, ปุ่มหยิบใส่ตะกร้าของ Shopee, ข้อความบนปุ่มกดตอนจะซื้อประกัน, การแสดงราคาสินค้าในเว็บ e-commerce ต่างๆ ในความจริงแล้วไม่ได้เกิดจากนักพัฒนาเว็บ อยากจะวางปุ่ม วางราคา วางส่วนลดที่ตำแหน่งไหนยังไงก็ได้ หรือวันหนึ่งตื่นขึ้นมาแล้วมาไอเดียก็เขียนเพิ่มแล้ววางองค์ประกอบนั้นเข้าไปในเว็บได้อย่างนั้นเลย ทุกการกระทำ หรือการเปลี่ยนแปลงของระบบ โปรแกรม แอพพลิเคชั่นในยุคนี้ล้วนผ่านการทดลอง ทดสอบมาอย่างละเอียดแล้วเท่านั้น เพราะเป้าหมายในการเปลี่ยนคือทำยังไงให้รักษาความสนใจของลูกค้าผู้ใช้งานไว้ได้ และดึงผู้ใช้อย่างเราๆ อยู่บนแพลตฟอร์มของเค้าไปนานๆ นั่นเอง A/B Testing จึงมีบทบาทสำคัญในการทำทดสอบนี้ เพราะมันทำให้เราไม่ต้องมานั่งตัดสินใจว่าโฆษณาตัวใด แคมเปญตัวไหน ที่ลูกค้าเห็นแล้วจะคลิกเข้ามาดู กดสั่งซื้อได้มากที่สุด เพราะบางครั้งมนุษย์อาจจะใช้ ้ “อารมณ์ความรู้สึก” ตอนนั้นเองเป็นตัวตัดสินใจก็ได้ ซึ่งมันไม่ได้ช่วยให้เกิดผลดีต่อธุรกิจ เพราะอย่างนั้นการทดสอบอย่าง A/B Testing จึงเป็นตัวช่วยในเรื่องลด bias การตัดสินใจเลือกของบุคคลได้ (ก็คือให้กลุ่มทดลองมาช่วยตัดสินใจแทน) ในโพสต์นี้หนุ่มก็เลยจะพามาลองใช้ python ทำ A/B Testing กันนะฮะ สุดท้ายแล้วคุณผู้อ่านอาจจะเข้าใจ (หรืองงหนักกว่าเดิม) ในเรื่องของ A/B…
-
เล่าประสบการณ์ Pitching งาน GEEKS2
สวัสดีครับคุณผู้อ่านทุกท่าน 👏 ครั้งนี้หนุ่มจะมีเขียนเล่าประสบการณ์การเข้าร่วมโครงการ GEEKS2 ของกรมควบคุมโรคนะครับ หรือในชื่อเต็ม “โครงการประชุมเชิงปฏิบัติการพัฒนาศักยภาพบุคลากรการแพทย์และสาธารณสุขด้านการจัดการข้อมูลและการวิเคราะห์ข้อมูล ภายใต้หลักสูตร “Growing Expertise in E-Health Knowledge and Skills” (GEEKS) รุ่นที่ 2” ตอนนั้นถือว่าเป็นโอกาสแบบแจ่มๆ เลยก็ว่าได้ หนุ่มเข้าเป็นพนักงานราชการที่กองดิจิทัลเพื่อการควบคุมโรคที่รับหน้าที่เป็นผู้จัดโครงการนี้ พอดีเป๊ะเลย พื้นฐานคอร์สอบรม โครงการมีการอบรม 2 หลักสูตรคือ Data science และ Data Engineer โดยเลือกอบรมได้ 1 หลักสูตร/คน เพราะทั้งสองอบรมพร้อมกัน เว้นแต่ผู้อบรมจะแบ่งภาคตัวเองได้ ฮ่าๆๆ ผู้ที่สมัครเข้ามาจะต้องเข้า section รวม (ทั้ง DS และ DE) เพราะต้องมาเรียนพื้นฐานที่จะใช้สอบคัดเลือก ประมาณ 2 วัน เรียนแบบออนไลน์นะครับ พื้นฐานที่ใช้สอบจะเป็นภาษา python โดยผู้สมัครจะต้องผ่านเกณฑ์ที่โครงการกำหนด จึงจะผ่านไปเรียนคอร์สสดได้ และแน่นอนว่าหนุ่มก็ผ่านเกณฑ์จึงได้เข้าไปเรียน แต่ไม่ได้แย่งที่นั่งของผู้สมัครโครงการนะครับ…
-
Mini knowledge จากบทเรียน python
หลังจากจบบทเรียน python ของ Data science bootcamp#11 ของแอดทอยแล้ว ในบทเรียนมีสอนหลายอย่างครับ ไม่ว่าจะเป็น … สุดท้ายก็มีการบ้านให้มาทบทวนความรู้ที่ได้ เป็นยังไงไปดูกัน Link Code เต็มๆ หนุ่ม Public ไว้ที่ DataLore นะค้าบ https://datalore.jetbrains.com/report/static/oyGEVJti8hBTc2Odm6CL2n/ckOM52Ffha742xL1B94S8o Link data source: https://drive.google.com/file/d/1bBu6Hpf4DID06cR1ktG-hS32WkkClv-U/view?usp=sharing อธิบายโค้ดได้ประมาณนี้ค้าบ 😎 หลังจากที่ได้ import library pandas, numpy และ import sample-store.csv เข้าสู่ dataframe แล้วมาตรวจสอบ data type ของแต่ละคอลัมน์ก่อน ข้อมูลส่วนใหญ่ pandas มองว่าเป็น object หรือ string จึงต้องมีการ convert data type ก่อน ก็จะมีคอลัมน์ order date,…
-
Logistic Regression ทำนายการเกิดโรคเบาหวาน
ได้ฤกษ์เปิด mini project ใหม่ขึ้นมาอีกซักหนึ่ง ฮ่าๆๆ วันนี้เป็น Logistic Regression Model โดยใช้ชุดข้อมูล diabetes จาก Kaggle ภาพรวมเป็น Dataset ของผู้หญิงชนเผ่า Pima Indians มีอัตราการเกิดโรคเบาหวานประเภท 2 สูงที่สุดแห่งหนึ่งในโลก ไม่ว่าจะเป็นวิถีชีวิต การบริโภคอาหารที่มีไขมันและน้ำตาลสูงขึ้น และการออกกำลังกายน้อยลง มีส่วนทำให้ความชุกของโรคเบาหวานเพิ่มขึ้น ใน dataset: diabetes.csv มีทั้งหมด 768 แถว และ 9 คอลัมน์ มีรายละเอียด Data Dictionary ดังนี้ Features ใน dataset ความหมาย Pregnancies จำนวนครั้งที่ตั้งครรภ์ Glucose ระดับน้ำตาล (กลูโคส) ในเลือด (mg/dL) BloodPressure ค่าความดันโลหิต (mmHg) SkinThickness ความหนาของรอยพับผิวหนัง triceps…
-
วิเคราะห์ความรู้สึกของลูกค้าจากคอมเมนต์ใน TikTok ด้วย python
หลังจากที่เกริ่นไว้นานแล้วว่าจะเขียน post เกี่ยวกับ python บ้าง มาด้วยหัวข้อแรก ก็เริ่มจากวิเคราะห์ความรู้สึกของลูกค้าเลย disclaimer กันก่อนอันนี้เป็นโปรเจ็คลองทำนะครับ โค้ดอาจจะยึดยาวซักหน่อย จะได้เห็นที่มาที่ไปครับ เป็นยังไงไปดูกัน จากแนวคิดที่ได้ไปอบรมมา หนุ่มได้เรียน Web scrapping ทั้งที่เป็น Static และ Dynamic ในคอร์สอบรม Geeks ของกรมควบคุมโรค (ป้ายยาของเค้าดีจริงๆ) และก็ได้ลองทำตามบทความ >>link<< ของ อ.ดร.กานต์ ม.รังสิต ในการวิเคราะห์ความรู้สึกของลูกค้าที่คอมเมนต์เข้ามา หนุ่มก็เลยรวบองค์ความรู้ 2 อันนี้มาประกอบกันดู ซึ่งแบ่งออกเป็น 5 ขั้นตอนหลัก ดังนี้ Library เป็นโปรเจ็คที่ค่อนข้างเรียกใช้ Library ที่เยอะมากเหมือนกันนะเนี่ย หลักๆ ก็จะเป็น BeautifulSoup, Selenium, Regex, Altair, … มากมายค่อยๆ บอกว่าใช้ทำอะไรในขั้นต่อไปแล้วกันนะครับ —สำหรับ Library ไหนที่เครื่องท่านผู้อ่านยังไม่มี ให้ pip…
Search
About
Feasible เว็บไซต์ที่นำเสนออาชีพปัจจุบันที่เรา (เจ้าของเว็บ) กำลังทำ ไม่ว่าจะเป็น นักวิเคราะห์ข้อมูล นักเรียน นักอ่าน นักฟาร์ม และอีกหลากหลายมุมมอง เรียกได้ว่าเป็น ‘แกงโฮะ’ เลยล่ะ ฮ่าๆๆ ติดตาม Content ที่จะทำออกมาได้เรื่อยๆ นะครับ ขอบคุณที่เข้ามาเยี่ยมกัน 😁✌️
Categories
Recent Posts
Buy Me a Coffee
