Basic Statistic Data driven Business หรือ กลยุทธ์ทางธุรกิจที่ใช้ข้อมูลในการตัดสินใจ กำลังมาแรงทำให้ตำแหน่งงานที่ถูกพูดถึงมากที่สุดตำแหน่งหนึ่ง คือ Business Analyst หรือ Data Analyst ซึ่งในความเป็นจริง ทุกคนสามารถทำงานตำแหน่งนี้ได้หมด ไม่ว่าคุณจะสำเร็จการศึกษามาด้านใด เพียงแค่คุณใช้ทักษะด้านคณิตศาสตร์ และสถิติให้เป็นประโยชน์ได้ คุณก็จะเติบโตได้อย่างรวดเร็ว ทำไมการใช้ข้อมูลมาเล่าเรื่องราวถึงดูมีพลัง
นั้นเพราะมันแสดงให้เห็นถึงความใส่ใจในการนำเสนอ และยังใช้โน้มน้าวจิตใจคนฟังได้ดีอีกด้วย เช่น “กว่า 80% ของผู้ใช้บริการ มีความถึงพอใจในสินค้า” ในที่นี้ 80% กำลังบอกว่า 80 คน ใน 100 คน พอใจ ซึ่งเป็นคนหมู่มากนั้นเอง 1. ประชากร กับ ตัวอย่าง สิ่งที่สำคัญในส่วนนี้ คือ จำนวน Sample ที่เราดึงมาใช้นั้น มีจำนวนและความหลากหลายมากพอที่จะเป็นตัวแทนของประชากรทั้งหมดหรือไม่ เช่น หากจะวิเคราะห์ปัจจัยในการเกิดโรคไข้หวัดใหญ่ของคนไทย ที่มีประชากร 80 ล้านคน เราควรศึกษากลุ่มตัวอย่างปริมาณกี่คน จากภูมิภาคไหน อายุเท่าไหร่ อาชีพอะไร และมีกิจกรรมในชีวิตประจำวันอย่างไรบ้าง ซึ่งคำถามทั้งหมดนี้ ไม่มีคำตอบที่ชัดเจน
เพียงแต่นักวิเคราะห์ต้องสามารถหาเหตุผลมาตอบเพื่อให้กลุ่มตัวอย่างที่นำมาวิเคราะห์มีน้ำหนักชัดเจนพอ 2.ค่ากลาง และการเบี่ยงเบน - Mean หรือ ค่าเฉลี่ย คิดจากผลรวมของค่าทั้งหมดหารด้วยจำนวนข้อมูล เช่น 9, 3, 1, 8, 3, 6 ค่าเฉลี่ย = (9 + 3 + 1 + 8 + 3 + 6) / 6 = 5 - Median หรือ มัธยฐาน คือ ตัวอย่างที่อยู่ตำแหน่งกลางของชุดข้อมูล เมื่อมีการเรียงข้อมูลจากน้อยไปมาก เช่น
- Mode หรือ ฐานนิยม คือ ตัวเลขที่เกิดมาที่สุดในชุดจำนวน เช่น
Range หรือ พิสัย คือความแตกต่างระหว่างข้อมูลที่มีค่าสูงสุด และ ต่ำสุด เข่น
Variance หรือ ค่าแปรปวน Standard
deviation หรือ ค่าเบี่ยงเบนมาตรฐาน ……แล้ว Variance กับ Standard deviation ใช้งานต่างกันอย่างไร เพื่อให้เข้าใจง่ายๆ ขอเสนอตัวอย่างดังนี้ Example …จากตัวอย่างนี้ เราจะเห็นว่าค่าแปรปวนจะเป็นตัวเลขที่กว้างกว่าค่าเบี่ยงเบนมาตรฐาน เวลาใช้งานจริงค่าเบี่ยงเบนมาตรฐานจะใช้อธิบายความเบี่ยงเบนที่ออกมาจากค่ากลาง หรือ ค่าเฉลี่ย เพื่อให้เห็นภาพว่า ชุดข้อมูลนั้นๆ มีการกระจายตัวอย่างไรในขณะที่ค่าแปรปวนจะเป็นภาพกว้างทั้งหมดจึงมักใช้การพิสูจน์หลักการทางสถิติมากกว่า เช่น การคำนวณค่าความเสี่ยง หรือ Value at Risk เป็นต้น มาขยายความเข้าใจเรื่องค่าเบี่ยงเบนกันอีกสักนิด เมื่อดูกราฟข้างล่างนี้
Z-Score หรือ คะแนนมาตรฐาน Z คือ การทำ standardized ของชุดข้อมูลเพื่อทำให้ข้อมูลอยู่ในรูปแบบที่เป็นมาตรฐานเดียวกัน คือ มีค่าเฉลี่ย = 0 และค่าเบี่ยงเบนมาตรฐาน = 1 โดยมีสูตรในการคิดคือ Z-Score Equation…คราวนี้เรากลับมาดูที่กราฟรูประฆังคว่ำกันอีกครั้ง ในการทำงานจริง Standard Normal Distribution….กราฟนี้จะเป็นกราฟที่ถูกใช้งานบ่อย ไม่ว่าจะเป็นตัวที่ใช้อธิบาย Outlier หรือ การให้เกรดนักศึกษา ตัวอย่างเช่น Example ….สถิติข้างต้นนี้ แม้มันอาจจะเป็นพื้นฐาน แต่ในการทำงานจริง ไม่ว่าจะเป็นค่าเฉลี่ย ค่าเบี่ยงเบน หรือ แม้แต่กราฟ Normal Distribution มักถูกนำมาใช้ในทุกๆ ขั้นตอนของการทำ Big Data ไม่ว่าจะใช้เป็นกฎเพื่อ Clean ข้อมูล หรือใช้ Analysis วิเคราะห์ปัญหา และแนวโน้มของข้อมูล เพราะฉะนั้น สถิติเบื้องต้นต่างๆ นี้ จึงเป็นสิ่งจำเป็นที่ Data Expert ต้องเข้าใจ และนำมาใช้งานให้ถูกต้อง อย่างหลีกเลี่ยงไม่ได้ #BigData |