รู้ก่อนเขา...อิเหนากำไร: ทำนายตัวเลขเศรษฐกิจ ในยุค Big Data (ตอนที่ 2)

รู้ก่อนเขา...อิเหนากำไร: ทำนายตัวเลขเศรษฐกิจ ในยุค Big Data (ตอนที่ 2)

รู้ก่อนเขา...อิเหนากำไร: ทำนายตัวเลขเศรษฐกิจ ในยุค Big Data (ตอนที่ 2)
แชร์เรื่องนี้
แชร์เรื่องนี้LineTwitterFacebook

ในโลกของการลงทุนนั้น คงปฏิเสธไม่ได้ว่าความเร็ว (กว่าคู่แข่ง) สำคัญไม่แพ้กับความแม่นยำของข้อมูล ในยุคที่ Big Data กับ AI กำลังเข้ามาเป็นส่วนสำคัญมากขึ้นในการลงทุนนั้น จุดหนึ่งที่ความก้าวหน้าทางเทคโนโลยีและศาสตร์แห่งการวิเคราะห์ข้อมูลสามารถสร้างความได้เปรียบ หรือ “edge” ให้กับผู้เล่นในตลาดได้คือการช่วยทำนายตัวเลขเศรษฐกิจได้ก่อนตัวเลขทางการจะถูกประกาศ


ในบทความตอนที่หนึ่งของซีรี่ส์พิเศษ "รู้ก่อนเขา...อิเหนากำไร: ทำนายตัวเลขเศรษฐกิจในยุค Big Data" เราได้เห็นการนำข้อมูลแปลกๆ เช่นข้อมูลทางด่วนและข้อมูลจากภาพถ่ายมือถือมาทำนายอัตราเติบโตทางเศรษฐกิจและระดับราคาสินค้ากันไปแล้ว ติดตามอ่านตอนแรกได้ที่ : https://www.stock2morrow.com/article-detail.php?id=936


สำหรับตอนที่สองนี้ เราจะไปดูกันว่าข้อมูลจากอินเตอร์เน็ตแบบไหนสามารถเอามาช่วยทำนาย “สุขภาพ”ของตลาดแรงงานซึ่งเป็นอีกหนึ่งปัจจัยที่มักมีผลกระทบต่อทิศทางของเศรษฐกิจ ตลาดหุ้นและค่าเงินกันบ้างครับ


ทำนายอัตราว่างงานจาก Twitter และพฤติกรรมการใช้มือถือ

 l2


นักวิจัยจากมหาวิทยาลัยมิชิแกน (http://econprediction.eecs.umich.edu/) ได้ใช้ข้อมูล Twitter อันมหาศาลเพื่อสร้างโมเดลในการทำนายความเปลี่ยนแปลงในตลาดแรงงานสหรัฐฯ โดยสร้างดัชนี Social Media Job Loss Index รายอาทิตย์ จากการประมวลข้อมูลจากการทวีตข้อความเช่น “เซ็ง จริงเราตกงาน” หรือ “ฉันลาออกจากงาน” และข้อมูลตลาดแรงงานอื่นๆ ที่มีให้ใช้ก่อนตัวเลขทางการจะถูกประกาศ ซึ่งระหว่างปี 2011 ถึงท้ายปี 2013 ทีมวิจัยนี้พบว่าดัชนีนี้มีความใกล้เคียงกับตัวเลข Initial Claims (จำนวนคนที่ยื่นขอรับสวัสดิการว่างงาน) อย่างเหลือเชื่อ และมี predictive power ราว 15% ต่อการทำนายเซอร์ไพรส์เวลา concensus ของเหล่ากูรูไม่ตรงกับตัวเลขจริงที่ออกมา อีกทั้งยังทำนายอัตราว่างงานจริงๆ ได้แม่นกว่าใช้ Initial Claims ด้วย

อีกหนึ่งข้อดีของดัชนีนี้คือมันมี “คุณค่าทางข้อมูล” ในตัวมันเอง ถึงแม้ดัชนีนี้จะแปรผันคู่ไปกับตัวเลขทางการ แต่มันไม่ซ้ำเป๊ะๆ กับข้อมูลทางการ ยกตัวอย่างเช่นในช่วงท้ายปี 2012 ตัวเลข Initial Claims ทางการพุ่งขึ้นอย่างผิดสังเกต (spike สีน้ำเงินในกราฟด้านบน) เนื่องจากความผิดพลาดของระบบคอมพิวเตอร์ที่รัฐแคลิฟอร์เนีย แต่จะเห็นได้ว่าดัชนีนี้ที่นำข้อมูลมาจาก Twitter ไม่ถูกกระทบมากเท่าไรนัก อย่างไรก็ตามจะเห็นได้ว่าหลังจากช่วงกลางปี 2014 โมเดลนี้เริ่มทำนายห่างออกจากตัวเลข Initial Claims จริงมากขึ้น เป็นบทเรียนชั้นดีที่เตือนเราว่าไม่ว่าโมเดลพวกนี้จะดูดีมีคุณภาพแค่ไหนในห้วงเวลานึง เมื่อเวลาผ่านไปก็มีความจำเป็นต้องปรับเปลี่ยนไปตามกาลเวลา

อีกหนึ่งตัวอย่างที่น่าทึ่งคือการใช้ข้อมูลพฤติกรรมการใช้โทรศัพท์มือถือเพื่อทำนายอัตราว่างงาน ผมเคยไปนั่งฟังการพรีเซ็นต์งานวิจัยชิ้นนี้ (http://scholar.harvard.edu/files/shoag/files/trackingemploymentshocksmobiledata.pdf) สมัยยังทำวิจัยอยู่ที่มหาวิทยาลัยฮาร์วาร์ด เขาใช้ข้อมูลขนาดยักษ์จากบริษัทเทเลคอมแห่งหนึ่งที่มีส่วนแบ่งตลาดประมาณ 15% ในประเทศแห่งหนึ่งจากทวีปยุโรปเพื่อศึกษาพฤติกรรมทางโทรศัพท์ของคนที่ถูก layoff จากการปิดตัวลงของโรงงานรถยนต์แห่งหนึ่งในเมืองเล็กๆ

สมมุติฐานหลักก็คือคนเราน่าจะเดินทางและใช้โทรศัพท์น้อยลงเมื่อถูก layoff จากการวิเคราะห์ข้อมูลนี้ก็พบจริงๆ ว่าผู้ที่ถูก layoff โทรเข้าออกน้อยลง (อาจจะเป็นเพราะอายเพื่อนหรือรู้สึกไม่อยาก connect กับโลก) และเดินทางน้อยลง (สัญญาณไม่เด้งกับเสาโทรศัพท์จำนวนมากเท่าเดิม) เมื่อพบความสัมพันธ์เหล่านี้แล้วทีมวิจัยนี้ยังต่อยอดนำเอาข้อมูลโทรศัพท์ในระดับท้องถิ่นเหล่านี้ไปทำนายอัตราว่างงานในระดับที่กว้างหรือ “มหภาค” ขึ้นและสามารถทำนายได้ก่อนตัวเลขทางการจะถูกประกาศถึง 2 ถึง 8 อาทิตย์อีกด้วย

ส่องเทรนด์ตลาดแรงงานและค่าจ้างแบบ real-time


ผมคิดว่าหลายคนน่าจะเคยได้ยินชื่อเว็บไซต์หางานเช่น Indeed.com หรือ Glassdoor.com กันอยู่บ้าง แต่อาจไม่เคยทราบว่าเว็บไซต์เหล่านี้เก็บข้อมูลเอาไปวิเคราะห์เพื่อวัดเทรนด์ตลาดแรงงานได้แบบเกือบจะ real-time ไม่ต้องทนรอตัวเลขทางการประกาศด้วย

l3

เว็บไซต์ Indeed.com ซึ่งเป็นหนึ่งในเว็บไซต์ประกาศหาคนงานและหางานที่ใหญ่ที่สุดในสหรัฐฯ มีโปรเจคหนึ่งที่น่าสนใจคือการใช้ข้อมูลความถี่ของประกาศหาคนงานมาสร้างดัชนีเทรนด์ความต้องการแรงงาน (Job Trends) สำหรับงานแต่ละประเภท ซึ่งจากตัวอย่างด้านบน จะเห็นได้ว่าความต้องการจ้างตำแหน่งแรงงานกรรมกรและผู้จัดการร้านอาหาร (เมื่อเทียบกันงานประเภทอื่นแล้ว) มักแปรผันไปตามกัน อาจเป็นภาพสะท้อนถึงความพร้อมของภาคธุรกิจเวลาเศรษฐกิจกำลังจะขยายหรือหดตัว ข้อได้เปรียบสำคัญของข้อมูลชุดนี้คือนอกจากมันจะเป็นรายวันและแปรผันตามอุปสงค์และอุปทานในตลาดแรงงานแล้ว ยังมีความละเอียดเจาะลึกมากกว่าข้อมูลทางการอีกด้วย ผมเองยังไม่เคยเห็นใครนำข้อมูลชุดนี้ไปทำวิจัย แต่คิดว่าคงอีกไม่นานคงมีครับ

อีกหนึ่งตัวอย่างที่น่าสนใจเป็นพิเศษคือการเก็บข้อมูลเกี่ยวกับค่าจ้างซึ่งปกติแล้วเป็นข้อมูลที่หามาได้ยากมากๆ เว็บไซต์ Glassdoor ซึ่งเป็นแหล่งให้พนักงานเข้ามาเขียนรีวิวที่ทำงาน (หรือเข้าไปดูว่าเขาสอบสัมภาษณ์กันยังไง) และเปิดเผยข้อมูลรายละเอียดเกี่ยวกับค่าจ้างและเงินเดือน ได้ร่วมมือกับนักเศรษฐศาสตร์ในการใช้ข้อมูล User-Input จำนวนมหาศาลเพื่อประกอบเป็นชุดข้อมูลชื่อ Glassdoor’s Local Pay Reports (https://research-content.glassdoor.com/app/uploads/sites/2/2016/12/LocalPayReports_Methodology.pdf) ซึ่งสามารถใช้ชุดข้อมูลนี้เพื่อสร้างเทรนด์ค่าจ้างมัธยฐาน (median base pay) สำหรับงานทุกตำแหน่ง (job title) ที่อยู่บนเว็บไซต์ได้ และยังแบ่งเป็นรายเมืองและเวลาได้ด้วย

l4

แต่ที่น่าสนใจที่สุดคือสามารถใช้ Machine Learning เพื่อฝึกคอมพิวเตอร์ด้วยข้อมูลเหล่านี้จนใช้มันทำนายตัวเลขค่าจ้างมัธยฐานทางการจาก Bureau of Labor Statistics ได้โดยผิดพลาดไปราว 5 ถึง 6 เปอร์เซ็นต์เท่านั้น อีกทั้งตัวเลขเทรนด์อัตราเติบโตของค่าจ้าง Glassdoor นี้ก็มีความสัมพันธ์กับตัวชี้วัด benchmark อื่นๆ (ด้านบน) ด้วย ถือเป็นการสร้างความมั่นใจได้ในระดับหนึ่งครับ

l5
สุดท้ายนี้ ต้องย้ำอีกครั้งว่าโมเดลเหล่านี้ มีดีก็เพราะข้อมูลที่ป้อนเข้าไป เพราะฉะนั้นหากข้อมูลเปลี่ยนไปตามกาลเวลาแบบที่นักวิเคราะห์นึกไม่ถึง โมเดล Glassdoor ที่ดูเหมือนว่าทำนายการเติบโตของค่าจ้างได้แม่นยำก็อาจต้อง “เข้าอู่” เหมือนกับตัวอย่างแรกในบนความนี้ครับ

ติดตามบทวิเคราะห์จากมุมมองเศรษฐศาสตร์ที่เข้าใจง่ายได้ที่ www.settakid.com ครับ
บทความโดย stock2morrow เขียนโดยคุณณภัทร จาตุศรีพิทักษ์

 

 

แชร์เรื่องนี้
แชร์เรื่องนี้LineTwitterFacebook