Model Taruhan Olahraga Sederhana

Model Taruhan Olahraga Sederhana

Sebagai penafian, saya ingin menunjukkan bahwa saya tidak berasal dari latar belakang taruhan. Saya tidak pernah memasang taruhan pada pertandingan sepak bola. Saya sangat tertarik menggunakan statistik untuk lebih memahami sepak bola, sesuatu yang terkait dengan taruhan sepak bola.

Hipotesis

Pertanyaan sederhana yang ingin saya jawab adalah: Seberapa akurat model untuk memprediksi hasil pertandingan sepak bola? Yang lebih menarik, apakah model ini lebih akurat daripada peluang yang ditetapkan oleh bandar taruhan? Saya yakin orang sudah pernah mencoba ini, tetapi saya ingin mencobanya sendiri dengan model saya sendiri. Hipotesis saya adalah ya, bandar taruhan bisa dikalahkan, bahkan menggunakan model sederhana.

Variabel

Jelas, ada hampir tak terbatas variabel yang bisa dimasukkan ke dalam model untuk memprediksi pertandingan sepak bola. Untuk alasan ini, saya bertujuan membuat model sesederhana mungkin. Secara khusus, saya membatasi model saya hanya 4 variabel:

  • Perbedaan gol tim tuan rumah hingga saat itu di musim ini.
  • Perbedaan gol tandang tim tamu hingga saat itu di musim.
  • Poin tim tuan rumah dari musim sebelumnya.
  • Poin tim tamu dari musim sebelumnya.

Tidak ada yang terlalu rumit atau membingungkan sama sekali. Dalam pikiran saya, ini adalah 4 variabel yang cukup sederhana untuk digunakan dan mendapatkan akses dengan mudah, sementara juga cukup penting untuk membuat model yang akurat.

Data

Untuk melakukan ini, saya pertama-tama membutuhkan data. Bagaimanapun, data ini tidak dalam format yang tepat yang saya butuhkan. Setelah banyak manipulasi di Excel dan kemudian R, saya bisa mendapatkannya dalam format yang saya butuhkan. Ini sebenarnya menghabiskan sebagian besar waktu dan upaya yang diperlukan proyek.

Untuk menunjukkan kekuatan prediksi model, saya menggunakan musim 2011/2012 hingga 2018/2019 (total 8 musim) untuk “melatih” model tersebut. Dengan kata lain, model tersebut belajar dari 8 musim sebelumnya. Ini adalah set pelatihan.

Saya menggunakan musim 2018/2019, sebagai set “tes”. Ini adalah ujian sebenarnya dari kekuatan prediksi model karena model belum melihat data 2018/2019. Keakuratan adalah akurasi prediksi model pada data baru.

Model

Saya memiliki sejumlah pilihan untuk teknik statistik aktual yang digunakan untuk model. Ada dua cara utama orang memprediksi hasil pertandingan di masa lalu.

Pertama, orang hanya memprediksi hasil permainan sebagai persentase. Kedua, orang-orang telah memprediksi gol yang dicetak untuk masing-masing klub dalam permainan dan kemudian menggunakannya untuk mendapatkan persentase yang mewakili peluang setiap hasil. Pada akhirnya, saya memilih untuk pergi dengan opsi pertama karena ini sedikit lebih mudah dan lebih sederhana untuk diterapkan.

Setelah memilih ini, ada juga sejumlah teknik untuk memilih dari untuk mendapatkan prediksi hasil. Yang paling umum dan yang muncul pertama kali adalah model probit. Pada dasarnya, ini hanya regresi linier di mana variabel dependen hanya dapat mengambil dua variabel. Namun dalam kasus kami, kami membutuhkan model untuk memprediksi tiga hasil (menang, seri, dan kalah). Ada sedikit varian pada model probit yang disebut model probit multinomial yang memungkinkan variabel dependen mengambil lebih dari dua hasil.

Pada akhirnya, saya memutuskan untuk pergi dengan pendekatan berbeda yang jauh lebih sederhana. Sebaliknya, saya menggunakan teknik pembelajaran mesin yang disebut Random Forest, yang akan mengklasifikasikan, berdasarkan data input, hasil dari setiap permainan. Saya menggunakan model ini untuk memprediksi probabilitas setiap hasil (menang, seri, dan kalah) yang terjadi. Sejujurnya, saya tidak mengerti kekuatan penuh dan alasan statistik di balik model hutan acak, tapi saya mengerti ide dasarnya.

Perbandingan

Saya menggunakan beberapa perbandingan untuk menguji validitas model saya. Pertama, saya menetapkan kemungkinan acak untuk setiap hasil dari setiap pertandingan. Untuk memahami hal ini, bayangkan teman Anda membuang peluang acak untuk setiap hasil sepanjang musim. Swansea bermain di kandang melawan Liverpool, dan teman Anda memberi tahu Anda bahwa ada peluang 15% Swansea menang, 58% peluang seri, dan 27% peluang kemenangan Liverpool. Bayangkan teman Anda melakukan proses acak ini untuk semua 380 pertandingan musim ini – saya ingin modelnya setidaknya lebih akurat daripada teman Anda.

Patokan kedua (dan lebih akurat) yang saya gunakan adalah peluang taruhan yang sebenarnya. Karena ketika Anda mengonversi peluang menjadi persentase, jumlahnya lebih besar dari 100% (ini adalah bagaimana perusahaan taruhan menghasilkan uang). Saya menormalkan angka-angka ini sehingga mereka menambahkan hingga 100%. Dengan menggunakan angka-angka ini, saya menguji keakuratan model saya terhadap keakuratan menggunakan angka taruhan. Jika model saya lebih akurat daripada peluang taruhan, kami ada sesuatu.

Mengukur keakuratan model adalah hal yang agak sulit dilakukan. Saya melakukan ini dengan mengambil rata-rata geometris dari peluang yang ditetapkan untuk hasil yang sebenarnya terjadi. Sebagai contoh, jika model mengatakan bahwa ada peluang 50% dari kemenangan tim tuan rumah dan tim tuan rumah akhirnya menang, kami akan mengambil nilai 0,5 dari permainan itu. Jika Anda melakukan ini untuk setiap permainan, dan mengambil rata-rata geometris dari semua peluang yang ditetapkan untuk setiap hasil yang benar-benar terjadi, Anda mendapatkan ukuran palsu dari akurasi model. Angka yang lebih tinggi menyiratkan akurasi yang lebih tinggi. Jika Anda entah bagaimana dapat memilih dengan benar semua 380 pertandingan di musim ini, Anda akan memiliki akurasi 1. Jika Anda memilih semuanya salah, Anda akan memiliki akurasi 0. Karena model memberikan probabilitas antara 0 dan 1 untuk setiap hasil, kita akan jatuh di antara keduanya.

Hasil

OK, jadi bagaimana kinerja model yang disederhanakan sebenarnya dibandingkan dengan perbandingan? Sebenarnya cukup baik. Ternyata teman mabuk Anda datang dengan tebakan acak di setiap hasil tidak begitu baik. Dia mencetak ukuran akurasi 0,25 untuk musim 2011/2012. Bagaimana dengan pembuat peluang? Secara khusus, saya melihat peluang normal untuk Bet365. Mereka bahkan lebih baik, mencetak akurasi 0,34 untuk musim 2018/2019.

Akhirnya, hasil model yang disederhanakan dijelaskan di atas. Model acak saya mencetak akurasi 0,33 untuk musim 2018/2019. Ya, ini di bawah akurasi ketika menggunakan pendekatan peluang taruhan. Namun, untuk model hanya 4 variabel itu tidak terlalu buruk dalam pikiran saya.

Kesimpulan

Apa langkah selanjutnya? Saya ingin memasukkan lebih banyak variabel dalam model agar lebih akurat. Beberapa kemungkinan yang ada dalam pikiran saya adalah pengeluaran transfer tim tuan rumah dan tim tamu atau beberapa statistik yang lebih rinci seperti metrik passing atau shooting.

Secara keseluruhan, kesimpulan saya dari ini adalah bahwa peluang taruhan tidak terlalu akurat untuk memprediksi hasil sepak bola, mengingat model yang cukup primitif hampir sama akuratnya. Peluang untuk mengalahkan peluang pasti ada, meskipun mungkin perlu beberapa usaha untuk membuatnya cukup akurat untuk benar-benar menghasilkan uang dalam jangka panjang.