はじめに
ここでは、競馬予想モデルをどのような動機と目的で開発をしていくのかを記します。
モデル作成の根幹となる部分は、以下の制作過程の動画で触れていますので、気になる方は視聴していただけるとより理解が深まると思います。
再生リスト
また、ソフトのソースの一部はBookersで有料公開しています。一緒に競馬予想ソフトを作成したいという方はぜひ購入してください。
実際にできた競馬予想ソフトのソースも、完成したら有料で配布しようと考えています。
モデル作成の前提:2024年10月13日時点
これから作成するモデルは以下の条件を前提にしています。随時更新予定のため、完成版が出るまでは増えていくと思っていてください。
前処理の前提
- 障害レースは削除する
- 失格降格データは所定の処理、取,除,中は削除
- 数値化できるカラムは数値化する
- 上り3Fがないものは削除、それ以外は直近で埋合せ
- タイム関連データは分速に変換
- 着順データは出走頭数で除算する
- レース距離はSMILE距離区分を用いてカテゴリ化する
- カテゴリ変数はエンコード
- レースのクラスと獲得賞金はグレード指標へ置き換え
- 母, 父, 母父, 母母父の馬IDを追加
- 持ちタイム情報の追加
- 脚質情報の追加(クラスタ4とクラスタ16)
- ペース情報の追加
- 脚質情報と持ちタイムの前5走データの追加:引数
lagN
で前走数の指定可能
処理内容の解説は、以下ページから一覧で見れます。
実際の開発で用いるソースは以下で公開しています。
後処理の前提
- オッズの支持率と勝率は強い関連があるため、モデルの評価で利用することとする
モデルの評価方法
オッズグラフスコアという独自指標を用いて、モデルを評価します。
オッズグラフスコアの求め方については以下の記事を参照ください。
モデルの目的と動機
モデルの目的
目的は、単勝オッズで想定される支持率を超える的中精度を持つモデルを目指します。
つまり、賭けたお馬さんの支持率が50%だった場合、その的中率が最低でも65%以上となるモデルを作成します。実際に回収率100%を超えるためには、理論上62.5%は出せないとダメなのでより安定した回収率を出すために、的中率を65%と考えています。 他でいえば、支持率が20%だった場合は、的中率25%を目指します。
上記のようなイメージです。つまり、オッズの逆数の確率を超える的中率を出せるモデルが作成できれば、回収率100%を理論上出せます。現状ではまだまだ無計画の理想論でしかないので、データ分析を通して根拠を固めていければと思っています。
根幹となるアルゴリズムは、まだ未公開です。折をみて解説します。
モデル作成のモチベーション
作成するモデルの目的としていた「単勝オッズで想定される支持率を超える的中精度を持つモデル」というのはどういった背景で出たのか。
端的に申しますと、詳細は動画で触れていますが、単勝オッズから想定される支持率と勝率には不思議な関係があり、支持率と勝率は酷似するという結果になっています。
以下が実際に過去14年間(2010年~2023年)の中央競馬のレースで実際についたオッズに対する支持率とその勝率、および実際のオッズに対して回収率が100%を越えるための勝率を示しています。
グラフを見れば分かる通り、勝率である青色の線と支持率であるオレンジ色の線が非常に酷似しています。緑色の線は、オッズに対して緑色の線にあたる勝率を出していれば回収率が100%となるラインを表しています。
つまり、作成するモデルというのは、的中精度がこの緑色の線を超えるようなモデルを作成することとなります。
本モデルのウリ:強味
よくネットで落ちている競馬予想プログラムを作成してみた!と体系的に解説されている方の多くは、回収率を100%超えることと銘打ってプログラムを開発しているのですが、どのように回収率100%を超えるかという点について深堀が出来ていない方がほとんどです。
その点に関してでいえば、ここで作成するモデルは支持率というベースラインを決めておくことで、これを越えれるかどうかがモデルの性能の評価とできるところが、ほかの競馬予想プログラムとの開発方針の違いです。
ほかの方の競馬予想プログラムは、回収率100%を超えたいと目標を掲げますが、結局モデルの予測対象は3着以内になるかどうかのラベル分類しかしていません。終いには予測確度から閾値を決めて賭けるか賭けないかを判別して回収率を確認し、100%を越えていたらやったー!で終了とする流れがほとんどです。
そのモデルが何をしていて、どうなれば回収率が100%を超えられるのか、定量的な評価が出来ていないため、そのモデルは実力通りの性能を本番環境でも発揮できるかなどの実用面での議論がほとんどできていないです。
しかし、これから作成するモデルは、支持率を目安にパフォーマンスを評価するため、何が良いモデルで何が悪いモデルなのかは、オッズに対する上記のグラフを出せば目に見えて評価することができます。
上記の理由から、本サイトで作成する競馬予想ソフトは、既存の競馬予想プログラムと比べてより体系的なものとなります。ひと味違う競馬予想で始めるデータサイエンスを目指して、ソフト開発を進めて行きますので、よろしくお願いします。