データ・サンプル
本サイトのデータは、原則としてJRAの2001年から2021年の21年間の約7万レースのものを使用しています。必要に応じて、それ以前や2022年以降のデータを使用する場合があります。
統計的特性について
よくマスコミ等で見かける「データ予想」では、サンプル数が多くても10~20レース程度のものが大多数です。実際に多くのレースのデータを集計してわかるのは、「競馬のデータは、ばらつきがとても大きい」ということです。
実際、20年間の統計で有意の差があるデータであっても、年単位で見ると回収率50%の年や200%を超える年があったりします。
勝馬投票券を売る、という目的からは、レースの多様性を上げる必要があるため、JRAの番組は極めて多くのバリエーションを持っています。そのため、全く同じ条件で行われるレースが少なくなり、予想データのサンプル数が増えず、統計的に安定しなくなります。また、競走馬や騎手にとっても経験値が上がりにくく、結果として偶然性が高まることになります。
多くの「データ予想」が結果的に不発に終わる最大の原因は、「サンプル数の不足」により「データのばらつきを傾向とみなす(誤解する)」ことにあると考えます。
そのため、当サイトではサンプル数をできるだけ大きく取り、「競馬場+コース+距離」による絞り込みを基本として、「+出走条件」で基本に対する変位を見る、という手法を採用しています。
データのばらつきの実例
年 | 勝数 | 出走数 | 勝率 | 回収率 |
---|---|---|---|---|
2020 | 50 | 3053 | 1.6% | 68.3% |
2019 | 50 | 2980 | 1.7% | 74.7% |
2018 | 44 | 3049 | 1.4% | 63.2% |
2017 | 67 | 3107 | 2.2% | 102% |
2016 | 52 | 3162 | 1.6% | 73.1% |
この例は、単勝10番人気馬の年間成績の表です。(障害戦を除く)毎年3000レース前後のサンプルがあり、勝率もほぼ1.6%前後で安定していますが、なぜか2017年のみが「ハネ」て、回収率も100%越えを達成しています。この年は10番人気馬の単勝を通年で買っていれば収支がプラスになった!ということです。
このように、相当大きなサンプル数を取ってもばらつきが大きいため、加えて「時間軸の長さ」という観点が必要になります。これについてはここでは詳しく述べませんが、「法則」検証の1つのステップとして必須の項目と考えています。