データの安定性について

データ・サンプル

本サイトのデータは、原則としてJRAの2001年から2021年の21年間の約7万レースのものを使用しています。必要に応じて、それ以前や2022年以降のデータを使用する場合があります。

統計的特性について

よくマスコミ等で見かける「データ予想」では、サンプル数が多くても10~20レース程度のものが大多数です。実際に多くのレースのデータを集計してわかるのは、「競馬のデータは、ばらつきがとても大きい」ということです。

実際、20年間の統計で有意の差があるデータであっても、年単位で見ると回収率50%の年や200%を超える年があったりします。

勝馬投票券を売る、という目的からは、レースの多様性を上げる必要があるため、JRAの番組は極めて多くのバリエーションを持っています。そのため、全く同じ条件で行われるレースが少なくなり、予想データのサンプル数が増えず、統計的に安定しなくなります。また、競走馬や騎手にとっても経験値が上がりにくく、結果として偶然性が高まることになります。

多くの「データ予想」が結果的に不発に終わる最大の原因は、「サンプル数の不足」により「データのばらつきを傾向とみなす(誤解する)」ことにあると考えます。

そのため、当サイトではサンプル数をできるだけ大きく取り、「競馬場+コース+距離」による絞り込みを基本として、「+出走条件」で基本に対する変位を見る、という手法を採用しています。

データのばらつきの実例

勝数出走数勝率回収率
20205030531.6%68.3%
20195029801.7%74.7%
20184430491.4%63.2%
20176731072.2%102%
20165231621.6%73.1%

この例は、単勝10番人気馬の年間成績の表です。(障害戦を除く)毎年3000レース前後のサンプルがあり、勝率もほぼ1.6%前後で安定していますが、なぜか2017年のみが「ハネ」て、回収率も100%越えを達成しています。この年は10番人気馬の単勝を通年で買っていれば収支がプラスになった!ということです。

このように、相当大きなサンプル数を取ってもばらつきが大きいため、加えて「時間軸の長さ」という観点が必要になります。これについてはここでは詳しく述べませんが、「法則」検証の1つのステップとして必須の項目と考えています。

ページ上部へ戻る