データの安定性について

データ・サンプル

本サイトのデータは、原則としてJRAの2001年から2021年の21年間の約7万レースのものを使用しています。必要に応じて、それ以前や2022年以降のデータを使用する場合があります。

統計的特性について

よくマスコミ等で見かける「データ予想」では、サンプル数が多くても10～20レース程度のものが大多数です。実際に多くのレースのデータを集計してわかるのは、「競馬のデータは、ばらつきがとても大きい」ということです。

実際、20年間の統計で有意の差があるデータであっても、年単位で見ると回収率50%の年や200%を超える年があったりします。

勝馬投票券を売る、という目的からは、レースの多様性を上げる必要があるため、JRAの番組は極めて多くのバリエーションを持っています。そのため、全く同じ条件で行われるレースが少なくなり、予想データのサンプル数が増えず、統計的に安定しなくなります。また、競走馬や騎手にとっても経験値が上がりにくく、結果として偶然性が高まることになります。

多くの「データ予想」が結果的に不発に終わる最大の原因は、「サンプル数の不足」により「データのばらつきを傾向とみなす（誤解する）」ことにあると考えます。

そのため、当サイトではサンプル数をできるだけ大きく取り、「競馬場＋コース＋距離」による絞り込みを基本として、「＋出走条件」で基本に対する変位を見る、という手法を採用しています。

データのばらつきの実例

年	勝数	出走数	勝率	回収率
2020	50	3053	1.6%	68.3%
2019	50	2980	1.7%	74.7%
2018	44	3049	1.4%	63.2%
2017	67	3107	2.2%	102%
2016	52	3162	1.6%	73.1%

この例は、単勝10番人気馬の年間成績の表です。（障害戦を除く）毎年3000レース前後のサンプルがあり、勝率もほぼ1.6%前後で安定していますが、なぜか2017年のみが「ハネ」て、回収率も100%越えを達成しています。この年は10番人気馬の単勝を通年で買っていれば収支がプラスになった！ということです。

このように、相当大きなサンプル数を取ってもばらつきが大きいため、加えて「時間軸の長さ」という観点が必要になります。これについてはここでは詳しく述べませんが、「法則」検証の1つのステップとして必須の項目と考えています。