競馬@Wikiへ戻る
回収期待値理論を知らない方々に説明すると、回収期待値と言うのは
回収期待値=的中率×平均オッズ
で表されるものです。
ところで、通常馬券の回収期待値と言うのものは、控除率(JRAが馬券から差し引く利益。テラ銭。)を考え合わせると単勝・複勝でおよそ80%、その他の式別では75%と言われています。つまり、無作為に馬券を購入しても回収期待値が100%を超えないので競馬では原理的にはお金を儲けられないのです。
ところが、色々データを条件別で見ていくと、場合によっては回収期待値が100%を超えている買い目が存在します(逆に言うと、回収期待値がバカみたいに低い馬券も存在するワケです)。つまり、こう言う、データ上「回収期待値が100%を超えている」馬券だけに投資していけば自然に儲かるだろう、と言うのが回収期待値理論の内容なのです。
ところで、以上の回収期待値理論は非常に魅力的であり、「予想しなくてもデータさ
えあれば馬券で簡単に利益を生み出せるんだ!」と結構な支持者を生み出しました。特に検索ソフト、TARGET frontier JVの普及と相まって、競馬書籍出版界を席捲して、今や各データブック、競馬情報誌共に「回収期待値100%を超える買い目」を目にしない日はありません。
ところが回収期待値理論通りに結果が付いて来て、みんなハッピーになったのか、と言うとそうは問屋が卸しません。様々な批判が回収期待値理論に対して湧き上がってきました。主な批判内容は、
「回収期待値理論は買い目を公開した途端に当たらなくなる(儲からなくなる)」
と言ったモノです。回収期待値理論信者はこれに対して主に、
「過去のデータ上では確かに回収期待値は100%超えていたんだよ。 でも、データを公開してからは、多分同じ買い目の馬券購入者が増加して、オッズが下がっちゃったんだよね。」
と言った言い訳に終始しています。しかしながら、批判者の中には、「そもそも統計母数が足りないんじゃないのか?」と言った指摘をする方々もいます。
「そもそも有効ケース数が足りないのに(確たる証拠もないのに)回収期待値が100%を超えてる、と断定する方がおかしい。」
果たしてどっちの意見が正しいのでしょうか?
僕個人の意見で言うと、最後の意見に賛成です。確かに同じ買い目を購入する馬券購入者が増えればオッズが下がる、と言うのは事実です。ただし、みんながみんなそれに群がっているのか、と言うと疑問に感じざるを得ません。疑問点を2つ挙げます。
第1に、大体回収期待値100%以上の買い目が1番人気に祭り上げられた、なんて例は聞いた事がありません。大体いつも通り、各競馬新聞の◎が1番人気になってる例が多数なのです。それが大多数の馬券購入者の行動なんです。
第2に、馬券術には流行り廃りがあります。大多数の馬券購入者は基本的にスノッブな人達です。回収期待値理論にしても、一時的にある特定の買い目に群がるでしょうが、ある程度経ったら新しい買い目に飛び移るでしょう。という事は
「新しい買い目を発見した!」よりも「かなり古い買い目を穿り出す」
方が実は“不特定多数の馬券購入者に飽きられていて有効”な筈なんです。何でそう言う議論にならないのでしょうか?回収期待値理論での買い目が有効であるならば、以上の論点になってもおかしくは無い筈なんですが、これも
「古いデータは現在には生かされない」
と至極単純な結論に終始しています。
さて、そうなると、状況証拠的に考えると、そもそも過去のデータ上「回収期待値100%超えだった」って話自体が、嘘ではないにせよ、断定する方がおかしいのではないか、と言った結論になります。要はこれは「買い目の信頼度」の話になるのです。
さて、議論の叩き台として、競馬最強の法則3月号上の記事、無敵の勝ちネタ”法則30本!の中から2番の
阪神ダート1,800MのBT産駒
を取り上げたいと思います。*1
では、まず、データをご覧下さい。
■ブライアンズタイム産駒(6歳以下現役馬)の阪神ダート1800成績(03.1.5〜05.12.25) |
1着 | 2着 | 3着 | 出走数 | 勝率 | 連対率 | 複勝率 | 単回値 | 複回値 |
25 | 16 | 17 | 147 | 17.0 | 27.9 | 39.5 | 114 | 98 |
確かに単勝の回収期待値は114%と優秀です。ところで、
回収期待値=的中率×平均オッズ
に拠ると、
回収期待値(114%)=的中率(17.0%)×平均オッズ(6.7倍)
だという事が分かります。つまり、この期間の阪神ダート1800M戦におけるBT産駒の単勝平均オッズは約6.7倍だ、という事ですね。
ところで、上の式から次の2つの事が言えるのです。
この2つの観点は上のブライアンズタイム産駒のデータから導き出した結論です。つまり、回収率が114%も無いにせよ、上の2つのいずれかの条件を満たせば自然と回収率は最低でも100%以上は行く、と言うのは分かるでしょう。要は、「的中率を固定して考えるか?」それとも「平均オッズを固定して考えるか?」が違うだけで、両者共に回収率100%超えの為の条件なのです。
ここでは、1の論点で話を進めて行きたいと思います。と言うのも、数学的な詳細はヤヤコシイので端折りますが、点推定と言われる手法で、
単勝的中率=1着数÷出走数
とするのは、どんなにデータ数が少なくても数学的には悪い推定的中率にはならないんです。よって、25÷147≒17%は「まずまず信頼できる勝率である」として構わない。そこで、「平均オッズ」の方を疑ってみましょう。 ここで実際、ブライアンズタイム産駒(6歳以下現役馬)の阪神ダート1800M戦(03.1.5〜05.12.25)での的中した単勝的中オッズの分布をご覧に入れたいと思います。
もう何も言えませんね(苦笑)。なんせ該当件数がたったの25件しかないので当然かもしれません。
ところが、ムリヤリ次の仮定を設定します。それは、
阪神ダート1800M戦に於いて、現役のブライアンズタイム産駒が勝ったと言う条件での 単勝的中オッズはサンプル数を無限大とした場合正規分布する。
(正規分布については統計解析についてを参照)
この仮定を受け入れられるか、受け入れられないか、が分かれ道です。しかもいきなり「無限大」とか言われて面食らってると思います。ここは確かに仮想的な話なんですが、詳しくは後述します。
僕自身は上の仮定は悪くない仮定だと思っています。と言うのも、条件は違えど、サンプル確保数が最大の「単勝人気順別による的中オッズの分布」が正規分布に近似できそうだからです。
次に単勝人気順別(1〜9番人気)の的中オッズのヒストグラムを掲げます。データはJRA過去3年('03〜'05末)の全施行レースを対象と致しました。
単勝人気順別オッズなんかはとてもじゃないけど、競馬予想に役立つ情報だとは思えませんが、こう言った「的中オッズの分布の性質を考える場合」大変有力な手掛かりになるとは思います。
中には、
「でも単勝人気順別区分けでの、って事でしょ?その性質が他の条件区分けにも通用する、って思うのは少々楽観的なんじゃないの?」
と思う人もいるでしょう。その通りだと思います。が、通常、どんな条件分けにせよ、単勝人気順別程の母体数は稼げません。ハッキリ言うと、正規分布で近似できると肯定も否定も出来ないのです。取りあえずここでは大胆に「条件を任意に区分けして、その中のサンプル数が無限大に近づけば単勝的中オッズの分布は正規分布に近づく」と仮定したいと思います。*2
以上を整理しなおして、数理統計学的には次のような論法を設定します。
これが統計的仮説検定のカラクリです。
なお、上の例で言うと、実際僕らは母平均μの値を知りたいワケではありません。そして確定したμの値は知りようがないのです。
ただし、僕らが本当に期待しているのは、
「母平均μの値が何なのかは別に興味はないんだけど、その値がもしも5.9より大きかったらラッキー 」
って事です。何故なら、
「阪神ダート1,800M戦に於いての現役BT産駒が勝った場合の単勝オッズの正規分布モデ ルの母平均μが5.9より大きい」のなら、その仮想的な分布モデルから取り出した単勝 的中オッズも大体5.9より大きいある点を中心にして分布する
ので、結果、安定して単勝回収率が100%を超える事が期待されるからです(少なくとも、的中率が安定していて、かつ、他の馬券購入者に悟られなければ、って意味ですが)。この事実を安定した回収率を保持する為に是非とも確率論的に証明したいのです。
この本当に証明したい事柄を統計的仮説検定では特に対立仮説と呼びます。
そして、統計的仮説検定では、高校の時に習った背理法の構造を用いて対立仮説を証明する為、敢えてその否定形の仮説を証明しようとする形式をとります(つまり、その証明が失敗すれば自動的に対立仮説が確率論的に証明された事になります)。この否定形の仮説を帰無仮説(またはゼロ仮説)と呼びます。
具体的に上の例では次のようになります。
帰無仮説:母平均μは5.9以下である。
対立仮説:母平均μは5.9より大きい。
もうちょっと数学的に書き直せば、次のようになります。
帰無仮説:μ=5.9*3
対立仮説:μ>5.9
そして手順3のシミュレーション(仮想実験)を行うんですが、実際は行わなくってイイです(笑)。「どっちやねん?」と言ったツッコミはさておき(笑)、実はこのテの実験を行った場合の頻度の分布は既に理論的に証明されています。それがt分布*4(統計解析について参照)で、そう言った実験を実際に行った場合どう言った分布になるのか、に言及したものです。これで僕たちは「無限回に渡って実験し続ける」苦痛から解放されるのですね(笑)。数学ってあり難いですね(笑)。
ここでt分布に絡んだ次の定理を紹介しておきます。
個々のデータ
が互いに独立で、かつ同じ正規分布
に従うならば、それらの標本平均を
標本不偏分散を
とする時、統計量
は自由度n−1のt分布に従う。
つまり、阪神ダート1,800M戦に於ける現役のブライアンズタイムス産駒が勝った場合の単勝オッズの平均値(これが標本平均です)は上のデータによると、03.1.5〜05.12.25の期間での25個のデータ数で見る限り、6.7倍。またそのデータ上の標準偏差uは、TARGET frontier JVを使って調べてみるとu=7.516854395。帰無仮説より、母平均μは5.9倍(帰無仮説上は以下。本当に証明したい事はそれより大きい)。この3つを懸案すると、単勝的中オッズ分布の検定統計量tは
となって、これが自由度(t分布ではデータ数−1の事)24のt分布の横軸上の数値になるワケです。
上が、自由度をデータ数−1=24としたt分布のグラフです。
つまり、無限大の規模を持つ正規分布モデルから標本を25個取り出して、その性質(平均値と標準偏差を使った検定統計量)を記録した後、また母体に戻して、また25個取り出して記録する。その作業を延々と繰り返した場合、理論的には上の曲線(自由度24のt分布)の様に分布するのです。
ちなみに、上の図をよく見てもらえば分かりますが、赤く色塗られた部分は、境界線が先程計算したt=0.532137で、それよりもtの値が大きい部分です。
実はこの赤く塗られた部分は当然面積なんですが、確率密度関数に於いて面積は確率を意味します。つまり言い換えると、赤い面積はtの値が0.532137以上の値をとる確率と言う意味です。
では何故tが0.532137以上になる確率を求めるのでしょうか?
今、阪神ダート1,800Mでの現役BT産駒が勝った場合の平均オッズは有効ケース数25で6.7倍でした。一方、帰無仮説の要請はオッズのモデル分布の母平均μが最大で5.9倍という事です。母平均μはハッキリとは分からない値でしたが、5.9倍以下の値だったら何でもイイわけです。
ところで、検定統計量tは基本的には標本平均と想定された母平均μとの差に比例するので、母平均μが小さくなればなるほど検定統計量tの値は大きくなります。その境界線以上のtになる確率を全て足し合わせたモノが小さければ小さいほど、帰無仮説は確率的に見てあり得ない仮定である⇒対立仮説が確率的に見て正しい、と言った論法を展開できるワケです(つまり、帰無仮説が正しい、と言った前提で、1回目に取られた標本以上のtが得られる事が極めて稀な現象であると証明したいのです)。
以上の論法を踏まえて、赤い面積の確率を、統計的仮説検定では特に有意確率(またはP値、P-value、確率値等)と呼びます。
では有意確率がどれ程小さければ帰無仮説が確率的に間違ってる⇒対立仮説が確率的には正しい、と言えるのでしょうか?残念ながら統計学的な基準はありません。ただし、本当だったら、仮説を立てる一番最初の段階で主観的にこの「小ささ」を適当に決めておかなければならないんですが、ここでは一般的に良く使われる5%を用います。*5つまり、有意確率が5%より小さかったら、帰無仮説を
「確率的には間違ってる(可能性が高い)」
とし(これを専門的には帰無仮説を棄却すると言います)、対立仮説を
確率的(正確には95%)に正しい
とします(これを専門的には対立仮説を採択すると言います)。
ちなみに個人主観で決めたこの「小ささ」(閾値)を有意水準(または危険率、棄却域等)と呼びます。一回この有意水準を視覚的に確認してみましょう。
赤い面積(有意確率)と青い面積(有意水準)を比べてみたら明らかに有意確率の方がデカそうですね(笑)。何か悪い予感がしますが(笑)、有意確率と有意水準を重ね合わせてみましょう。
これで明らかに有意確率は有意水準より大きい事が分かります。
(ちなみにこの例での有意確率は計算上、29%程です)
これでは帰無仮説(母平均μは5.9以下である)は棄却出来ません。つまり、対立仮説の正当性を証明する事には失敗したワケです。
故に結論としてはこうなります。
阪神ダート1,800M戦でのBT産駒が勝った時の単勝オッズのモデル分布の母平均μは 5.9より大きいとは言えない
専門的には、「統計的に有意ではない」等と言った言い方をするんですが、要するに帰無仮説を棄却できる根拠は見つけられなかった、と言った意味になります(決して帰無仮説が正しい、と言った意味ではありません)。*6
もっと砕けた言い方をすると、次のようになります。
03.1.5〜05.12.25の範囲の阪神ダート1,800M戦に於いて、現役のブライアンズタイム 産駒の単勝馬券を買い続けて、的中率が17.0%だとしたら、回収率が100%を超えた のは”たまたま”偶然である可能性が高い
大変残念な結果なんですが、これが統計的仮説検定に拠る結論です。よってこのデータを信用して、今後、阪神ダート1,800M戦で現役のブライアンズタイム産駒の単勝馬券に賭け続けるのはリスキーである、と言った判断をした方が賢明でしょう。何故なら、その的中馬券の単勝オッズの母平均が、過去のデータを見ても回収率が100%を超えるような分布のモノであるのかどうか全く分からないからです。
以上が統計的仮説検定の基本的な考え方です。ちょっとややこしく感じるかもしれませんが、統計的仮説検定の考え方を説明するにあたり、なるべく分かり易く、また馬券購入者が一番興味がありそうな話題に限定して論を展開したつもりです。
>統計ソフトにデータを入力するだけで理論はそっちのけだったような…。
僕は基本的にはそれでいいと思ってるんですよね(笑)。
統計のメンド臭いトコは、
この3つが理論と実践の間のギャップなんです。よってマニアック化してしまう。
その点競馬はイイですよ(笑)。望まなくても10万単位のデータが手に入りますし(笑)。
Excelで見よう見まねでやってるうちに、自然と身に付く技術なんじゃないかなあ、とワリとその辺りは楽観的に考えているんですよね(笑)。-- 亀田? 2006-06-30 (金) 23:08:33
競馬@Wikiへ戻る