支持率と勝率の関係とは?


クラメールの公式へ戻る
競馬@Wikiへ戻る

HRPTV5C氏による議題

合成オッズに絡み、一つ疑問なのは、各個人の持っている競馬知識
あるいは競馬観による主観的勝率と支持率による客観的勝率と単勝の場合を考えますと、
馬の真の勝率との関係をどのように捉えたら良いかという事です。 -- [[HRPTV5C]] &new{2006-07-13 (木) 12:25:35};

いくつか複数のご指摘があったようなんで、ちょっと整理しながら私見を述べたいと思います。
まずは、

>支持率による客観的勝率

との事ですが、取り合えずそれから調べて行きたいと思います。
具体的に言うと、単なる投票支持率と客観的確率(多分頻度論的確率の事でしょうか?)が何か相関関係があるのか?それから調べて行きたいと思います。
下の表はTARGET frontier JVで検索したオッズ区間と単勝率の関係を取り出したものです。データ元は2004〜2005年末、2年間のJRAで施行された全レースです。

内容1着数2着数3着数4着数5着数着外数総レース数勝率連対率複勝率単勝回収値複勝回収値
1.0〜 1.43721055220193860661.478.787.37991
1.5〜 1.961331716512157146141943.265.577.27385
2.0〜 2.91065689516353250632350530.45064.87481
3.0〜 3.9913740590385328979393523.242577982
4.0〜 4.96456415064173161104362917.835.449.47880
5.0〜 6.99459888467146322330645514.629.943.18580
7.0〜 9.9693845850789712320870979.821.733.68177
10.0〜14.961383893494190444878717716.627.48580
15.0〜19.9350491572641626386565455.312.821.69281
20.0〜29.9261442652732750567885153.18.315.97378
30.0〜49.92373915547208867798105862.25.911.28478
50.0〜99.9140279428645802112681356213.16.27173
100.0〜5514123541761919430208970.30.92.13549

正直、確かにTARGET frontier JVは便利なソフトではありますが、この辺りの「区間分け」に関してもお仕着せの検索しか出来ません。
ただし、利用者が多いので、追試が楽だろう、とのことで、まずはこの表を掲げてみました。そして、ホントはマズいんですが、このままオッズレンジ-勝率の散布図にしてみたいと思います。*1

オッズ-勝率散布図.jpg

一応TARGET frontier JVによる追試の為の利便性を優先して、こう言う形の散布図にしています。すなわち、x軸のオッズのプロットは各オッズレンジの中央値、y軸は勝率のプロットです。*2
この散布図を見る限り、次の事が考えられます。

  1. 勝率とオッズ(単純に言うと支持率の逆数)は関係がありそうだ
  2. ただし、線形関係(直線関係)ではない
  3. 従って、何らかの変数変換を施せば直線関係と見て相関の強さ(相関係数)を計る事が出来そうだ
  4. 一つの可能性はグラフからオッズと勝率は反比例の関係がある
  5. もう一つの可能性はグラフからオッズと勝率は何らかの指数関数の関係がある
  6. 最後の可能性はグラフからオッズと勝率は何らかの整関数の関係がある

多分こんなトコでしょう。
そこでまず、1つ目のケースから考えて行きたいと思います。

可能性:勝率とオッズは反比例の関係である⇔勝率と支持率は比例している

ではオッズ計算の近似式を利用した、支持率-勝率の散布図を見てみたいと思います。

支持率−勝率散布図.jpg

赤い方の直線は実際のデータのプロットです。
HRPTV5Cさんのサイトをチラッと見た限りですと、数量化I類の使い手のようだったんで、数学的詳細は省きますが、緑の直線はデータから求めた回帰直線をプロットしております。
赤い直線と緑の直線は微妙にズレてはいますが、確かに近似精度としては悪くなく、ほぼ両者の直線は一致していると見て構わないとは思います。
なお、緑の回帰式の内訳は、

線形モデル勝率は支持率に比例    
残差:最小値第1四分位数中央値第3四分位数最大値
 -1.2273-0.6210-0.25000.34821.5113
係数:推定値標準誤差t 値P値有意性
切片0.795820.311342.5560.0267*
支持率0.914290.0118876.9862×10^(-16)未満***
寄与率:0.9981 自由度調整済み寄与率:0.998 

一応計算結果によりますと、支持率をx%、勝率をy%とすると、

y=0.79582+0.91429x

の関係が見られるようです。かつ、係数、切片共に有意水準5%で有意です。
また、単回帰なので、寄与率*3を見ますが、その値も0.998と異常に高いです*4。よって、計算結果によると、

単勝支持率と勝率は極めて高い相関関係があると思われる

と結論づける事が出来るとは思います。

回帰診断の例

一応余興として回帰診断プロットを行ってみます。
一番メジャーな方法、残差プロット正規Q-Qプロットと言われるグラフを下に掲げておきます。

回帰診断.jpg

グラフ見る限りちょっと残差の正規性には問題があるようです。
もちろんTARGET frontier JVでの出力結果をそのまま使っての回帰ですので、精緻性と言う意味では依然問題が残っているかもしれません。が、取り合えず見る限りは

回帰直線の当て嵌め度・・・・・・◎
回帰直線の予測度・・・・・・?

と言う感じですね。なかなか勝率と支持率の直接的な関連(比例)性の保障と言うのも難しいように思います。

可能性:勝率とオッズは指数関数の関係である

次の可能性はオッズと勝率の関係が

p=Ae^{\lambda~\times~ODDS}

で表される、と言ったモデルです。
上記の式は対数変換すると、

\log~|~p~|~=~\log~|~Ae^{\lambda~\times~ODDS}~|~\\~=~\log~|~A~|~+~\log~|~e^{\lambda~\times~ODDS}~|~\\~=~\log~|~A~|~+~(~\lambda~\times~ODDS~)~\log~|~e~~|~\\~=~\log~|~A~|~+~~\lambda~\times~ODDS

となり、

y=\log|p|~\\~k=\log|A|

と置けば、これはまさしく直線の式、

y=k+\lambda~\times~ODDS

となり、線形回帰に持ち込めそうです。
では取りあえず対数をとった勝率が縦軸、オッズが横軸のグラフを見てみましょう。

オッズvs.勝率の対数.jpg

あんまりこれは見た目良くないですね。
では線形回帰の計算結果も見てみましょうか。

線形モデル勝率の対数はオッズに比例
残差:最小値第1四分位数中央値第3四分位数最大値
-0.8201-0.4703-0.01900.35761.0691
係数推定値標準誤差t値P値有意性
切片-1.5014660.209839-7.1551.86×10^(-05)***
オッズ-0.0461810.005571-8.2904.65×10^(-06)***
寄与率:0.862自由度調整済み寄与率:0.8495

上の計算結果によりますと、オッズをxとすると、

\log~|p|~=~-1.501466-0.046181x

となるようです。かつこの係数も有意水準5%で有意ですね。
上の式は要するに、単勝的中率pに関して、

p=0.2228033~\times~e^{-0.046181x}

と見てもいい、と言うことを表してはいます。
なお、寄与率も86.2%なので、これも当て嵌め具合から言うとそんなに悪い回帰式ではない、と言うことです。

回帰診断の例

ではまた回帰診断を行ってみたいと思います。

回帰診断.jpg

もう全然残差が規則的ですね。
これもあんまり残差の正規性と言った仮定には従ってないようです。

回帰直線の当て嵌め度・・・・・・▲
回帰直線の予測度・・・・・・?

可能性:勝率とオッズは何らかの整関数の関係である

最後の可能性はオッズと勝率の関係が

p=A~\times~ODDS^k

の関係に従っている、とするものです。
今度の関係は両辺対数を取ると、

\log~|p|=\log~|A~\times~ODDS^k|~\\~=~\log~|A|~+~\log~|ODDS^k|~\\=~\log~|A|~+~k~\times~\log~|ODDS|

ここで、

C~=~\log~|A|~\\~x~=~\log~|ODDS|~\\~y~=~\log~|p|

とすると、

y=C+kx

と言う線形回帰になります。
ではオッズの対数と勝率の対数の散布図を見てみます。

オッズの対数vs勝率の対数散布図.jpg

今回は幾分か見た目もいいですね。
では、線形回帰による計算結果も見てみましょう。

線形モデル勝率の対数はオッズの対数に比例
残差:最小値第1四分位数中央値第3四分位数最大値
-0.73472-0.107510.092680.158970.27038
係数:推定値標準誤差t値P値有意性
切片-0.118970.14797-0.8040.438
オッズの対数-1.076060.05595-19.2348.12e-10***
寄与率:0.9711自由度調整済み寄与率0.9685

計算結果から言うと、

\log~|p|~=~-0.11897-1.07606~\times~\log~|ODDS|

と言う回帰直線になるようです。
ただし、前出の二つの回帰式と違って、今回は切片に関して言うと有意水準5%で有意ではないです。しかしながら寄与率は97.11%と大変当て嵌まり具合はいいです。
上記の回帰式から概算できるのは、勝率とオッズの関係はオッズをxとすると、

p=0.8878344~\times~x^{-1.07606}

となるようです。

回帰診断の例

では最後の回帰診断を。

回帰診断.jpg

これも正規Q-Qプロットは悪くはないのですが、あんまり残差は正規性には従ってないようですね。

回帰直線の当て嵌め度・・・・・・○
回帰直線の予測度・・・・・・?

なかなか残差の正規性と言う仮定を満たすのは難しいようです。

医療統計の応用〜シグモイド関数を用いた議論

ここでちょっと目線を変えてみます。
医療統計と言って、医学研究で使われている統計の方法論があって、例えば禁煙と言うファクターと発ガン率等の相関関係等を研究して、シグモイド関数を用いて行う議論があります。
例えば、

一日での喫煙本数が増えれば増えるほど、発ガン率が高まる

と言うような事を調べる方法論です。
この文脈は

単勝オッズが低くなればなるほど、勝率が高くなる

と言うのと構造上は全く同じです。
そこで、医療統計で利用されているシグモイド関数を導入してみましょう。
ところで、シグモイド関数とは一般に、

f(x)=\frac{1}{1+e^{-x}}

で記述される関数で、この関数の概要は次のような曲線になる事が知られています。

シグモイド関数.jpg

これはある意味特徴的な関数で、値域が0≦f(x)≦1の範囲しか取りえません。そう言う数学的な性質を持っています。
ところで、確率pも0≦p≦1の範囲でしか値を持ちえません。そこで、シグモイド関数の数学的性質に着目して、シグモイド関数の値f(x)をあたかも確率として扱ってみないかと言った発想がでて来るわけです*5
そこで、

p=f(x)

としてみて、あとは変数xに対して適当な線形変換、例えば、

x=\beta_0~+~\beta_1~t

等とすれば、上記のシグモイド関数は

p=\frac{1}{1+e^{-(\beta_0~+~\beta_1~t)}}

と書き換える事が出来ます。 これをさらに書き換えると、

\log|\frac{p}{1-p}|=\beta_0~+~\beta_1~t

となり、

y=\log|\frac{p}{1-p}|

とすると、

y=\beta_0~+~\beta_1~t

と、やはり線形回帰の問題に帰着するわけです。
ここで、tをオッズとした散布図を見てみたいと思います。

シグモイド散布図.JPG

これは見た目が最低ですね。単純な最小二乗法がネックになっているのかもしれません*6
一応計算結果を見てみましょう。

線形モデルlog{勝率/(1-勝率)}はオッズに比例
残差:最小値第1四分位数中央値第3四分位数最大値
-0.9942-0.6083-0.12150.44801.7078
係数:推定値標準誤差t値P値有意水準
切片-1.1827860.289635-4.0840.00181**
オッズ-0.0507140.007689-6.5953.89e-05***
寄与率:0.7982自由度調整済み寄与率:0.7798

今までの例から言うと寄与率は最低ですね。ただし、これもこの回帰式の相関性を疑問視するだけの低さではありません*7
上記の計算結果を鑑みると、

\log|\frac{p}{1-p}|=-1.182786-0.050714\times~ODDS

となり、結果勝率pはオッズをtとすると、

p=\frac{1}{1+e^{1.182786+0.050714\times~t}}

と表現できるようです。

回帰診断の例

では回帰診断をやってみます。

回帰診断.JPG

やはり残差の正規性には問題があるようです。

回帰直線の当て嵌め度・・・・・・△
回帰直線の予測度・・・・・・?

ちなみにTARGET frontier JVでの区分けを利用せずに、元データ(2004〜2005年)をそのまま利用し、またもうちょっとマシな推定法を使った解析ですと、オッズをxとすれば勝率pは次のような式になるようです。

p=\frac{1}{1+e^{1.4752733+0.0394242x}}

例えば単勝オッズが2.1倍の単勝馬券ですと、計算上の的中率は

p=\frac{1}{1+e^{1.4752733+0.0394242\times2.1}}\\=~0.1739246\\=17.4%

ですし、単勝オッズが4.1倍の単勝馬券ですと、計算上の的中率は

p=\frac{1}{1+e^{1.4752733+0.0394242\times4.1}}\\=0.1628856\\=16.3%

となるようです。
投資競馬をちょっとでも齧った事があるお方なら、

「え?なんかおかしくない?2.1倍って単勝1番人気の平均オッズでしょ?どうしてそれが
17.4%くらいの的中率しかないの?35%近くないのは計算間違ってるんじゃない?」

等と思うかもしれませんが、実はこの計算は正しいんですよ(笑)。
と言うのも、この計算は単勝1番人気、と言う括りの計算ではなくって、あくまでオッズを連続量として捉えて計算した理論値なんです。
通常の計算ですと、単勝1番人気、と言った区分けの中で大まかにその中に含まれている母体数が違うオッズの個数を全てまとめて計算しています。ところが今回の場合は単にオッズと勝率の関係を見ただけです。つまり、2.1倍と2.0倍は全然違う集計のようになってるんですね。
実際、例えば2005年では、

オッズ1着総数
2.051426
2.135383

なんで、実は計算上の2.1倍の単勝馬券の的中率はむしろ高めに見積もられているんです。
ちょっとここでグラフをお見せしましょう。

シグモイド.JPG

赤い点は実際のデータ、つまり、的中した場合に1、的中しなかった場合に0と言った2値データとしてプロットされています。そして緑の曲線がシグモイド関数を使った理論的な的中率の推移曲線です。
かなり密度が濃い、つまりデータ*8が多いので概観しか分かりませんが、確かにオッズが大きくなればなるほど勝=1の密度が疎になっていってはいるようです。ただし、負け=0の密度は全体的にさほど変わりません。
そしてシグモイド関数を使うと、近似的に1の個数/(0の個数+1の個数)を勝率として扱いながら各オッズを連続量として計算しているのです。
つまり、シグモイド関数を使って行う議論ですと、

「オッズ(支持率)の逆数と的中率は確かに何らかの関係はある。オッズが下がるに
連れて的中率が上昇するのもほぼ間違いない。しかしながら支持率=客観的的中率
と言える程の根拠が無い」

となっちゃうんですね。
さて、色々な回帰式とそれによる結論をザーッと眺めてきた感じではあるんですが、 では一体どれが結論として正しいのでしょうか?

条件付確率と競馬への転用に関しての様々な問題点


統計学は主観からは逃げられない!

さて、ここまで色々な回帰式を用いて相関関係に付いて見てきました。
まず、ポイントとしては、

  • オッズないしは支持率は的中率と関係はありそうだ

と言う事は言えると思います。
しかしながら、ここが重要なんですが、

  • ではどの回帰式がオッズないしは支持率と的中率の関係式として正しいのか?

と言うのは答えようがないんです。
どう言う意味かと言うと、まず、モデルとなる回帰式の設定に於いてですが、実はここに挙げた回帰式はホンの一例でしかないんです。端的に言うと、

こちらが設定した回帰式の他にも数学的には無数の回帰式の存在の可能性がある。

と言う事実をまずは把握してなければならない、と言う事なんですね。
どれがより妥当な回帰式であるのか?と言った議論は可能かもしれません。実際様々な方法が提案されてはいます。しかしながら、

自分が提案した中での回帰式の中でよりどれが妥当か?

は議論できますが、かと言って

これが真実の回帰式である

とは決して言えないんです。
ポイントを整理すると、

  1. まず第1に、回帰式の説明変数の選択自体が原理的に個人の主観/好みであって、別の変数を選択したい、と言った考えを否定する根拠とはなり得ない。
  2. 変数選択の後に設定する回帰式のモデル自体無数の候補がある。直線回帰に乗らない可能性もたくさんあるので、色々な数学的性質の式の選択が可能。
  3. 相関関係とはあくまで相関であって、「関連性がある」と言う事を実は保障はしていない。ましてや「同じである」と言った議論は数学的にはできない。

となります。
これらは実は非常に重要な事で、実は統計学と言うのは原理的には客観性の保障でもなんでもないんですね。あくまで主観に付いての補完であり、しかも客観的証拠の提示と言うよりは、どちらかと言うと状況証拠の提出以外の何者でもないのです。統計学≠客観性なんです。
逆に言うと、統計学をもってして、××は真実であり科学的結論であるとは決して言えません。先立つのはむしろ自分が立てた仮説の方であり、その仮説に基づいて検証するのが統計学の役割なんです。
ちょっと分かりにくいかもしれないので、次の例を考えてみましょう。

  1. まず喫煙と肺ガンの関連性と言う仮説を立てる。
  2. 喫煙者と肺ガン発生率の関係を探る為に統計を取って調べる。
  3. 喫煙者と肺ガン発生率は高い相関関係がある事が分かった。

ここまでは良し、としましょう。
ではここで質問です。

では肺ガンの原因として考えられるのは喫煙だけである。

ちょっと考えてみれば、この結論は強引以外の何者でもない、って事が分かるでしょう。いくら、喫煙と肺ガン発生率との相関が高いから、と言ったところでそれがその他の原因を考慮しないでいい、って結論にはならないのは言うまでも無い事なんです。ほかの可能性もあってしかるべきでしょう。
このように、原因と結果と言う単純な因果関係は統計学では言及出来ないんです。あくまで一番大事なのは自分で立てた仮説なのであって、かつ、原理的には仮説を検証する統計学自体が仮説の体系である以上、主観を超える客観性は保障できません。
確かに統計学そのものは客観性を何とか保障出来ないか、と言った発想で歴史的に発展してきました。しかしながら、色々な数学的提案はなされて来てはいますが、理論的にはいまだその境地には達していません。そこでユーザーである僕らが気をつけなければならないのはともかく、

統計学を用いる際には、自分の仮説の状況証拠を探る為、という事を肝に銘じておく

という事です。これを頭の片隅でも置いておくべきでしょう。
上の支持率と的中率の因果関係に於いても同様です。上では「支持率は的中率の近似として扱える」と言った仮説の下で解析した例だったのですが、別にこの仮説を採用したくなかったらしなくたって全然構わないですし、それは別に「非科学的態度」ではないのです。
僕の個人的意見では・・・・・・「知った事か」と(笑)。だって、支持率=的中率ですと、予想を丸っきりしないで、オッズが一番低い馬券をいつでも狙え、って意味になるので、それは受け入れられません(笑)。しかもそれだと負けるのが初めから分かっていますし面白くないです(笑)。
当然これも僕の主観です(笑)。

条件付き確率

さて、今までは単純に馬の勝率=pとして記述して来たのですが、もうちょっと精緻な表現法を導入してみたいと思います。
一般にある馬の真の確率、例えば勝率だろうが連対率だろうが何でも構わないんですが、これを数学的には

P(\theta)

と記述するとしましょう。
では、上の方で議論していたpはこのP(θ)だったのか、と言うとこれが違うんです。
一般的に、ある条件に基づいてのθの推定値に付いてを次のように記述します。

P(\theta~|C)

これを、Cと言う条件に於いての条件付確率と呼びます。実は支持率を使った議論で表されるのは馬の支持率と言う条件に於いての勝率以上でも以下でもないのです。
普通、確率・統計学に関する初心者への簡単な導入としては、例えばコイン投げであるとか、サイコロの振る舞いに付いての至極簡単な例を用いてP(θ)としてその世界へ誘うんですが、ところが現実の議論一般で言うと、例えばこの例に従いますと、馬の真の勝率と言うのは丸っきり分からないと言っていいと思います。これは別に競馬に限った話だけではなくって、株の値動きに対する確率なり、喫煙に対する発ガン率にしても同様です。*9
原理的には競馬予想と言うのは、全て馬の勝率P(θ)の推定作業ではなくって、条件付確率P(θ|C)の推定作業なのです。
例えば、上の支持率に絡んだ例ですと、いわゆる単勝人気順別での勝率はあくまで、

P(θ|単勝人気順)

ですし、また、例えば血統予想なんかは、

P(θ|種牡馬)

です。もちろん、予想理論の優劣と言うのは存在はするでしょう。ただし、ここで言いたいのは、

P(θ|単勝人気順)≠P(θ)
P(θ|種牡馬)≠P(θ)

だという事です。また、P(θ|単勝人気順)が絶対正しいわけでもない、と言う事です。そして、実はP(θ|単勝人気順)も予想の一種でもあり、構造的にはP(θ|種牡馬)のロジックと全く変わらないんです。
ピンと来ないお方の為に、例えば次の例を考えてみます。
例えば、今問題を単純化して、馬Aと馬B2頭で競馬を行うとしましょう。

出走馬単勝人気血統適正
馬A単勝1番人気10%
馬B単勝2番人気90%

さて、どっちの馬を買うべきなのかここでは特に示唆はしませんが、単勝人気が気になる人は馬Aを買うでしょうし、血統適正を考える人だったら馬Bを買うと思います。
問題は馬Aが勝った場合、馬Bを買った人が

「ああ〜、やっぱ単勝1番人気が勝っちゃったよ〜。しょうがないよね。
単勝1番人気の勝率は高いんだから。」

とか嘆いちゃう問題に関して、です。
しかし、例えば全然別のレースで、

出走馬単勝人気血統適正
馬C単勝1番人気10%
馬D単勝2番人気90%

で今度は馬Cを購入して結果馬Dが勝っちゃった場合、

「まあ、単勝1番人気でも3回に2回は負けるからしょうがないよな。」

等と言うかもしれません。しかしながら、今回は血統適正で見た条件付確率が遥かに上回っていたのは事実なんです。
これは少々恣意的な例ですし、別に血統理論を擁護するのが目的では無いんですが、要は単に、

「単勝人気順別だけの勝率を絶対として考えている」

問題が一つ。それともう一つは、この例では神である僕が(笑)、血統適正90%と言った数値にしていたんですが、恐らくこの人は、単に

「血統適正に関しての条件付確率を知らなかっただけ。」

だったのでしょう。つまり彼には90%と言う厳然とした数値が見えなかっただけなのです。そして仮に血統適正があっても10回に1回は負けるわけです。
そして、大事なのは、あくまで例えば本命/穴と言う評価は単勝人気順にくっ付いてくる評価なだけであって、別に自分が扱い易く、それなりに実績のある予想法(思い込みでも構わないんですが)だったら、常に自分が採用している予想法で一番的中(条件付)確率が高い馬を選択すればいいだけなんで、逆に言うと、本命/穴って評価は邪魔以外の何物でもない、とは言えるでしょう。
もうちょっと補足すると、既出の回帰式も全て変数選択が任意だと言う話をしました。
すなわち、ある回帰式を成立させるのも、これもやはり条件付確率の範疇内にあり、正規分布を利用して定式化すると、

P(y_i|\beta_0,\beta_1,\sigma)=\frac{1}{\sqrt{2\pi~\sigma^2}}e^{-\frac{(y_i-\beta_0-\beta_1~x_i)^2}{2\sigma^2}}

と言う条件付き正規分布*10の話となります。やはり絶対基準ではないのですね。これは幾ら選択すべき変数を多くして、重回帰式や数量化I類に持ち込もうと基本は変わりません。と言うのも、風が吹けば桶屋が儲かるではないんですが、いくらどんなにとんでもない理由付けだとしても、全く回帰式の予測能力に関わっていない変数だと断言は出来ませんし、かつまた、世の中の全ての要因を競馬の予測式の中に組み入れるのは仮想では構いませんが実際には不可能です。なんせ世の中には予測の為の要因となり得る変数なんて無数にありますし(例:あの馬が負けるのはいつも女房の機嫌が悪い時だけだ、とか)、それを組み入れられないのは、統計理論の問題と言うより、数学的技巧の限界の場合が多々あるからです。
いずれにせよ、どんな精巧な回帰式を組んだとしても、それこそ条件付と言う枕詞は永久に外せないのです。

コメント

  • 議題として取り上げて頂き有難う御座います。この先の展開が楽しみです。 -- HRPTV5C? 2006-07-13 (木) 19:51:56

ありがとうございます。
ちょっと当初の予定になかった議題であると言う事と、週末のゴタゴタを挟んでなので、遅々の書き足し書き足しになるかもしれませんので、その辺りの了承宜しくお願いします。
また、Wikiシステムは常に工事中なのがウリですんで(笑)、何かツッコミ場所があったらバンバン突っ込んで書き足して下さい(笑)*11。またHRPTV5Cさん自身がサイトを見る限り数量化I類の利用者のようなんで、高度なツッコミによって思わぬ方向に議論が転ぶ可能性もあるかもしれません(笑)。
宜しくお願いします。 -- 亀田? 2006-07-14 (金) 03:22:49

  • 支持率と勝率の関係は、単勝はもちろんですが、馬連、3連複などでも強い相関が見られるようです。 -- HRPTV5C? 2006-07-17 (月) 11:23:56
  • オッズ,支持率、勝率に関してD,B,HAUSHの論文の評価はどうでしょうか -- HRPTV5C? 2006-07-21 (金) 08:57:56

>オッズ,支持率、勝率に関してD,B,HAUSHの論文の評価はどうでしょうか

そんな論文があるとは初耳ですね。 紹介して頂けますか? -- 亀田?2006-07-21 (金) 22:21:34

  • 名前を少し間違えましたHauschですね。リンクが上手くないといけないので、タイトルはEffciency of the market for Racetarck Bettingです。孫引きすればこの手の論文は多くあります。-- HRPTV5C? 2006-07-21 (金) 23:11:44

Effciency of the market for Racetarck Betting手に入れました。目を通してみますね。宿題です(笑)。
経済系の論文見るのはじめてかも。80年の論文とか書いてますからかなり古いんですね。
多分こう言うのってアメリカ人が書いたんでしょうけど、アメリカ人こう言うの好きですよね(笑)。原則的に「金儲けの話」に目が無い国民性なんで(笑)。
と同時に日本の、例えば統計学の研究なんて世界的貢献度なんて殆ど無いと思うんですが、一見するとバカバカしい、って思えるアイディアでも取りあえずやってみるヤマッ気の強いアメリカ人の研究者の研究成果をセコセコ輸入/翻訳/紹介だけしているのが日本の大学の実情のような気がしてなりません。
日本の研究者に必要なのは、大らかさとユーモアなんじゃないのか、とか部外者ながら思っていたりもします。直接関係ない話ですが(笑)。 -- 亀田?2006-07-22 (土) 0:20:34

  • オッズ(支持率)と勝率との関係は、今のところ効率的馬券市場が作り上げた擬似相関と個人的には考えています。 -- HRPTV5C? 2006-07-22 (土) 12:10:20
  • そういわれてみると支持率とオッズが関係するのはわかるんですが、支持率=的中率がほぼ同じなのはわからないですね。。。 -- ヒロ? 2006-07-22 (土) 19:20:00
  • 上記Haucshの論文をレビュウしている日本の大学の研究者のサイトNABENAVI..NETも参考にして下さい。 -- HRPTV5C? 2006-07-23 (日) 21:18:17

>HRPTV5Cさん

また有用なサイトをご紹介してくれてありがとうございます。

NABENAVI..NET

一つ気になるのは谷岡一郎氏の論法に偏りすぎかな・・・・・・?
僕も彼の本2冊程持っているんですが、正直言うと統計学的にはちょっと??な記述もあるのでこれを議題にするのは控えてたんですが・・・・・。
初めに言っておくと、谷岡氏ってのは統計学自体が専門の人ではないようなんですよ。そこで行われているのは良心的な統計学者が取るような「統計学は仮定である」と言うような記述ではなくって、「統計学は絶対の真理だ」的な記述だらけで正直抵抗を覚えました。そこには現在主流の標本理論に対する無邪気な信頼感があって、全体的に「他の立場の統計理論」に関しての知識が全く欠如しているように見えます(まあ、見えるだけかもしれませんがね)。
あと、ツマンナイ場所ですが、初歩的な統計技術に関する数学的にはトホホな間違いもあったりして、困りましたね。
まあ、ある種、学者が専門以外の分野に関して息抜きで書いた本以上でも以下でもないので、別にいいんですが、あんまりこうやって「ギャンブル数学に対しての啓蒙書」的な扱いになってたりすると正直戸惑ってしまいます。

  • 私も全く同感です。 -- HRPTV5C? 2006-07-26 (水) 12:53:51

クラメールの公式へ戻る
競馬@Wikiへ戻る


*1 ただし、これが普通の確率と何らかの変数のプロットに比べてまだ有効に見えるのは、オッズが1以下になる事が無く、従って理論上の勝率が100%を超える等と言うおかしな現象が起きない為です。本来はこうは上手くは行きません。
*2 重ねて申しておきますが、この手法は現在の統計分析でもあることはあるのですが、ポピュラーではありません。数理的な不都合(この例の場合、オッズを負の方向に延長して行くと、計算上、勝率が100%を超えてしまう)があるからです。ひとえにこの分析がそれなりに成り立つのは、オッズが1以下になる事がない、と言った制限がある為、です。
*3 直線の当て嵌まり割合。相関係数の二乗です。決定係数とも呼ばれます。
*4 つまり99.8%の確率で当て嵌まっている、と言う意味。
*5 ことわっておきますが、シグモイド関数自体が確率を表しているわけではありません。単に「数学的に外見がそっくりなので」確率として「見立ててみようじゃないか」と言うのが発想です。お間違いないように。
*6 ちなみにここではオーソドックスな直線回帰式推定法として最小二乗法を用いました。ただし、シグモイド関数を利用した回帰で、最小二乗法を用いるのは別に間違いではないのですが、かなり古い方法論であって、現在では別の推定技術(例えば重み付き最小二乗法等の繰り返し計算)が用いられます。そう言う意味ではシグモイド関数を用いた現在の直線回帰式推定法としてはオーソドックスな方法論ではありません。これも追試を最重要視したから、です。
*7 寄与率がいくらくらいであれば相関関係がある、と言う統計学的基準は残念ながら存在しません。が、あくまで習慣としては寄与率が50%以上あれば、まあまあ相関関係はあると見てよいだろうと言う判断になります。この辺りこそが、実は統計学の主観的な部分なのです。統計学を完全に客観性がある技法だとは言えないのです。
*8 この2年間で9万件以上のデータがあります!
*9 例えば医学の話で○○と言う化学物質が××に利く、なんて話が10年単位でコロコロ変わったりして、実は人体に有害でした、なんて話は良くある事です。これもある時点で思いついた変数を組み込んだ回帰式で良しとして、別の説明度が高い変数を適用していなかった、と言った話題に良く似ています。
*10 ただし、この場合の左辺のPは今までの議論とは違って、直接的中率を表しているわけではありません。これは回帰/数量化I類等の従属変数yが正規分布上どの数値をとった確率なのか、と言うような意味です。
*11 上の編集ボタンから編集画面に移動できます。