統計解析について


競馬@Wikiに戻る

統計解析の説明、と言うよりは備忘録です。

便利な関数

無限積分

\Gamma~(\alpha)~=~\int_0^{\infty}~x^{\alpha~-1}e^{-x}~dx

の解をαの関数と見てガンマ関数と呼びます。
ガンマ関数は次の2つの性質が良く知られています。

  • α>0に対して
    \Gamma~(\alpha~+1)~=~\alpha~\Gamma~(\alpha)
    が成り立つ。
  • αが正の整数の時は
    \Gamma~(n+1)~=~n!

ここで!は階乗記号と言い、

n!~=~n~\times~(n-1)~\times~(n-2)~\times~\dots~\times~2~\times~1

を表します。

様々な確率分布

離散型確率分布

ベルヌーイ試行

競馬予想で買った馬券のように、当たる/ハズれるというように結果が二通りしかない確率実験をベルヌーイ試行と呼びます。
つまり、僕らは自分の競馬予想による馬券の的中率をp、不的中率を1−pとするベルヌーイ試行を毎週毎週懲りずに行っているのですね(笑)。
なお、このベルヌーイ試行が下記の離散型確率分布の考え方の基盤となっています。

二項分布

前項のベルヌーイ試行に於いて、ではn回連続でベルヌーイ試行を行って、x回成功する確率はいくらか?
これに付いて言及したのが二項分布です。
基本的な考え方は次のようなものです。

例えば、的中率pの馬券術があるとして、この馬券術で4回レースを買うとします。
そうすると、的中回数0〜4回の全てのパターンは、不的中率をq=1−pとして下の表のようになります。

 的中レース    
的中回数1レース目2レース目3レース目4レース目確率
0回ハズれハズれハズれハズれq×q×q×q
1回当たりハズれハズれハズれp×q×q×q
1回ハズれ当たりハズれハズれq×p×q×q
1回ハズれハズれ当たりハズれq×q×p×q
1回ハズれハズれハズれ当たりq×q×q×p
2回当たり当たりハズれハズれp×p×q×q
2回当たりハズれ当たりハズれp×q×p×q
2回当たりハズれハズれ当たりp×q×q×p
2回ハズれ当たり当たりハズれq×p×p×q
2回ハズれ当たりハズれ当たりq×p×q×p
2回ハズれハズれ当たり当たりq×q×p×p
3回当たり当たり当たりハズれp×p×p×q
3回当たり当たりハズれ当たりp×p×q×p
3回当たりハズれ当たり当たりp×q×p×p
3回ハズれ当たり当たり当たりq×p×p×p
4回当たり当たり当たり当たりp×p×p×p

ここで表を良く見れば分かるんですが、確かに「当たった順番」によって設定すべき確率の式は変わりはしますが、数値的には、例えば1回当たるパターンですと、

p~\times~q~\times~q~\times~q~=q~\times~p~\times~q~\times~q~=q~\times~q~\times~p~\times~q~=q~\times~q~\times~q~\times~p

である事が分かるでしょう。つまり、「馬券がどのレースで的中するのか、その順番さえ問わなければ」4回のレースで1回当たる確率は、

\left(~\begin{array}{lcr}~4~\\~1~\end{array}~\right)~pq^3~=~4pq^3

となります。ただし、

\left(~\begin{array}{lcr}~4~\\~1~\end{array}~\right)~=\frac{4!}{3!1!}~=~\frac{4~\times~3~\times~2~\times~1}{(3~\times~2~\times~1)(1)}~=~4

と言う組み合わせとします。
これを一般化すると、n回ベルヌーイ試行を行ってx回的中する確率は、

p(x)~=~\left(~\begin{array}{lcr}~n~\\~x~\end{array}~\right)~p^x~q^{n-x}

と表現できて、この確率分布を二項分布と呼びます。
ただし、

\left(~\begin{array}{lcr}~n~\\~x~\end{array}~\right)~=~\frac{n!}{x!(n-x)!}~\\~=~\frac{n~\times~(n-1)~\times~(n-2)~\times~\dots~\times~3~\times~2~\times~1}{~\left{x~\times~(x-1)~\times~(x-2)~\times~\dots~\times~3~\times~2\times~1~\right}~\times~\left{(n-x)~\times~(n-x-1)~\times~(n-x-2)~\times~\dots~\times~3~\times~2~\times~1~\right}~}

とします。
この二項分布は馬券の的中率を論ずる際、もっとも重要な確率分布で、もしくは馬券の的中回数に対しても同様。それどころか、離散型確率分布としても代表的なものなだけではなく、全ての確率・統計理論に対してももっとも基本的で大事な確率分布です。
下に、的中率35%の馬券術で丸2日(24レース)馬券を買い続けた場合の二項分布の例をグラフとして掲げておきます。

二項分布.jpg

グラフを見れば分かりますが、2日間の試行で的中率35%の馬券術ですと、一番多い出現回数は8回です。そして、

8~\div~24~=33.3%

ですから、確かに的中率35%の馬券術ですと、3回に1回的中する確率が一番高い事が分かります。
ところが、ここが落とし穴なんですが、

「的中率35%の馬券術なら3回に1回は当たるよな」

と言う無邪気な信頼も同時にあまり根拠が無い、と言う事もこのグラフは示しているのです。
と言うのは計算してみれば分かりますが、確かに「3回に1回的中する」確率が一番高いです。ただし、その数値は2日単位で見るとたったの16.8%なのです。つまり、83.2%の確率で「平均通りに決着が付かない」と言う事も同時に意味しているのです。*1やはりここでも「平均は平均でしかない」と言うのを示唆しているのですね。

古典的な統計の教科書では必ずと言っていいほど、

「二項分布を正規分布で近似せよ」

と言ったトピックが出てくるのですが、現代のようにパソコンが普及している状況ですと、特に近似は行わない方がいいでしょう。
と言うのもまず一つはやっぱり「近似は近似でしかなく」、誤差の問題はなるべく回避した方がいい、と言うのが一つ。もう一つは「正規分布での近似」を行った為におかしな結論を導き出している競馬関連のサイト、または書籍が存在するからです。⇒二項分布の正規近似にまつわる話?参照
理論上の数学的な話はともかくとして、実用上の話ではいい加減「正規分布信仰」はよした方がいいと思っています。
「適切な理論展開を行うのには適切な確率分布を」がパソコンでは可能ですし、また、その手の「おかしな結論」を回避するには必要な考え方だと思います。

二項分布を使ってあるターゲット馬券の出現予測は可能か?⇒カウント法に付いての議論
Microsoft Excelでの二項分布のコマンド⇒Microsoft Excelのページへ


幾何分布

分割コロガシのページ

連続型確率分布

正規分布

データのバラツキ具合を表現した確率分布。
確率・統計理論上は最も基本的、かつ重要な連続型確率分布とされますが、実際はこのようにキレイに分布する事はまずないです。応用上ではその辺りに気をつけるといいでしょう。
競馬では、単勝人気順位内での的中オッズのバラツキや、競走馬の走破タイムの分布が比較的正規分布で上手に近似出来る範囲だと思います。
ただし、例えば、走破タイム等は、明らかに能力が劣りすぎた馬、または陣営に「回って来い」とだけ指示されたような馬もある程度の量で含まれる為、比較的片方の裾がやや厚めの傾向が見られる事に留意しましょう。
数式は母平均をμ、標準偏差をσとすると以下の通りです。

f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

統計学者もこの数式を一々書くのが紛らわしいのか、略記で平均μ、標準偏差σの正規分布を

N(\mu,~\sigma)

と書き表す事が多いです。
なお、平均μを0、標準偏差を1に変換したものを特に標準正規分布と呼びます。

f(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}

これは、

z=\frac{x-\mu}{\sigma}

と言う変換で導かれます。この変換をデータのStudent化と呼び、この変換量zを特にStudent化した標準化得点(または単に標準化得点)と呼びます。
大体のグラフの概要は以下のような釣鐘状になります。

正規分布.jpg

なお、実際にこの分布上の累積確率を求めるのは非常にめんどくさいので、通常は数表利用か、Microsoft Excelのような表計算ソフトで値を求めます。
Microsoft Excelのコマンド⇒Microsoft Excelのページへ

t分布

統計的仮説検定に於いて、最も利用頻度が多く、かつまた基本的な連続型確率分布です。t分布の名前の由来は発見者W.S.ゴセットのペンネーム、Studentの第2文字目のt、と言われています。
良く、統計の教科書では、n→∞の極限を取ると、正規分布となる、と言った書き方が成されていますが、これに付いては忘れて構わないでしょう。
と言うのも、数学的な

中心極限定理

を言いたいが為に、この余計な注釈を付けて初学者の混乱を招くのです。
これを読んだが為に、

「データを沢山集めれば正規分布になるんだったら、何でこんな所でt分布を使わなきゃ
ならないの?必要無いじゃん。」

と生徒に思われてしまうのです。全く数学的な「余計なヒトコト」以外何物でもありません。
実用的な意味ではt分布と正規分布は全然違うし、実用ではその手の数学的議論は役に立ちません。むしろ邪魔。そして、数学的な話はさておき、どう言うわけか

「t分布の意味」

を丁寧に説明した教科書はあまりありません。
「正規分布」は個々のデータのバラツキに言及した確率分布ですが、t分布は個々のデータのバラツキ自体に言及しているわけではありません。
そうではなくって

母平均μ、標準偏差σの正規分布を成す母集団から適当にサンプルを取り出した場合の
標本平均の分布に言及した確率分布

言い換えれば、

標本平均の分布

なんです。
つまり、t分布は生のデータそのものには何の関連もなく、標本平均と言った「まとめの量」に対して言及しています。あくまでデータそのものに対しては「間接的」な接し方しかしていないんですね。
さて、ここで、標本平均に対してもうちょっと考えてみると、

「適当にサンプル(標本)を取り出す」

と言うことは、それ自体がデータのバラツキを産み、標本平均も狂います。つまり、

「標本平均だけの確率分布を作り出すのは至極困難である」

と言うのは何となく分かるでしょう。
そこで、W.S.ゴセットが着目したのは、標本平均そのものを計る代わりに、

t=\frac{\bar{X}-\mu}{\frac{U}{\sqrt{n}}}

ただし、

\bar{X}~=~\frac{1}{n}~\sum_{k=1}^n~X_k~\\~U~=~\frac{1}{n-1}~\sum_{k=1}^n~(X_k~-~\bar{X})^2

と言った新しい数を作り出し、これを確率変数とする確率分布を発見したのです。
なお、こう言った新規に捏造された都合の良い数量を特に検定統計量と呼んだりします。
t分布はガンマ関数を用いれば、次のように定義されます。

f(t)=\frac{\Gamma~(~(n+1)/2~)~}{~\sqrt{n~\pi}~\Gamma~(n/2)}~(1+\frac{t^2}{n}~)^{~-(n+1)/2}

ただし

-\infty~<~t~<~\infty~\\~n~>~0

なお、nを特に自由度と呼びます。 下に自由度1〜12までのt分布のグラフを挙げておきます。

t分布.jpg

t分布も累積確率を計算するのが大変メンド臭いので、通常はやはり数表利用かMicrosoft Excel等の表計算ソフトを利用して計算します。

Microsoft Excelでのt分布のコマンド⇒Microsoft Excelのページへ
具体的なt分布の利用方法⇒回収期待値理論



*1 例えばTARGET frontier JVなんかで、ここ10年分のデータベースがあるとします。これから2日単位で適当に100組くらい抜き出してみると、理論的には“平均通りの決着が着いている2日間”はそのうち16〜17組くらいしか無いのです。