FC2ブログ

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

補足:『真の確率』について考える

[ごく当たり前の内容かもしれませんが許してください]

少し誤解を招きかねない箇所があったので,コメントしておく.

(1)「ちゃんと期待値の高い馬券を選んで購入していれば,高い回収率に落ち着く」というのは,あくまで,そういう人もいる,という意味である.もちろんその分低い回収率に落ち着く人もいるわけである.全体としてみればJRAは「絶対に」損をすることはない.オッズはJRAが損をしないように変動するのであって,オッズを変えてしまうぐらいに大量に馬券を購入してしまえば,せっかく期待値の高い馬券を買っていても,確定オッズを下げてしまう.

(2)『「18頭立ての三連単は4896通りだから,三連単の馬券が当たる確率は4896分の1だ」なんていう意見があるけれど,これはまったくもって嘘っぱちである。』
と書いたのだが,もちろん真の確率に照らし合わせれば,という意味である.オッズなどの情報も一切なしに,番号だけを無作為抽出した場合にはその馬券の当たる確率は,その当事者にとって当たる確率は4896分の1であるとも言える.しかし,これは「真の確率」が4896分の1だということを意味するわけではない.「全く情報がないので,全ての場合について同じ可能性があると仮定したもとで算出される確率が4896分の1」なのであって,期待値の高い馬券と低い馬券をより分けるという意味では全く意味がない.いうなれば,神様が振るサイコロの目が隠されているので,しょうがないから,全部に均等に別々の目が書いてあると思うことに他ならない。
スポンサーサイト

『真の確率』について考える(4)

だらだらと書いてきたが,では「真の確率」に近い確率はどのようにして出力すればよいのだろうか.

「センス」という答えはもちろんありえる.人には説明できない直感的なもので馬のよしあしを見抜き,確率を決定するという人もきっとある程度はいることだろう.

ぼくは,そうではなく,数字として指標化できるものを用いて,真の確率に近いものを客観的に数値化して得ることを目的としている.これによって,競馬の「予想の楽しさ」は半減させられてしまう反面(*),自動化・効率化・回収率の向上というメリットが得られてしまうのである.

この場合,われわれが見積もる確率は,それぞれのファクターに対して数値化されることになる.そのファクターは非常に多岐にわたる.まずはレースの特性として「馬場状態」「天候」「距離」「ダートor芝」などがあり,各馬の性質をあらわす数値(あるいは数値化できる量)としては「前レースの着順」「騎手の能力」「調教時のタイム」「単勝オッズ」「(数値化するのは若干難しい)血統」などなど非常に多くの要素がありえる.パソコンで確率予想をするときには,基本的にはこれらの要素の組み合わせから計算することになる.競馬新聞をみて,過去のレースの様子から勝つ馬を当てるという作業は,これを経験的にやっているといえるだろう.

ちまたには,確率的予想に関していくつかのコンピュータ指数があふれている.どのシステムが最もよいのかというのは多くの人が興味を持つところであろう.どの組み合わせが回収率を上げるのにいいのかをそれなりに客観的に評価することは可能なのであるが,そのためには「最大対数尤度理論」「情報量基準」という,結構数学的にハードな壁を乗り越えなくてはならない(**).そこで,「最大対数尤度理論」「情報量基準」を用いた評価の議論の前に,先にもチラッと述べたのであるが,まずはじめにごく簡単な「単勝の勝率=単勝の支持率」という仮定をおいてシステムを構築することにしよう.すぐあとに見るように,この仮定はあたかも真の確率を表しているかのごとく,よい近似となっていることが示される.


*ぼく自身は自分のシステムをよりよくすることを楽しんでやっている.ただ,純粋に「競馬を楽しむ」というよりは「数学として楽しい」ということであり,使う立場としてみれば「儲かるから楽しい」ということになる.もちろん,たまには競馬場に行って競馬新聞片手に馬の様子を見ながら馬券を買い,レースに興奮したりもする.これらは,当然のことながら,まったく別種の楽しみ方である。

**この理論を使うことの意味を簡単に述べておくと,「真の確率に近い確率モデルは,結果として得られているデータとより『合っている』べきである」「データが多くないときには,信用できるファクターの数も減らさねばならない」ということである.

『真の確率』について考える(2)

[もう少し「真の確率」について考えてみるために,2人の神様を登場させます]

業界によって用語の定義が違うようだが,ぼくの(本来の)専門である気象学では「確率論的」の反対語は「決定論的」という単語である.(哲学用語なんかだと,確率論的決定論という単語もあるのだが,これはここでいう「確率論的」と同じ意味である)

「決定論的」というのは厳密な因果律に結果が拘束されているという立場のことである.馬券を買うときでいうなら,「天皇賞ならウォッカが来る!!」というような考え方のことを指す.「決定論的な」世界では神様がすべてのことがらをいちいち指示して決めていることになり,神様から話が直接うかがえれば,1着2着3着全部を当てることができる.

「確率論的」というのは未来は確率的に決まっているのだという立場のことである.この場合「ウォッカが勝つ確率は40%である」のような考え方になり,勝つことも負けることもありえるが,もし地球のパラレルワールドがどこかにあるのなら,そこではまた違う結果になるかもしれないということである.「確率論的な」世界では神様がすべてのことがらをサイコロを振りながら決めていることになる.先ほどの項で述べたようなサイコロでたとえるなら,六面のうちウォッカと書かれたのは四面で,カンパニーと書かれた面が一面あり,残りの一面にスクリーンヒーローと書いてあるということを,すなわち「真の確率」を,知っている.しかし,実際にどの面がでるかは神様にもわからない.

世の中が「決定論的」にできているのか,それとも「確率論的」にできているのか,あるいはそのどちらでもないのか,ということはぼくにはわからない.けれども,競馬に関して言うと直観的には「確率論的」に決まっているような気がするのである.すなわち,ちょっとした「あや」で,結果ががらっと変わりうるようなそんな性質のものだと思えるのである.

『真の確率』について考える(1)

[長いことほっておいてすいません。少しずつ書いていこうとは思っているのですけれど]

よく人のブログなんかを見ていると「18頭立ての三連単は4896通りだから,三連単の馬券が当たる確率は4896分の1だ」なんていう意見があるけれど,これはまったくもって嘘っぱちである。

別の例を引き合いに出そう.もし,ふつうの立方体のサイコロに

5面が「1」
残りの1面が「2」

と書いてあったら,「1」のマス目が出る確率は2分の1になるだろうか?

どう考えたって、そうはならない。「1」のマス目が出る確率は6分の5で,「2」のマス目が出る確率が6分の1だ。

すなわち,場合の数が2通りであるからといって,確率は2分の1にはなるとは限らない.同様に,18頭立ての三連単が4896通りあるからといって,確率は4896分の1にはならない(少なくともなるとは限らない)のである.

この点は非常によく誤解される.高校数学でぼくもドツボにはまった.実際のところ,確率は場合の数とは本来関係がないものであると考えてもいいぐらいだと思う.そして,「真の確率」を前もって予測できることなどまずない.

待てよ??「真の確率」が予測できないって???
サイコロの「1」のマス目が出るのは,6分の5だと計算できたじゃないか???

実は,サイコロの場合には強力な仮定が間に挟まっている.それはどこかで聞き覚えのある「同様に確からしい」というやつだ.

つまり,サイコロの6面はどの面を向く確率も「同様に確からしい」。6つの面のどいつもこいつも,おんなじ確率ででやがるだろうぜと「仮定」した結果,それぞれの面がでる確率は6分の1となり,そのうち5個を占めている「1」のマス目は6分の5で出るだろうと計算されるわけだ.

重心がちょうどまんなかにあるコインでもおんなじことが言える.表面と裏面がでる確率が「同様に確からしい」ので,表・裏の面はそれぞれ2分の1の確率で出るといえるのだ。

Q. 「重心がちょうど真ん中にあるかどうか」を確かめていないコインだったら,表がでる確率はいくらであるか?
A. わかりようがない(過去の経験からこんぐらいっぽいというのは計算可能であるが,それはまた別の話)

要するに,ある事柄についておんなじ確率ででることが真理であるなら,「真の確率」が計算できることになるけれど,普通に考えたら,三連単の組み合わせ4896通りが全部まったくおんなじ確率で来るという仮定がまったくナンセンスである.だから,冒頭にのべたように「ある三連単の馬券が当たる確率は4896分の1だ」というのもナンセンス。

そう考えると,「真の確率」なんかあらかじめ計算できるほうがまれなのである。高校生の自分に会いに行って,そんなもん普通は計算できっこないんだぞって教えてあげたい。受験には役立たないけど。

(余談ですが,市販のサイコロを使うと、「5」のマス目が一番出る確率が高いそうです。昔、トリビアの泉でやってました。理由は各面で「目」が削られているため,重心が中心に一致しないから。それぞれの面が同じ確率で出るっていうのはあくまで確からしいっていう「仮定」に立脚してたからなんだっていうことがよくわかるエピソードです)

馬券を購入する基準:期待値、確率モデル

[基礎のカテゴリーに入れておきながら、若干奥深いものになってしまいました]

確率が計算できた場合、それにオッズをかけたものが期待値である(本当は期待値という単語自体はもっと一般的に用いられるのだけれど、このブログでは確率かけるオッズという意味合いを逸脱することはないだろう)。

「期待値」という名が記すとおり、これは、無限回の試行ののちに期待される値である。例えば、確率が0.2(=20%)だったら、オッズが5倍以上のときに期待値は1を超える。すなわち、買うことが推奨される。オッズが高くなれば高くなるほど、のちに詳述する通り期待値への収束の度合いは遅くなるが、期待値の基本的な理解としてはここまでで十分であろう。

ただ、期待値を馬券購入に応用するときのふたつの重大な問題点がある。ひとつは、ここまで「支持率=馬の単勝勝率」の仮定を使った確率の計算式について述べてきたが、実際にはこの仮定は残念ながら正しくない。もっと詳しく言えば、ある支持率の馬の例を集めてきた場合、その集団をまとめた性質としては大体「支持率=馬の単勝勝率」(あるいは「支持率に依存する関数=馬の単勝確率」)であるのだけれど、同じ支持率の馬であっても「真の単勝確率が高い馬」と「真の単勝確率が低い馬」がいて、その弁別にはまた一考を要するという問題だ。

もうひとつの問題は、単勝以外の馬券の確率計算に関するものである。さきに、単勝以外の馬券の確率の計算についてもその計算方法を述べてきたが、「支持率=単勝勝率」が真であったとしても、さきほどの計算式は実は「1着馬がいない場合の2着馬以降の到達の確率は、1着馬の得票を除いた票数に占める占有率に等しい」という強力な仮定を暗にしていたのであった。このように、ある値(この場合、単勝の勝率)をもとに未知の値(この場合、単勝以外の確率計算)を計算する何らかの仮定に基づいた計算式のことを統計モデル、あるいは単にモデルというが、容易に想像がつくようにこのような統計モデルは実は何通りもありえる。例えば、あとの項でみるように「各馬の到達タイムは、A秒±B秒(Bは馬に寄らず一定値)」という仮定をおいても確率は計算できるのである。大事なことは、複数の統計モデルがありえる中で、どの統計モデルが馬券の確率を予測する上で”よい”のかを評価する手法が別個に必要になるということである。

とどのつまり、下の話はわれわれは真の確率を知らないということに尽きる。もしわれわれが「真の確率」を知っているならば、真の期待値、すなわち、長期間平均での回収率が計算できるのだけれど、そういうことは競馬に八百長がない限りありえないと思ってよいだろう。回収率の高い馬券を選び出すためにできることは、真の確率に近いであろう確率を推定することと、よりもっともらしい統計モデルを選び出すことなのである。
プロフィール

jackfujii

Author:jackfujii
このブログへは作者自身、気が向いたときにしか訪れません。コメントへの返事は遅くなったりできなかったりするかもしれませんので、あらかじめご了承くださいませ。

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
FC2カウンター
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QRコード
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。