競馬 with データマイニング(第1回の補習)
Click Here! Click Here!
課題提出
前回の課題の所で「剪定を行うことでより適切なモデルが作れるのではないか」と書いたので、ちょっとやってみた。
「R」でやるにはprune.treeを使う。
ポイントは、20,000件のデータで作った決定樹モデルを、検証用データ7,829件にもっとも適した形にするため、葉っぱや枝を刈り取ったということである。
何で刈り取る必要があるのかというと、最初に作った、20,000件のデータで作った決定樹モデルはその20,000件のデータには最も適当であっても、検証用データ7,829件に対しては最も適当だとは限らないからである。

結果は以下の通り。
 1) root 20000 2517.00 0.14770  
   2) 単勝オッズ<94.5 5358 1261.00 0.37890  
     4) 単勝オッズ<35.5 1825  452.90 0.54300 *
     5) 単勝オッズ>35.5 3533  733.40 0.29410 *
   3) 単勝オッズ>94.5 14642  864.80 0.06304  
     6) 単勝オッズ<280.5 5002  559.60 0.12830  
      12) 単勝オッズ<149.5 1922  253.90 0.15660  
        24) 牡馬<0.5 659   71.04 0.12290 *
        25) 牡馬>0.5 1263  181.70 0.17420 *
      13) 単勝オッズ>149.5 3080  303.20 0.11070  
        26) 開催<4.5 2420  257.50 0.12110 *
        27) 開催>4.5 660   44.51 0.07273 *
     7) 単勝オッズ>280.5 9640  272.80 0.02915  
      14) 単勝オッズ<654.5 3731  193.70 0.05495 *
      15) 単勝オッズ>654.5 5909   75.02 0.01286 *
随分すっきりしてしまったが…これに対する結果の検証は後日行いたい。(write '03/04/08)
ただ、この結果が正しいとすれば、

馬連を狙うなら、「単勝オッズ9.5〜14.9倍の牡馬を狙え」「第4回開催以前で単勝オッズ15〜28倍の馬を狙え」

ということになるのかなぁ…何で第4回開催以前なのかについては、第5回開催以降ということは冬場が多く馬場が荒れてしまうために実力勝負になりやすいから、という推測はできるが、実際そうなのかどうかは定かでない。

p.s. いきなり馬連は難しかったかも知れない…次回は単勝で考えてみたい


Topへ戻る
競馬 with データマイニングに戻る