-
課題提出
-
前回の課題の所で「剪定を行うことでより適切なモデルが作れるのではないか」と書いたので、ちょっとやってみた。
「R」でやるにはprune.treeを使う。
ポイントは、20,000件のデータで作った決定樹モデルを、検証用データ7,829件にもっとも適した形にするため、葉っぱや枝を刈り取ったということである。
何で刈り取る必要があるのかというと、最初に作った、20,000件のデータで作った決定樹モデルはその20,000件のデータには最も適当であっても、検証用データ7,829件に対しては最も適当だとは限らないからである。
結果は以下の通り。
1) root 20000 2517.00 0.14770
2) 単勝オッズ<94.5 5358 1261.00 0.37890
4) 単勝オッズ<35.5 1825 452.90 0.54300 *
5) 単勝オッズ>35.5 3533 733.40 0.29410 *
3) 単勝オッズ>94.5 14642 864.80 0.06304
6) 単勝オッズ<280.5 5002 559.60 0.12830
12) 単勝オッズ<149.5 1922 253.90 0.15660
24) 牡馬<0.5 659 71.04 0.12290 *
25) 牡馬>0.5 1263 181.70 0.17420 *
13) 単勝オッズ>149.5 3080 303.20 0.11070
26) 開催<4.5 2420 257.50 0.12110 *
27) 開催>4.5 660 44.51 0.07273 *
7) 単勝オッズ>280.5 9640 272.80 0.02915
14) 単勝オッズ<654.5 3731 193.70 0.05495 *
15) 単勝オッズ>654.5 5909 75.02 0.01286 *
随分すっきりしてしまったが…これに対する結果の検証は後日行いたい。(write '03/04/08)
ただ、この結果が正しいとすれば、
馬連を狙うなら、「単勝オッズ9.5〜14.9倍の牡馬を狙え」「第4回開催以前で単勝オッズ15〜28倍の馬を狙え」
ということになるのかなぁ…何で第4回開催以前なのかについては、第5回開催以降ということは冬場が多く馬場が荒れてしまうために実力勝負になりやすいから、という推測はできるが、実際そうなのかどうかは定かでない。
p.s. いきなり馬連は難しかったかも知れない…次回は単勝で考えてみたい
|