99/1 ホームページ掲載記事/ 梅木 信治 sumeki@t3.rim.or.jpURL http://homepage1.nifty.com/QCC/
*** BGM : ペール・ギュント第1組曲第1楽章(3:24)/グリーグ(1843-1907 ノルウェー) ***
*** 今月のテーマは
「 重回帰分析(その3): 変数選択法と多重共線性 」 です。***
下の写真は昨秋のオーストリア旅行中、デジタルビデオムービー(GR-DVL/Victor)の
プログレッシブモードで撮ったものです。左は静止画(ヨーロッパで最も美しいと
言われている Alpbach村/Austria の風景)、右は動画からサンプリングしました。
(Innsbruck/Austria にある凱旋門のトップをズームアップした部分)


表やグラフはPDFファイルで添付します。PDFファイルをご覧になるためには Acrobat
Readerが必要です。左側のアイコンをクリックすれば無料でダウンロードできます。
明けましておめでとうございます。本年もよろしくお願いいたします。
早くもアメリカのプロゴルフツアーがスタートしましたが、日本ではまだ2ヶ月ほど
先になります。緒戦が開始される前に日本プロゴルフ協会からPGAツアーガイドブック
が発売されると思いますが、それに掲載される予定の1998年度獲得賞金ランキングと部門
別データが沖縄オープン終了後の12月15日に、日本プロゴルフ協会のホームページ
JPGA home page
(www.pgatour-j.cjn.or.jp)に掲載されました。それらをまとめて一覧表にしたものが
PDFファイル jpga98.pdf です。
部門別データがすべて揃っているプレーヤーは122名いますが、トップ20を次に
示しました。(10位はウェストウッドですが、日本でのプレイが2試合のため部門別
データがないので解析の対象外としました。)
全員のデータをご覧になりたい方は上の PDFファイルをクリックして下さい。
| 順位 | 氏 名 | 獲得賞金 | 優勝 | 平均ストローク | 平均パット | パーキープ率 | パーオン率 | パーブレイク率 | イーグル数 | バーディ数 | 試合数 | ラウンド数 |
| 1 | 尾崎 将司 | \179,627,400 | 3 | 69.20 | 1.76 | 88.28 | 69.11 | 23.37 | 3 | 342 | 24 | 82 |
| 2 | B・ワッツ | \132,014,990 | 2 | 69.72 | 1.78 | 88.47 | 70.48 | 19.65 | 4 | 233 | 22 | 67 |
| 3 | 田中 秀道 | \103,941,437 | 3 | 70.46 | 1.77 | 85.47 | 69.34 | 21.10 | 7 | 388 | 30 | 104 |
| 4 | B・ジョーブ | \97,566,406 | 3 | 70.15 | 1.78 | 85.45 | 69.72 | 20.19 | 9 | 249 | 21 | 71 |
| 5 | 宮本 勝昌 | \93,580,618 | 2 | 70.78 | 1.78 | 83.96 | 66.15 | 20.33 | 15 | 340 | 29 | 97 |
| 6 | C・フランコ | \92,569,038 | 2 | 69.63 | 1.77 | 87.70 | 70.58 | 21.68 | 12 | 226 | 20 | 61 |
| 7 | 丸山 茂樹 | \86,422,421 | 1 | 70.04 | 1.76 | 85.75 | 70.44 | 22.65 | 7 | 311 | 25 | 78 |
| 8 | F・ミノザ | \74,102,769 | 1 | 70.13 | 1.77 | 86.25 | 67.95 | 20.19 | 5 | 293 | 23 | 82 |
| 9 | 横尾 要 | \74,090,419 | 1 | 70.99 | 1.76 | 84.05 | 64.56 | 19.92 | 9 | 407 | 35 | 116 |
| 11 | 伊沢 利光 | \63,295,563 | 1 | 71.43 | 1.78 | 82.56 | 64.14 | 19.58 | 6 | 350 | 33 | 101 |
| 12 | 鈴木 亨 | \63,252,358 | 1 | 70.84 | 1.80 | 84.28 | 70.32 | 19.62 | 9 | 383 | 34 | 111 |
| 13 | 桑原 克典 | \62,661,761 | 1 | 71.31 | 1.79 | 81.92 | 64.65 | 19.23 | 2 | 351 | 31 | 102 |
| 14 | 細川 和彦 | \58,472,304 | 0 | 71.10 | 1.82 | 83.33 | 68.87 | 19.22 | 13 | 371 | 35 | 111 |
| 15 | 深堀 圭一郎 | \56,220,182 | 1 | 70.88 | 1.80 | 84.75 | 67.27 | 17.81 | 5 | 322 | 31 | 102 |
| 16 | 飯合 肇 | \54,866,597 | 1 | 70.88 | 1.76 | 84.24 | 66.91 | 20.35 | 5 | 332 | 26 | 92 |
| 17 | 尾崎 直道 | \53,853,954 | 0 | 70.42 | 1.79 | 85.84 | 70.15 | 19.17 | 1 | 175 | 15 | 51 |
| 18 | 谷口 徹 | \49,515,691 | 1 | 71.33 | 1.80 | 82.77 | 63.17 | 17.67 | 4 | 279 | 28 | 89 |
| 19 | 佐藤 信人 | \48,045,128 | 1 | 71.54 | 1.80 | 82.86 | 63.81 | 17.94 | 9 | 330 | 34 | 105 |
| 20 | E・エレラ | \47,809,590 | 1 | 70.92 | 1.76 | 83.03 | 66.29 | 20.70 | 4 | 268 | 24 | 73 |
| 21 | 水巻 善典 | \44,989,934 | 1 | 71.28 | 1.82 | 84.51 | 65.19 | 16.54 | 4 | 264 | 28 | 90 |
前回は 1991年度のデータを使って重回帰分析の ”さわり” を簡単に説明しましたが、 今回は新しいデータでその続きを行いたいと思います。内容がやや専門的になりますので、 結論を急ぐ方は飛ばし読みでも良いでしょう。私が今回強調したいのは従来はこのような 解析は専門スタッフでないと難しいとされていましたが、今やソフトはエクセルとマクロで 相当のことができるようになっている点です。後は使い方のノウハウをマスターすれば 戦力になる訳です。
今回は少し長いので終わりまで読んで下さらない方のために、結論を先に書いておきたいと
思います。
年間ツアーで賞金を多く稼ぐには積極的にバーディを狙い、ボギー
を恐れないことである。
バーディの価値は1試合(4ラウンド、72ホール)あたり平均 2個増えたとして
(その代わりボギーが2個増えても)同じトータルスコアならボギーを避けてパーキープ
でプレイした場合よりも
年間で1.4倍の付加価値を生む。
実際に重回帰分析を行う際、初心者が戸惑うのは変数選択の方法だと思います。 通常は目的変数との相関係数が大きい説明変数を目安に、実際には最初の出力データを 見て分散比と呼ばれるF値の大きな変数を追加していくのですが、 途中で初めのうちは有意であった変数のF値が小さくなってしまい、有意とは言えない ケースが出てきて削除する必要が生ずることがあります。 そのために変数増減法と呼ばれる手法が使われるのですが、 残念ながら、エクセルのアドインソフトにも入っていません。そこで、ここでは VBAに よるマクロプログラム(日科技連の多変量解析研究会で芳賀敏郎先生が作成されたもの) を使用することにしました。
今回の解析目的と公知の事実を整理してみますと次のようになるかと思います。
では始めましょう! 最初に獲得賞金額を試合数で割って、1試合あたりの賞金額を 算出し、それを大きい順に並べ替えた表を作りました。 PDFファイル jpga98a.pdf です。 その一部を次に示しました。
| 順位 | 氏 名 | 獲得賞金 | 優勝 | 賞金/試合 | 対数賞金/試合 | 平均ストローク | 平均パット | パーキープ率 | パーオン率 | パーブレイク率 | イーグル数 | バーディ数 | 試合数 | ラウンド数 |
| Player | Money | Win | K\/G | L-K\/G | Stroke | Put | P-keep | P-on | P-brake | Eagle | Birdie | Game | ||
| 1 | 尾崎 将司 | 179,627,400 | 3 | 7,484 | 3.874 | 69.20 | 1.76 | 88.28 | 69.11 | 23.37 | 3 | 342 | 24 | 82 |
| 2 | B.ワッツ | 132,014,990 | 2 | 6,001 | 3.778 | 69.72 | 1.78 | 88.47 | 70.48 | 19.65 | 4 | 233 | 22 | 67 |
| 4 | B.ジョーブ | 97,566,406 | 3 | 4,646 | 3.667 | 70.15 | 1.78 | 85.45 | 69.72 | 20.19 | 9 | 249 | 21 | 71 |
| 6 | C.フランコ | 92,569,038 | 2 | 4,628 | 3.665 | 69.63 | 1.77 | 87.70 | 70.58 | 21.68 | 12 | 226 | 20 | 61 |
| 17 | 尾崎 直道 | 53,853,954 | 0 | 3,590 | 3.555 | 70.42 | 1.79 | 85.84 | 70.15 | 19.17 | 1 | 175 | 15 | 51 |
| 3 | 田中 秀道 | 103,941,437 | 3 | 3,465 | 3.540 | 70.46 | 1.77 | 85.47 | 69.34 | 21.10 | 7 | 388 | 30 | 104 |
| 7 | 丸山 茂樹 | 86,422,421 | 1 | 3,457 | 3.539 | 70.04 | 1.76 | 85.75 | 70.44 | 22.65 | 7 | 311 | 25 | 78 |
| 5 | 宮本 勝昌 | 93,580,618 | 2 | 3,227 | 3.509 | 70.78 | 1.78 | 83.96 | 66.15 | 20.33 | 15 | 340 | 29 | 97 |
| 8 | F.ミノザ | 74,102,769 | 1 | 3,222 | 3.508 | 70.13 | 1.77 | 86.25 | 67.95 | 20.19 | 5 | 293 | 23 | 82 |
| 22 | 片山 晋呉 | 44,807,900 | 1 | 2,358 | 3.373 | 70.97 | 1.77 | 85.09 | 65.46 | 19.35 | 3 | 206 | 19 | 60 |
| 9 | 横尾 要 | 74,090,419 | 1 | 2,117 | 3.326 | 70.99 | 1.76 | 84.05 | 64.56 | 19.92 | 9 | 407 | 35 | 116 |
| 16 | 飯合 肇 | 54,866,597 | 1 | 2,110 | 3.324 | 70.88 | 1.76 | 84.24 | 66.91 | 20.35 | 5 | 332 | 26 | 92 |
| 13 | 桑原 克典 | 62,661,761 | 1 | 2,021 | 3.306 | 71.31 | 1.79 | 81.92 | 64.65 | 19.23 | 2 | 351 | 31 | 102 |
| 20 | E.エレラ | 47,809,590 | 1 | 1,992 | 3.299 | 70.92 | 1.76 | 83.03 | 66.29 | 20.70 | 4 | 268 | 24 | 73 |
| 11 | 伊沢 利光 | 63,295,563 | 1 | 1,918 | 3.283 | 71.43 | 1.78 | 82.56 | 64.14 | 19.58 | 6 | 350 | 33 | 101 |
| 12 | 鈴木 亨 | 63,252,358 | 1 | 1,860 | 3.270 | 70.84 | 1.80 | 84.28 | 70.32 | 19.62 | 9 | 383 | 34 | 111 |
| 15 | 深堀 圭一郎 | 56,220,182 | 1 | 1,814 | 3.259 | 70.88 | 1.80 | 84.75 | 67.27 | 17.81 | 5 | 322 | 31 | 102 |
| 18 | 谷口 徹 | 49,515,691 | 1 | 1,768 | 3.248 | 71.33 | 1.80 | 82.77 | 63.17 | 17.67 | 4 | 279 | 28 | 89 |
| 14 | 細川 和彦 | 58,472,304 | 0 | 1,671 | 3.223 | 71.10 | 1.82 | 83.33 | 68.87 | 19.22 | 13 | 371 | 35 | 111 |
| 28 | T.ハミルトン | 36,998,300 | 1 | 1,609 | 3.206 | 71.34 | 1.77 | 82.89 | 60.15 | 18.67 | 7 | 245 | 23 | 75 |
次に解析対象の6項目について基本統計量、相関係数、偏相関係数の計算結果を示します。
*** 基本統計量 ***
| 変数名 | L-K\/G | Stroke | Put | P-keep | P-on | P-brake |
| データ数 | 122 | 122 | 122 | 122 | 122 | 122 |
| 平均 | 2.801 | 71.79 | 1.81 | 82.06 | 63.74 | 17.05 |
| 標準偏差 | 0.436 | 0.93 | 0.03 | 2.75 | 3.91 | 2.27 |
| 最大値 | 3.874 | 74.25 | 1.88 | 88.47 | 73.02 | 23.37 |
| 最小値 | 1.934 | 69.20 | 1.76 | 73.12 | 51.11 | 11.64 |
| 範囲 | 1.940 | 5.05 | 0.12 | 15.35 | 21.91 | 11.73 |
| 尖度 | -0.362 | 0.27 | -0.22 | 0.16 | 0.79 | -0.19 |
| 歪度 | -0.077 | 0.21 | 0.49 | -0.41 | -0.48 | 0.09 |
| 変動係数 | 0.156 | 0.01 | 0.02 | 0.03 | 0.06 | 0.13 |
*** 相関係数行列 ***
| L-K\/G | Stroke | Put | P-keep | P-on | P-brake | |
| L-K\/G | 1.00 | |||||
| Stroke | -0.93 | 1.00 | ||||
| Put | -0.69 | 0.75 | 1.00 | |||
| P-keep | 0.83 | -0.94 | -0.65 | 1.00 | ||
| P-on | 0.76 | -0.80 | -0.34 | 0.78 | 1.00 | |
| P-brake | 0.86 | -0.86 | -0.79 | 0.69 | 0.70 | 1.00 |
*** 偏相関係数行列 ***
| L-K\/G | Stroke | Put | P-keep | P-on | P-brake | |
| L-K\/G | - | |||||
| Stroke | -0.52 | - | ||||
| Put | 0.20 | 0.16 | - | |||
| P-keep | -0.17 | -0.80 | -0.28 | - | ||
| P-on | -0.08 | -0.09 | 0.76 | 0.36 | - | |
| P-brake | 0.21 | -0.41 | -0.64 | -0.66 | 0.58 | - |
相関係数行列を見て分かることは 平均パット数(Put)以外はどの変数も賞金額(L-K\/G)と 大きな相関があることでしょう。これはゴルフの知識がある人にとっては当然のことであり、 新しい発見は何もありません。それでは Stroke,P-keep,P-brake の3つの相互関係はどうでしょうか?これもそれぞれ関連が深いことは数値を見るまでもなく当然ですね。 ただ、P-keep と P-brake の関係は(相関係数が 0.69 ですから)それぞれの Stroke との 関係より弱いことがわかります。
相関係数の大きいもの同士を回帰式の中に取り込んでも ダブってしまうので、どちらかを外したほうが良いのですが、どちらを選べば良いのかに ついて明確に説明されている参考書はあまりないようです。この後すぐに出てくる芳賀 敏郎先生の重回帰分析のマクロにはトレランス(tol.)と言う項目があり、具体的な数値で 選択の判断ができますから、初心者にも使い易いのでお勧めです。このあたりがいわゆる 多重共線性の問題ですが、これについては最後にもう一度触れることにして先へ進みま しょう。
ではいよいよ今回の目玉である変数増減法による重回帰分析結果 を PDFファイル jpga98a-ma.pdf に示します。 ここでは最初と最後の結果のみを下記に示しましょう。
*** 初期出力 ***
*** 最終出力(変数選択の順:1,3,2,5 の順に増加後、1 を削除) ***
結論を申し上げますと、賞金を稼ぐには P-brake つまりバーディを多く取ることが
先ず第一に重要であり、次いで P-keep すなわち、パーキープ率を高めること、言い換
えればボギーを減らすことが重要である。
この解析で得られる情報はこれで終わりではありません。先ほどの表にある b の値を
見て下さい。これは偏回帰係数と言って比較する変数の単位が同じなら値の大きい方が
それだけ効果が大きいことを意味します。つまり、 P-brake は 0.120 P-keep は 0.073
ですから、バーディの価値は単純に考えても 1.6倍位大きいことになります。
実際にはボギーを打たずに、バーディだけ稼ぐ技術があるプレーヤーはいませんから、
トータルのストローク数が同じでも(つまりプラスマイナス0でも)バーディを狙った
方が効率が良い事になります。これはシーズンを通しての話ですから、調子の良い時は
上位に入れるアンダーパーのスコアで上がり、がっちり賞金を稼ぎ、調子の悪い時は
予選落ちでも割り切る考え方の方が、いつも安全を見て平均したスコアでプレイするより
得策であることを意味します。ここまでくれば納得して頂けると思いますが、要は積極的
に攻撃するタイプのプレイヤーの方が有利だと言うことでしょう。
データから判断して今年上位で活躍するプレイヤーは
平方和
R^2
R*^2
R**^2
df
sige
23.004
121
0.436
平方和
D(S)
F
b
sig(b)
tol.
0
cons.
979.927
956.923
5033.380
2.801
0.039
1
Stroke
3.115
-19.889
766.293
(-)
(1)
2
Put
11.965
-11.039
110.715
(-)
(1)
3
P-keep
7.223
-15.781
262.172
(+)
(1)
4
P-on
9.850
-13.154
160.254
(+)
(1)
5
P-brake
5.817
-17.187
354.554
(+)
(1)
削除
平方和
R^2
R*^2
R**^2
df
sige
Stroke
3.365
0.854
0.850
0.846
118
0.169
平方和
D(S)
F
b
sig(b)
tol.
0
cons.
3.833
0.468
16.420
-8.191
2.021
1
Stroke
2.480
-0.885
41.760
(-)
(.029)
2
Put
3.452
0.087
3.055
1.609
0.921
0.356
3
P-keep
5.809
2.444
85.686
0.073
0.008
0.493
4
P-on
3.358
-0.007
0.254
(-)
(.143)
5
P-brake
6.296
2.931
102.788
0.120
0.012
0.326
ここまでのコメントなら当たり前のことであり、
「そんな事は初めから分かっているよ! 馬鹿にするな!」で終わりになってしまいます。