*** Quality Information Service ***
(for Manager, Staff & Scientist)
99/1 ホームページ掲載記事/ 梅木 信治 sumeki@t3.rim.or.jpURL http://homepage1.nifty.com/QCC/


*** BGM : ペール・ギュント第1組曲第1楽章(3:24)/グリーグ(1843-1907 ノルウェー) ***

*** 今月のテーマは  「 重回帰分析(その3): 変数選択法と多重共線性 」 です。***

下の写真は昨秋のオーストリア旅行中、デジタルビデオムービー(GR-DVL/Victor)の プログレッシブモードで撮ったものです。左は静止画(ヨーロッパで最も美しいと 言われている Alpbach村/Austria の風景)、右は動画からサンプリングしました。 (Innsbruck/Austria にある凱旋門のトップをズームアップした部分)



表やグラフはPDFファイルで添付します。PDFファイルをご覧になるためには Acrobat Readerが必要です。左側のアイコンをクリックすれば無料でダウンロードできます。

明けましておめでとうございます。本年もよろしくお願いいたします。
早くもアメリカのプロゴルフツアーがスタートしましたが、日本ではまだ2ヶ月ほど 先になります。緒戦が開始される前に日本プロゴルフ協会からPGAツアーガイドブック が発売されると思いますが、それに掲載される予定の1998年度獲得賞金ランキングと部門 別データが沖縄オープン終了後の12月15日に、日本プロゴルフ協会のホームページ JPGA home page (www.pgatour-j.cjn.or.jp)に掲載されました。それらをまとめて一覧表にしたものが PDFファイル jpga98.pdf です。
部門別データがすべて揃っているプレーヤーは122名いますが、トップ20を次に 示しました。(10位はウェストウッドですが、日本でのプレイが2試合のため部門別 データがないので解析の対象外としました。)
全員のデータをご覧になりたい方は上の PDFファイルをクリックして下さい。

*** 1998年JPGA賞金ランキング&部門別データ(トップ20)***
順位  氏 名  獲得賞金 優勝 平均ストローク 平均パット パーキープ率 パーオン率 パーブレイク率 イーグル数 バーディ数 試合数 ラウンド数
1 尾崎 将司 \179,627,400 3 69.20 1.76 88.28 69.11 23.37 3 342 24 82
2 B・ワッツ \132,014,990 2 69.72 1.78 88.47 70.48 19.65 4 233 22 67
3 田中 秀道 \103,941,437 3 70.46 1.77 85.47 69.34 21.10 7 388 30 104
4 B・ジョーブ \97,566,406 3 70.15 1.78 85.45 69.72 20.19 9 249 21 71
5 宮本 勝昌 \93,580,618 2 70.78 1.78 83.96 66.15 20.33 15 340 29 97
6 C・フランコ \92,569,038 2 69.63 1.77 87.70 70.58 21.68 12 226 20 61
7 丸山 茂樹 \86,422,421 1 70.04 1.76 85.75 70.44 22.65 7 311 25 78
8 F・ミノザ \74,102,769 1 70.13 1.77 86.25 67.95 20.19 5 293 23 82
9 横尾 要 \74,090,419 1 70.99 1.76 84.05 64.56 19.92 9 407 35 116
11 伊沢 利光 \63,295,563 1 71.43 1.78 82.56 64.14 19.58 6 350 33 101
12 鈴木 亨 \63,252,358 1 70.84 1.80 84.28 70.32 19.62 9 383 34 111
13 桑原 克典 \62,661,761 1 71.31 1.79 81.92 64.65 19.23 2 351 31 102
14 細川 和彦 \58,472,304 0 71.10 1.82 83.33 68.87 19.22 13 371 35 111
15 深堀 圭一郎 \56,220,182 1 70.88 1.80 84.75 67.27 17.81 5 322 31 102
16 飯合 肇 \54,866,597 1 70.88 1.76 84.24 66.91 20.35 5 332 26 92
17 尾崎 直道 \53,853,954 0 70.42 1.79 85.84 70.15 19.17 1 175 15 51
18 谷口 徹 \49,515,691 1 71.33 1.80 82.77 63.17 17.67 4 279 28 89
19 佐藤 信人 \48,045,128 1 71.54 1.80 82.86 63.81 17.94 9 330 34 105
20 E・エレラ \47,809,590 1 70.92 1.76 83.03 66.29 20.70 4 268 24 73
21 水巻 善典 \44,989,934 1 71.28 1.82 84.51 65.19 16.54 4 264 28 90
注)平均パット:1ホールあたりの平均パット数(パーオンホールのみ対象)
  パーオン率:パーオンする率(パー4での1オンなどを含む)
  パーキープ率:パーあるいはそれ以上の良いスコアを獲得する率
  パーブレーク率:バーディ、あるいはそれ以上の良いスコアを獲得する率

前回は 1991年度のデータを使って重回帰分析の ”さわり” を簡単に説明しましたが、 今回は新しいデータでその続きを行いたいと思います。内容がやや専門的になりますので、 結論を急ぐ方は飛ばし読みでも良いでしょう。私が今回強調したいのは従来はこのような 解析は専門スタッフでないと難しいとされていましたが、今やソフトはエクセルとマクロで 相当のことができるようになっている点です。後は使い方のノウハウをマスターすれば 戦力になる訳です。

今回は少し長いので終わりまで読んで下さらない方のために、結論を先に書いておきたいと 思います。
年間ツアーで賞金を多く稼ぐには積極的にバーディを狙い、ボギー を恐れないことである。 バーディの価値は1試合(4ラウンド、72ホール)あたり平均 2個増えたとして (その代わりボギーが2個増えても)同じトータルスコアならボギーを避けてパーキープ でプレイした場合よりも 年間で1.4倍の付加価値を生む。

*** 「 重回帰分析(その3): 変数選択法と多重共線性 」 (99/1/11) ***

実際に重回帰分析を行う際、初心者が戸惑うのは変数選択の方法だと思います。 通常は目的変数との相関係数が大きい説明変数を目安に、実際には最初の出力データを 見て分散比と呼ばれるF値の大きな変数を追加していくのですが、 途中で初めのうちは有意であった変数のF値が小さくなってしまい、有意とは言えない ケースが出てきて削除する必要が生ずることがあります。 そのために変数増減法と呼ばれる手法が使われるのですが、 残念ながら、エクセルのアドインソフトにも入っていません。そこで、ここでは VBAに よるマクロプログラム(日科技連の多変量解析研究会で芳賀敏郎先生が作成されたもの) を使用することにしました。

今回の解析目的と公知の事実を整理してみますと次のようになるかと思います。

1.「どの部門別データが良ければ獲得賞金が増えるか?」 について解析する。
2.常識的には平均ストローク数が少なければ上位入賞回数が多くなり、賞金も増えますが、
  必ずしも金額の大きい優勝や2位が約束されるわけではない。
3.プロの勝負は平均値の勝負ではないので、バラツキのデータがあると良いのですが、
  とりあえず公表されたデータを説明変数に選びます。
4.プレーヤーによって試合数が異なるので、1試合あたりの賞金額を対象とし、それらの分布を
  (解析精度が高くなる)正規分布に近づけるため、 対数変換をする。
5.したがって解析対象とする部門別データ(説明変数)は平均ストローク、平均パット数、
  パーキープ率、パーオン率、パーブレイク率の5つとする。

では始めましょう! 最初に獲得賞金額を試合数で割って、1試合あたりの賞金額を 算出し、それを大きい順に並べ替えた表を作りました。 PDFファイル jpga98a.pdf です。 その一部を次に示しました。

*** 1998年JPGA賞金ランキング(1試合あたり)&部門別データ(トップ20)***
順位  氏 名  獲得賞金 優勝 賞金/試合 対数賞金/試合 平均ストローク 平均パット パーキープ率 パーオン率 パーブレイク率 イーグル数 バーディ数 試合数 ラウンド数
  Player Money Win K\/G L-K\/G Stroke Put P-keep P-on P-brake Eagle Birdie Game  
1 尾崎 将司 179,627,400 3 7,484 3.874 69.20 1.76 88.28 69.11 23.37 3 342 24 82
2 B.ワッツ 132,014,990 2 6,001 3.778 69.72 1.78 88.47 70.48 19.65 4 233 22 67
4 B.ジョーブ 97,566,406 3 4,646 3.667 70.15 1.78 85.45 69.72 20.19 9 249 21 71
6 C.フランコ 92,569,038 2 4,628 3.665 69.63 1.77 87.70 70.58 21.68 12 226 20 61
17 尾崎 直道 53,853,954 0 3,590 3.555 70.42 1.79 85.84 70.15 19.17 1 175 15 51
3 田中 秀道 103,941,437 3 3,465 3.540 70.46 1.77 85.47 69.34 21.10 7 388 30 104
7 丸山 茂樹 86,422,421 1 3,457 3.539 70.04 1.76 85.75 70.44 22.65 7 311 25 78
5 宮本 勝昌 93,580,618 2 3,227 3.509 70.78 1.78 83.96 66.15 20.33 15 340 29 97
8 F.ミノザ 74,102,769 1 3,222 3.508 70.13 1.77 86.25 67.95 20.19 5 293 23 82
22 片山 晋呉 44,807,900 1 2,358 3.373 70.97 1.77 85.09 65.46 19.35 3 206 19 60
9 横尾 要 74,090,419 1 2,117 3.326 70.99 1.76 84.05 64.56 19.92 9 407 35 116
16 飯合 肇 54,866,597 1 2,110 3.324 70.88 1.76 84.24 66.91 20.35 5 332 26 92
13 桑原 克典 62,661,761 1 2,021 3.306 71.31 1.79 81.92 64.65 19.23 2 351 31 102
20 E.エレラ 47,809,590 1 1,992 3.299 70.92 1.76 83.03 66.29 20.70 4 268 24 73
11 伊沢 利光 63,295,563 1 1,918 3.283 71.43 1.78 82.56 64.14 19.58 6 350 33 101
12 鈴木 亨 63,252,358 1 1,860 3.270 70.84 1.80 84.28 70.32 19.62 9 383 34 111
15 深堀 圭一郎 56,220,182 1 1,814 3.259 70.88 1.80 84.75 67.27 17.81 5 322 31 102
18 谷口 徹 49,515,691 1 1,768 3.248 71.33 1.80 82.77 63.17 17.67 4 279 28 89
14 細川 和彦 58,472,304 0 1,671 3.223 71.10 1.82 83.33 68.87 19.22 13 371 35 111
28 T.ハミルトン 36,998,300 1 1,609 3.206 71.34 1.77 82.89 60.15 18.67 7 245 23 75


次に解析対象の6項目について基本統計量、相関係数、偏相関係数の計算結果を示します。

*** 基本統計量 ***
変数名 L-K\/G Stroke Put P-keep P-on P-brake
データ数 122 122 122 122 122 122
平均 2.801 71.79 1.81 82.06 63.74 17.05
標準偏差 0.436 0.93 0.03 2.75 3.91 2.27
最大値 3.874 74.25 1.88 88.47 73.02 23.37
最小値 1.934 69.20 1.76 73.12 51.11 11.64
範囲 1.940 5.05 0.12 15.35 21.91 11.73
尖度 -0.362 0.27 -0.22 0.16 0.79 -0.19
歪度 -0.077 0.21 0.49 -0.41 -0.48 0.09
変動係数 0.156 0.01 0.02 0.03 0.06 0.13

*** 相関係数行列 ***
  L-K\/G Stroke Put P-keep P-on P-brake
  L-K\/G 1.00          
  Stroke -0.93 1.00        
  Put -0.69 0.75 1.00      
  P-keep 0.83 -0.94 -0.65 1.00    
  P-on 0.76 -0.80 -0.34 0.78 1.00  
  P-brake 0.86 -0.86 -0.79 0.69 0.70 1.00

*** 偏相関係数行列 ***
  L-K\/G Stroke Put P-keep P-on P-brake
  L-K\/G -          
  Stroke -0.52 -        
  Put 0.20 0.16 -      
  P-keep -0.17 -0.80 -0.28 -    
  P-on -0.08 -0.09 0.76 0.36 -  
  P-brake 0.21 -0.41 -0.64 -0.66 0.58 -

相関係数行列を見て分かることは 平均パット数(Put)以外はどの変数も賞金額(L-K\/G)と 大きな相関があることでしょう。これはゴルフの知識がある人にとっては当然のことであり、 新しい発見は何もありません。それでは Stroke,P-keep,P-brake の3つの相互関係はどうでしょうか?これもそれぞれ関連が深いことは数値を見るまでもなく当然ですね。 ただ、P-keep と P-brake の関係は(相関係数が 0.69 ですから)それぞれの Stroke との 関係より弱いことがわかります。

相関係数の大きいもの同士を回帰式の中に取り込んでも ダブってしまうので、どちらかを外したほうが良いのですが、どちらを選べば良いのかに ついて明確に説明されている参考書はあまりないようです。この後すぐに出てくる芳賀 敏郎先生の重回帰分析のマクロにはトレランス(tol.)と言う項目があり、具体的な数値で 選択の判断ができますから、初心者にも使い易いのでお勧めです。このあたりがいわゆる 多重共線性の問題ですが、これについては最後にもう一度触れることにして先へ進みま しょう。


ではいよいよ今回の目玉である変数増減法による重回帰分析結果 を PDFファイル jpga98a-ma.pdf に示します。 ここでは最初と最後の結果のみを下記に示しましょう。

*** 初期出力 ***
    平方和 R^2 R*^2 R**^2 df sige
    23.004       121  0.436
               
    平方和 D(S) F b sig(b) tol.
 0 cons.  979.927  956.923  5033.380  2.801  0.039  
1 Stroke 3.115 -19.889 766.293 (-)   (1)
2 Put 11.965 -11.039 110.715 (-)   (1)
3 P-keep 7.223 -15.781 262.172 (+)   (1)
4 P-on 9.850 -13.154 160.254 (+)   (1)
5 P-brake 5.817 -17.187 354.554 (+)   (1)

*** 最終出力(変数選択の順:1,3,2,5 の順に増加後、1 を削除) ***
  削除 平方和 R^2 R*^2 R**^2 df sige
  Stroke   3.365   0.854    0.850  0.846   118  0.169
               
    平方和 D(S) F b sig(b) tol.
 0 cons. 3.833 0.468 16.420 -8.191 2.021  
1 Stroke 2.480 -0.885 41.760 (-)   (.029)
2 Put 3.452 0.087 3.055 1.609 0.921 0.356
3 P-keep 5.809 2.444 85.686 0.073 0.008 0.493
4 P-on 3.358 -0.007 0.254 (-)   (.143)
5 P-brake 6.296 2.931 102.788 0.120 0.012 0.326
               

結論を申し上げますと、賞金を稼ぐには P-brake つまりバーディを多く取ることが 先ず第一に重要であり、次いで P-keep すなわち、パーキープ率を高めること、言い換 えればボギーを減らすことが重要である。
ここまでのコメントなら当たり前のことであり、 「そんな事は初めから分かっているよ! 馬鹿にするな!」で終わりになってしまいます。

この解析で得られる情報はこれで終わりではありません。先ほどの表にある b の値を 見て下さい。これは偏回帰係数と言って比較する変数の単位が同じなら値の大きい方が それだけ効果が大きいことを意味します。つまり、 P-brake は 0.120 P-keep は 0.073 ですから、バーディの価値は単純に考えても 1.6倍位大きいことになります。 実際にはボギーを打たずに、バーディだけ稼ぐ技術があるプレーヤーはいませんから、 トータルのストローク数が同じでも(つまりプラスマイナス0でも)バーディを狙った 方が効率が良い事になります。これはシーズンを通しての話ですから、調子の良い時は 上位に入れるアンダーパーのスコアで上がり、がっちり賞金を稼ぎ、調子の悪い時は 予選落ちでも割り切る考え方の方が、いつも安全を見て平均したスコアでプレイするより 得策であることを意味します。ここまでくれば納得して頂けると思いますが、要は積極的 に攻撃するタイプのプレイヤーの方が有利だと言うことでしょう。 データから判断して今年上位で活躍するプレイヤーは若手では丸山、田中、宮本、横尾、 それに小山内あたりでしょうか。(もっとも宮本はアメリカツアーが主戦場ですが、)

先ほどストローク数が同じ場合の話をしましたが、これが前回にも触れましたが、偏相関 係数の概念です。具体的には P-brake と P-keep の相関係数は 0.69 ですが、偏相関係数 は -0.66 です。一般的にはバーディを多く取れる人は上手な 訳ですから、ボギーも少ないのですが、トータルスコアが同じ位の人同士で考えると、 バーディをより多く取る人はそれだけボギーも多い訳ですから、「パーブレイク率が高け ればパーキープ率は低くなる」訳で、つまり ”負” の関係にあることがお判りになるで しょう。まだ良く判りませんか?まあ、急ぐことはありません。(先日、前回の説明で 偏相関係数の話をしたことに対して、親しい若手のQCスタッフから「一般の方にはまだ レベルが高すぎますよ。」と指摘された位ですから、)

最後に多重共線性 についてもう一度説明して 終わりにします。
相関係数が1に近い変数同士は似たような動きをしますから、目的変数に対して 同じような変化を与えます。別の表現をとればそれぞれ好きなように変えることができ ません。つまり、片方は要らない訳です。そのために重回帰分析では変数選択の際、 重ならないように注意するのですが、トレランスとか VIF と呼ばれる値で判断するのが 良いと言われています。トレランスの場合は値が 0.1以下になったら要注意です。