2002-5 QC&C Labo 梅木 信治

*** QCテクニック初級講座 *** 
これなら簡単,誰でも使えるSQC”(第11回)

重回帰分析の活用とその限界?
---プロゴルファー獲得賞金とゴルフスコア(その4)---


 今年のプロゴルフツアーはアメリカでも丸山選手やシニアでは青木選手が優勝したりして日本人も活躍していますが,国内では今まであまり目立たなかった久保谷健一選手が5月の3,4週と連続優勝を遂げて注目を浴びています.彼は昨年の記録を見ると,ドライビングディスタンスではベスト10に入っているものの,ほかでは目立った成績を残していません.テレビ中継を見ていると,ロングホールではピンそばに2オンできるパワーを示しており,今年はそれに正確さが加わって好成績につながっていると思われます.

 このところ3回連続で日本プロゴルフツアー2001の公式記録を対象に獲得賞金額(1試合当たり)と平均ストローク数パーブレーク率との関連などを散布図を使った
視覚的解説重回帰分析を利用した統計的な解析結果を示しました.得られた結論として,平均ストローク数が同じでもバーディやイーグルをより多く取れば年間獲得賞金額が増えることが分かりました.今回はそのバーディを取るために必要な具体的なプレーについて重回帰分析を使用して迫ってみたいと思います.また,得られた結論を第8回で解説した層別散布図と比較して,重回帰分析の盲点についても触れてみたいと思います.

 バーディを取るには「パーオン−1パット」ロングホールでの2オン−2パットが現実的なパターンでしょう.そのためには,ティーショットを正確に遠くへ飛ばし,セカンドショットでボールをできるだけピンに近いところへ落とす技術が必要になってきます.その後のパッティング技術が重要であることは論を待ちませんが,そのあたりを考慮しながらドライビングディスタンス,フェアウェイキープ率,平均パット数の3つの変数とパーブレーク率との関係を調べてみましょう.とりあえず,相関係数と偏相関係数を求めてから散布図を描いて,それぞれの関連性をチェックします.

1.変数間の相関係数と偏相関係数を求め,散布図を描く.

相関係数行列(Correlations Matrix)
Variable   Driving Dist.   Driving Accu.   Putting Ave.   Par Breakers
Driving Dist. 1.000
Driving Accu. -0.551 1.000
Putting Ave. -0.269 -0.002 1.000
Par Breakers 0.596 -0.073 -0.812 1.000

偏相関係数行列(Partial Correlations Matrix)
Variable   Driving Dist.   Driving Accu.   Putting Ave.   Par Breakers
Driving Dist. ?
Driving Accu. -0.663 ?
Putting Ave. 0.508 0.269 ?
Par Breakers 0.735 0.423 -0.849 ?

散布図一覧(Scatterplot Matrix)



Par Breakers(パーブレーク率)とPutting Ave.(平均パット数)の相関係数が−0.812 と大きな値を示しているのは当然としても,Driving Accu.(フェアウェイキープ率)との相関係数が 0 に近い値であることは予想外であり,ゴルフ固有の知見から考えてみてもこれが本質的な関係とは思えません.そこで登場するのが直感的には理解しにくい偏相関係数ですが,こちらは 0.423 と結構大きな値を示しています.偏相関係数については,前回も説明しましたが,ほかの変数を固定した場合の相関係数のことですから,今回の事例では Putting Ave. や Driving Dist.をある値に決めて考えると,Driving Accu. も Par Breakers に関係があることを示していると言えます.つまり,偏相関係数の方が重要なのであって,相関係数は見かけの姿を示しているに過ぎないのです.偏相関係数の概念をイメージで表すには,層別散布図が役に立ちますが,変数が4つ以上になると,その全体を視覚化することは非常に難しくなります. 
 これらのデータから,Par Breakers(パーブレーク率)Putting Ave.(平均パット数)Driving Dist.(ドライビングディスタンス),Driving Accu.(フェアウェイキープ率)の3つに依存しているらしいことが推測できますが,これを確認するために次の重回帰分析を行います.なお,データは第8回で添付した一覧表と同じものです.それから,解析ソフトは前回と同じJMPを使用しました.

2.重回帰分析のプログラムに変数を指定して実行する.

 
Par Breakers(パーブレーク率)目的変数(y)に指定し,残りの変数を説明変数(x)に指定して,ステップワイズ式の重回帰分析プログラムを実行します.ここでは細かいことは省略しますが,下記の表にあるように Putting Ave.(平均パット数),Driving Dist.(ドライビングディスタンス),Driving Accu.(フェアウェイキープ率)の3つとも有意となり,回帰式の中に取り込まれました.回帰式は次のような式になります.

Par Breakers=69.608−52.036*(Putting Ave.)
               +0.131*(Driving Dist.)
+0.106*(Driving Accu.)

例えば平均パット数が 1.75 で,ドライビングディスタンスが 280 ヤード,フェアウェイキープ率が 60%であれば,以下のようになります.
Par Breakers=69.608−52.036*1.75+0.131*280+0.106*6021.585(%)

Response: Par Breakers
Stepwise Regression Control
Prob to Enter 0.250
Prob to Leave 0.100
SSE DFE MSE RSquare RSquare Adj Cp AIC
94.954 116 0.8186 0.846 0.842 4 -20.09
Lock Entered Parameter Estimate nDF SS F Ratio Prob>F
X X Intercept 69.608 1 0.00 0.000 1.0000
_ X Driving Dist. 0.131 1 111.72 136.5 0.0000
_ X Driving Accu. 0.106 1 20.68 25.3 0.0000
_ X Putting Ave. -52.036 1 244.05 298.1 0.0000

Step History
Step Parameter Action Sig Prob Seq SS RSquare Cp p
1 Putting Ave. Entered 0.0000 405.1 0.659 140.6 2
2 Driving Dist. Entered 0.0000 94.4 0.812 27.3 3
3 Driving Accu. Entered 0.0000 26.7 0.846 4.0 4


3.重回帰分析の結果と層別散布図の比較

 今回得られた回帰式は3つの変数がそれぞれ独立に寄与し,その程度も偏回帰係数の値からも定量的に求めることができるのですが,第9回で説明した層別散布図の結果と比較してみると,必ずしも同じ結論とはいえません.もう一度その時の層別散布図を次に示しておきますが,パーブレーク率はドライビング飛距離が大きい場合にはフェアウェイキープ率が高いほど良くなりますが,飛距離が小さい場合にはフェアウェイキープ率にあまり依存しません.

 つまり,実験計画法でいう交互作用があるのですが,今回の重回帰分析法ではそれを検出できません.このあたりまで細かく解析するには通常の重回帰分析では不十分であり,皮肉なことですが,場合によっては層別散布図の方が情報量が多いと言えます.逆の言い方をするなら,重回帰分析を盲信すると場合によっては初歩的な解析でも得られる結論を見落とすこともあるので注意が必要であると言えます.


 今回の事例では,変数間の固有の知見があるので,それを前提に重回帰分析における変数選択を行うことができましたが,一般的には数多くある変数間の因果関係とか相関関係が不明である場合が多いと思います.そのようなケースで形式的に重回帰分析を行うと,得られた結果を有効に活用できないことが多くあります.それらの対策として変数間の関係をモデル化してから重回帰分析を行うグラフィカルモデリングと呼ぶ新しい手法が開発されています.それから,全体のデータ群を対象に解析するだけでなく,グループ化するなど工夫して解析すると,交互作用に相当する現象などもキャッチすることができるようになります.
パーブレーク率 by フェアウェイキープ率
(パラメーター:ドライビング飛距離)
パラメーター:
    飛距離(ヤード)


 赤色:250-269

 
緑色:270-279

 
紫色:280-300
フェアウェイキープ率 (%)
   それから,回帰式は予測にも使われますが,将来のことは不確定要因が絡んでくるので,あまり期待しないほうが賢明です.それよりも数多くある変数の中から重要な変数をピックアップできたことに対して価値を認める考え方が妥当であり,量的な利用よりも質的な活用にウェイトを置くのがより正しい判断であると私は思います.