2002-4 QC&C Labo 梅木 信治


*** QCテクニック初級講座 *** 
これなら簡単,誰でも使えるSQC”(第10回)

層別散布図から重回帰分析へ!
---プロゴルファー獲得賞金とゴルフスコア(その3)---

   マスターズはタイガーウッズの圧勝に終わりました.アメリカ大リーグでは日本選手の活躍が定着しつつあります.ここ2回ほど日本プロゴルフツアー2001の公式記録を対象に獲得賞金額(1試合当たり)と平均ストローク数やパーブレーク率との関連などを散布図を使って示しました.今回は重回帰分析の手法でアプローチしてみたいと思います.

 本シリーズは「誰でも使えるSQC手法」の解説なので,率直に申し上げると,重回帰分析は少し荷が重過ぎます.数学に例えれば微積分みたいなもので理数系の方には必須科目ですが,文系の方は今までは敬遠されていた方が多かったのではありませんか? ところが最近は経済学や経営学の分野では必須科目になってきました.それは企業経営が複雑化してきたために,いろいろな経営指標を総合的に解析する際,重回帰分析や主成分分析を含めたいわゆる多変量解析法が必須の道具になってきたからなのです.

 今ではパソコンを使えば重回帰分析のプログラムは簡単に操作できるようになっていますので,結果だけを求めるのであれば少し勉強すれば誰でも一応の結果は得られます.ところが,変数間の因果関係についてはパソコンはそれらの情報を知らないので,ユーザーである人間が適切な判断をしないと誤った結論を出してしまう恐れがあります.そこで前回取り上げたモデルを重回帰分析の手法で解析したらどうなるかについて使用上の注意点も含めてこれから説明してみたいと思います.

 初めてこの記事をお読みになる方のために簡単に状況を説明しますと,昨年の日本プロゴルフツアーで選手が獲得した賞金額平均ストローク数パーブレーク率の関係を調べるために,前回は散布図を使って,次のように解説しました.


 獲得賞金額(1試合当たりの獲得賞金額を対数変換したもの)は平均ストローク数と強い負の相関関係にあるのは当然として,パーブレーク率(1ラウンド当たりのバーディ+イーグルの獲得率)も獲得賞金額に寄与しているようです.ただし,パーブレーク率が高ければ平均ストローク数も当然少なくなるので,見かけ上のことかも知れません.そこで今回はそれらと獲得賞金額との関係を同一のグラフ上で図示してみることにしました.とりあえず,次のグラフをご覧下さい.この図は横軸にパーブレーク率,縦軸に獲得賞金額の対数をとり,平均ストローク数の70台(70以上71未満)を
赤色,71台を緑色,72台を紫色の3段階に分けて表示したものです.

 
Log(Money/G) by Par Breakers
(パラメーター:平均ストローク数)
パラメーター:
    平均ストローク数


 赤色:70-70.99

 
緑色:71-71.99

 
紫色:72-72.99
パーブレーク率 (Par Breakers)
 
  皆さんは層別散布図という言葉を聞いたことがあると思います.ある2組のデータを国別とか男女別,クラス別などに分けて同じグラフ上に散布図を色分けして表示する手法です.これらの場合は,層別パラメーターが分類値なので,誰でも理解できると思います.

 今回のように3つとも連続した計量値の場合は,3次元グラフで表示する方法があります.もうひとつの方法はひとつの変数を見かけ上分類値のようにグルーピングして上図のように描いてみる方法です.上の図から分かることは,平均ストローク数がほぼ同じとみなせる場合でも,パーブレーク率が上がると獲得賞金額も高くなることを示しており,パーブレーク率が直接寄与していることを証拠付けていることになります.

 つまり,平均ストローク数が同じで,パーブレーク率が高いということは,たとえばバーディ数が増えた分ボギー数が増えている訳ですから,年間を通して考えた場合,試合毎にスコアにバラツキのあった方が有利ということになります.つまり,ボギーも出るが,バーディの取れる選手の方が上位に食い込む試合が増えるので,年間獲得賞金額が多くなることを示唆しています.別の表現をすれば,ボギーのリスクを犯してでも,バーディを多く取るにはどうプレーすればよいかが課題になります.

 それから,グラフ上の楕円の形ですが,細長ければ相関が強く,円に近ければ相関が弱いことを示していることはお分かりでしょう.


 ではこれから重回帰分析法で解析した結果を簡明に示します.なお,データは第8回で添付した一覧表と同じものです.それから,解析ソフトはJMPを使用しました.

1.変数間の相関係数と偏相関係数を求める

 相関係数はお分かりだと思います.これは二つの変数間の関係の強さを示す値で,直線上にすべてのプロットが乗れば1(または−1)であり最も強い関係であることを示し,プロットがバラバラであれば0で,無相関であることを示します.通常は0と±1の間の値を示します.変数が3つ以上ある場合には,それぞれの二つの組み合わせの相関係数が考えられるので,これらを一覧表にして示したものが相関係数行列です.これはパソコンで簡単に計算できます.

 偏相関係数とは特定の二つの相関係数を考えた場合,他の変数の影響を取り除いた場合の相関係数のことであり,今回のゴルフスコアの例で説明すれば,平均ストローク数が同じ場合を想定した時の獲得賞金額とパーブレーク率の相関係数を偏相関係数と呼びます.3つ以上の変数間の関係を調べる場合に重要な役割を果たします.これもパソコンで簡単に計算できます.以下に9個の変数についての相関行列と偏相関行列を示します.

相関係数行列(Correlations Matrix)

Variable Log
(MD/G)
Scoring
Ave.
Driving
Dist.
Driving
Accu.
Greens
in RP
Putting
 Ave.
Scram
bling
ParKeep
Ave.
Par
Breakers
Log(MD/G)   1.00 -0.93 0.41 0.16 0.66 -0.71 0.62 0.82 0.86
Scoring Ave. -0.93 1.00 -0.33 -0.27 -0.73 0.71 -0.70 -0.91 -0.85
Driving Dist. 0.41 -0.33 1.00 -0.55 0.38 -0.27 -0.12 0.15 0.60
Driving Accu. 0.16 -0.27 -0.55 1.00 0.28 0.00 0.43 0.42 -0.07
Greens in RP 0.66 -0.73 0.38 0.28 1.00 -0.21 0.30 0.73 0.60
Putting Ave. -0.71 0.71 -0.27 0.00 -0.21 1.00 -0.45 -0.53 -0.81
Scrambling 0.62 -0.70 -0.12 0.43 0.30 -0.45 1.00 0.84 0.38
ParKeep Ave. 0.82 -0.91 0.15 0.42 0.73 -0.53 0.84 1.00 0.64
Par Breakers 0.86 -0.85 0.60 -0.07 0.60 -0.81 0.38 0.64 1.00

偏相関係数行列(Partial Correlations Matrix)

Variable Log
(MD/G)
Scoring
Ave.
Driving
Dist.
Driving
Accu.
Greens
in RP
Putting
Ave.
Scram
bling
ParKeep
Ave.
Par
Breakers
Log(MD/G) ? -0.37 0.05 0.00 -0.09 0.07 -0.05 0.10 0.21
Scoring Ave. -0.37 ? -0.03 -0.14 -0.26 0.24 -0.24 -0.08 -0.23
Driving Dist. 0.05 -0.03 ? -0.54 -0.23 0.41 -0.30 0.27 0.47
Driving Accu. 0.00 -0.14 -0.54 ? 0.13 -0.02 0.02 -0.01 -0.12
Greens in RP -0.09 -0.26 -0.23 0.13 ? 0.84 -0.89 0.86 0.58
Putting Ave. 0.07 0.24 0.41 -0.02 0.84 ? 0.67 -0.66 -0.75
Scrambling -0.05 -0.24 -0.30 0.02 -0.89 0.67 ? 0.89 0.41
ParKeep Ave. 0.10 -0.08 0.27 -0.01 0.86 -0.66 0.89 ? -0.56
Par Breakers 0.21 -0.23 0.47 -0.12 0.58 -0.75 0.41 0.00 ?

これらのデータから,獲得賞金額{Log(MD/G)}は平均ストローク数(Scoring Average)とパーブレーク率(Par Breakers)に依存しているらしいことが推測できますが,これを確認するために次の重回帰分析を行います.

2.重回帰分析のプログラムに変数を指定して実行する.

 
獲得賞金額を目的変数(y)に指定し,残りの主な変数を説明変数(x)に指定して,ステップワイズ式の重回帰分析プログラムを実行します.ここでは細かいことは省略しますが,下記の表にあるように Scoring Ave. とPar Breakers が回帰式の中に取り込まれました.つまりこの二つの変数が獲得賞金額を左右することを意味しています.しかも全体の88%近くがこの二つの変数で決まります.回帰式は次のような式になります.
 
 Log(MD/G)=28.755−0.387*(Scoring Ave.)+0.048*(Par Brakers)

例えば平均ストローク数が70で,パーブレーク率が22%であれば,
 Log(MD/G)=28.755−0.387*70+0.048*22=2.721 --> 526万円となります.

Response: Log(MD/G)
Stepwise Regression Control
Prob to Enter 0.250
Prob to Leave 0.100
SSE DFE MSE RSquare RSquare Adj Cp AIC
2.853 117 0.0244 0.881 0.879 0.329 -442.7
Lock Entered Parameter Estimate nDF SS F Ratio Prob>F
X X Intercept 28.755 1 0.000 0.000 1.0000
_ X Scoring Ave. -0.387 1 3.566 146.226 0.0000
_ _ Driving Dist. ? 1 0.018 0.754 0.3869
_ _ Driving Accu. ? 1 0.012 0.491 0.4851
_ _ Greens in RP ? 1 0.004 0.179 0.6728
_ _ Putting Ave. ? 1 0.000 0.012 0.9114
_ _ Scrambling ? 1 0.022 0.914 0.3410
_ _ ParKeep Ave. ? 1 0.024 0.995 0.3206
_ X Par Breakers 0.048 1 0.398 16.322 0.0001

Step History
Step Parameter Action Sig Prob Seq SS RSquare Cp p
1 Scoring Ave. Entered 0.0000 20.760 0.865 14.278 2
2 Par Breakers Entered 0.0001 0.398 0.881 0.329 3

 今回の事例では,二つの変数が有意となりましたが,一般的には3つも4つも有意となる場合があります.それらを取り込んだ回帰式を作ることができますが,一般に誤差も大きいので,回帰式そのものを信用するより,有意となった変数の意味をよく吟味して必要なアクション情報とするのがよいと思います.

 具体的には,今回の場合は平均ストローク数が獲得賞金額の鍵を握っていることは誰でも理解できるし,実力がつけばそれに比例して上位になる確率が高くなる訳だから,当然のことでしょう.2番目の変数であるパーブレーク率の寄与に関しては,バーディが増えれば平均ストローク数がその分下がるので当然賞金額は増えます.しかしここで意味していることは,バーディが増えた分ボギーが増えても(平均ストローク数は同じでも)賞金額が増えることを統計的に示しているのであり,そのようなプレーを心掛けた方が有利であるという情報が得られた点に意味があると解釈するのが妥当だと思います.

 では,肝心のバーディを多く取るにはどうすれば効果的なのかについて重回帰分析を行えばよいのですが,長くなりましたので次回に説明しましょう.常識的にはパット数を少なくすることと,ロングホールで2オンしやすいようにティーショットを飛ばしてドライビングディスタンスを稼ぐことなどが定性的には頭に浮かびますが,回帰式はどうなるのでしょうか? ご期待下さい!