ブラックベルトの資料室
HomeBlog Link Information E-mail、連絡
データを分析する
重回帰分析―現象は説明できるのか!?

 ある目的因子Yに対して、複数のXがあり、それらの間に説明ができる程度の確かさがあるのか?
ブラックベルト(に関わらず)が直面する分析の一つです。その際の分析の手順は-
  1. 視覚化
  2. 重回帰分析
です。統計ソフトMinitab、表計算ソフトエクセル、そして、フリーのデータマイニングソフトwekaを使用して、この分析を行います。このページはMinitab ver14を使用しています

Back

フリーのデータマイニングソフト、[wekaでの重回帰分析] を見てみましょう。
[エクセルでの重回帰分析] はこちらです。



Minitab(ミニタブ)で重回帰分析

統計ソフト Minitabを使用する。

0.目的を確認する。

まず、以下が分析に使用するデータです。目的因子である「Y寸法」に対して、A寸法、B度などの説明因子があります。

この分析のデータはこちらです(CSV)。

多くの方が考えることですが、チームとしては、ある因子をこう設定すれば、Yがこうなる、といった制御系(!?)の因子、またY自体のバラツキを小さくする因子、これらの寄与率が高い因子を探し出し、改善したいと考えています。ここでは、統計ソフトMinitabを用いた重回帰分析により、それを試みましょう。

画面トップへ戻る


1.視覚化

視覚化は、Minitabでは、行列図を利用します。
[グラフ]→[行列散布図]→[単純]で以下の画面を呼び出し、グラフの変数を入力(選択)します。

Minitab(ミニタブ)で重回帰分析1


ここで、OKをすると、以下のような図が描画されます。

Minitab(ミニタブ)で重回帰分析2

図の赤い四角を見ると、Y寸法に対して、B度が相関関係のようであり(今の段階では)、C量とは、ある値のところでY寸法も集中する(値の分散の仕方が×の形なので少し厄介かも)といったことが図からうかがえます。


この作業は非常に大切です!


どのような場合も第一には図で確認です。
一般的に言われる交互作用や多重共線性*はこのようなグラフ化により発見されることが多く、直感的に発見しやすいとこも特徴です。

*多重共線性について
http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/mreg6.html
http://blogs.yahoo.co.jp/pironotakarabako/1048887.html

画面トップへ戻る



さて、次に進みましょう。


2.重回帰分析

下の図は、データをMinitabへ貼り付けた段階のものです。


Minitab(ミニタブ)で重回帰分析3



[統計]→[回帰]→[回帰]で入力画面を呼び出し、以下のように設定し、OK。

Minitab(ミニタブ)で重回帰分析4


すると、シートには以下の分析結果が出力されます。

Minitab(ミニタブ)で重回帰分析5

回帰式は、一番上に示されています。

画面上の小さな四角で囲っている部分は、B度に関するP-値で、有意水準を5%とすると、P-値が0.050以下なのは、B度だけであり、有意と言えます。

また、説明因子が単一であった場合と同じように、P-値で判断し、また、シート上にあるR(二乗)で回帰具合を確認することができます。

大きな四角で囲っている部分は、計算された逐次平方和で、この値をパレートチャートで描画し、その効果を視覚化します。

Minitab(ミニタブ)で重回帰分析6


これにより、どのような因子により、どの程度Y寸法を制御できるのか?の疑問に答える事ができます。この例では、ほとんど”B度”ですね。


以上のように、エクセルでの例と同じように、Y寸法を制御できる因子は”B度”であることがわかりましたが、バラツキに関しては、どうでしょうか?



バラツキについては、各因子の相対効果を求めます。
*これ、ほんとに研修で習います。

[統計]→[分散分析]→[一元配置]で以下の画面を呼び出し、”応答”はY寸法、”因子”にA寸法、でOK。

Minitab(ミニタブ)でANOVA1



すると、以下の結果が示される。

Minitab(ミニタブ)でANOVA2



このなかで、赤の四角で囲んだ部分(SS:平方和)について、以下の計算を行なう。
0.2658/0.6278=0.4234
つまり、分析した因子のなかでは、相対効果が42.3%(R二乗で計算されていますが・・)、ということで、これを、じみ~ちに全部の説明因子で確認するわけなのです。そしてその値をパレートチャートに描画すると以下のようになります。


Minitab(ミニタブ)でANOVA3









で、「全体のバラツキの57%を”B度”と”C量”で占めています」とするのです。

B度はY寸法と相関があることから、B度でY寸法を制御しつつ、C量でバラツキを抑制する、といったところが分析の結果から得られる方向性です。そう、方向性、次のより詳細な研究、実験などをサポートする方向性が示されたわけです。


と、ここまでで:
「なんだ、そもそもチームに素人はいないんだから、最初の行列図でなんとなくわかるじゃない?」

少しの分析で”くさい因子”がわかれば・・・いや、いちいちの分析をプレゼンテーションするわけではないので、最後の結果だけがわかれば問題ないですよね。


まったく、その通りです!!


重回帰分析とは言っても、エクセルや統計ソフトで微妙にスキームが異なるようで、先ほど出てきた”多重共線性”などを発生している場合などのデータも結構あります。ならば、分析実行者の思いは、安全(それまでの経験を重視したデータの安全)であることでしょう(大きく間違えない)。

実は、そのようなケースでは、wekaでの分析が有効です。



フリーのデータマイニングソフト、[wekaでの重回帰分析] を見てみましょう。
[エクセルでの重回帰分析] はこちらです。

戻る

[総合目次 | 資料室TOP]


画面トップへ戻る
ブラックベルト資料室のコンテンツ

コンテンツの詳細
ブラックベルトの資料室トップへ
アクセストップ5








シックスシグマ
経営手法の一つ。シックスシグマのシグマは統計学上のσ(標準偏差)であり、6σ(シックスシグマ)とは、バラツキが極めて小さく、製品・サービスの欠陥の発生確率が3.4/100万回であることを意味し、問題解決論のフェーズによりプロジェクトを遂行する。

DMAIC
シックスシグマのプロセス―定義(Define)、測定(Measure)、分析(Analyze)、改善(Improve)及び管理(Control)―のそれぞれ頭文字をとり、DMAICモデルと呼ぶ。

COPQ
シックスシグマのプロジェクトを運営していく上で財務上の指標となるのは、COPQ(=Cost of Poor Quality)と呼ばれる欠陥により発生するコストの総称である。
[COPQ]

データマイニング
データマイニング(Data mining)とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術。DMと略して呼ばれる事もある。
[Wikipedia]
[データマイニング]
[weka入門] ->本サイト

回帰分析
最小二乗推定を使用して―
単回帰:1つの予測変数のみを持つモデルをあてはめる。
本ページの例のような:y=○○x+△△タイプ。
重回帰とは、xが複数のことで:
y=■x1+▲x2+●x3+□□


[他の用語はこちら]





関連書籍












Designed by…
本サイトで使用している素材は種々のサイトの素材を利用しています。
利用したサイトは、トップページの右下に記載していますので、ご参考ください。
ブラックベルトの資料室トップへ





E-mailはこちら *お問い合せはこちらからお願いします。返信は気長にお待ちください。

Home | Blog | Contents | Information | E-mail
Copyright (C) i-Library MOT テキスト製作委員会 since 2008.