第5回 エクセルでできる!ピープルアナリティクス超基本編③

2019.06.26 
1,578
第5回 エクセルでできる!ピープルアナリティクス超基本編③

みなさんこんにちは。このコラムでは「健康経営」というキーワードを中心に,人事関連の様々なトピックについて考えていきます。

この第5回シリーズでは、人事ご担当者さまからのご要望が多かった「ピープルアナリティクス」の超基本編をお届けしています。

第5回 エクセルでできる! ピープルアナリティクス超基本編①
第5回 エクセルでできる! ピープルアナリティクス超基本編②

今回のテーマは「相関分析」です。

相関分析は、2つの項目の関係性の強さがどの程度かを測定し、可視化する統計的手法です。既になじみのある読者の方もいらっしゃるかもしれませんね。

「散布図」を使って視覚的に表現することもできますし、計算することによって関係性を数値(相関係数)で表すこともできます。説明もしやすいので、非常に使い勝手の良い分析手法です。

この手法の便利なところは、2つの変数の組み合わせがあれば、基本的に何でも関係性を確認できてしまうところです。人事関連でパッと思いつくだけでも、データさえそろっていれば例えば以下のような組み合わせの関連性が分析できそうです。

◇新入社員の入社時SPIの成績と3年後の人事評価成績の関係性
◇全社員の従業員満足度と通勤距離の関係性
◇部門長の業績評価と当該部門の在籍者数の関係性
◇BMI(肥満度)と業績評価の関連性

みなさんのお手元にあるデータで分析できそうなものがあれば、試しにやってみても面白いかと思います。

それでは早速、サンプルデータを使ってエクセルで相関分析をやってみましょう。まずは「散布図」から始めましょう。これは極めて簡単で、エクセルのグラフの機能でできます。
(サンプルデータのダウンロードはこちら)

まず、分析したい2つの項目をあらかじめ範囲指定しておきます。下の図は、左側の「業績評価」と「(社会人基礎力の)主体性」を選択しています。あとは、「挿入」→「散布図」を選択するだけです。

シリーズ初回でお伝えしたとおり、サンプルデータはRAND関数でランダムに数値を入れていますので、散布図を作成すると上記のようなバラつきになります。関連性がないということが一目瞭然ですね。実際に意味のあるデータで散布図を出してみると、きちんと傾向が読み取れる散布図になります。

散布図のパターンとしては、ドットの配置が右肩上がりであれば「正の相関」、すなわち一方が増えるともう一方も増えるという関係性になります。また右肩下がりであれば「負の相関」、すなわち一方が増えるともう一方が減るという関係性になります。

相関関係のパターンは、この「右肩上がり」「右肩下がり」「バラバラで関連なし」の3パターンだけです。

では次に、相関関係を数値(=相関係数)で表してみましょう。こちらもエクセルで算出できます。まず、エクセルの「データ」→「データ分析」→「相関」を選択します。

「相関」を選択すると、次のような詳細設定のボックスが出てきます。相関分析を行う2つの項目を範囲指定して、「入力範囲」に反映させます。つまり、相関係数を算出する場合は2つの項目が隣に並ぶようにデータ表示を整理しておく必要があります。ここで、データが縦に並んでいる場合はデータ方向を「列」に、横に並んでいる場合はデータ方向を「行」に設定してください。また、縦データであれば上端(横であれば左端)に項目名がある場合、「先頭行をラベルとして使用」をチェックしておくとその項目名が出力結果にも反映されます。

例えば、「業績評価」と「主体性」の相関分析を行うと、出力結果は以下のようになります。ここで見るべきは「業績評価」と「主体性」がクロスするセルに表示されている「-0.07324」という数値です。この数値が「相関係数」になります。

この相関係数、よく見ると符号がマイナスになっています。これは先ほどの3つのパターンで言うと「負の相関」、すなわち散布図にすると右肩下がりになっていることを表しています。これだけで考えると、「主体性」の向上と「業績評価」の低下、あるいは「主体性」の低下と「業績評価」の向上の両方のパターンにおいて、相関関係がある可能性が示唆されます。

次に、数値自体の大きさです。一般的にはこの絶対値が「0.4」以上であれば「相関あり」、「0.7」以上であれば「強い相関あり」とされています。(注)その基準で考えると、先ほどの約-0.07という相関係数はいかがでしょうか。ほとんど相関がない、と言えそうですね。

これらを総合的に考えると、業績評価と主体性の関係性は、「右肩下がりの傾向が多少みられるものの、相関はほとんどないといって差し支えない」ということになりそうです。

サンプルデータでは、業績評価と社会人基礎力の12要素すべてとの相関関係を分析していますので参考にしてみてください。めぼしい相関関係は出ていませんが、RAND関数で算出したランダムな数字を使ったサンプル分析ですので、目立った関係性がみられない結果になっているのは、それで正解です。

以上、エクセルでできる相関分析を紹介しました。本当に簡単にできるので、お時間があるときにお手元のデータで是非試してみてください。

・・・そして、実はここからが今回お届けする内容のキモとなる部分です。

相関分析を行う際に、気をつけなければならない点が大きく2つあります。一つはエクセルでの分析に関係するもの、もう一つは相関分析の結果の解釈に関係するものです。

第一に、エクセルの機能で算出される相関係数は、統計的に確かかどうかの検証ができません。例え相関係数が0.6だったとしても、それだけだと厳密には「相関係数は0.6だから比較的強めの相関がありそうだけど、本当に相関があるかどうかは統計的に確認できていない」という状態です。前回の平均の差の分析(t検定)でも同じような論点がありましたね。平均の差があることと、統計的に検証できた数値かどうかは別の話でした。

実際は、統計的な検証は「t.dist.2t」という関数を使ってできるのですが、これは超基本編の範囲を超えていますので今回は取り扱いません。エクセルで算出する相関係数は「統計的な検証が行われていないという限界がある」ということだけ、アタマの片隅に入れておいていただければと思います(RやSPSSといった統計ソフトでは統計的な検証も一度にできます)。

第二に、相関分析は結果の解釈を間違えるリスクが存在します。具体的には、以下の2点に注意が必要です。

まず相関関係は、あくまでも連動して2つの項目データの数字が動くというだけで、どちらが原因でどちらが結果という関係(因果関係)を表すものではありません。従いまして、〇〇と△△の相関係数が大きかったからと言って、「〇〇が増えるほど、△△も増える」という因果関係を説明することはできないのです。

しかしながら、単なる相関関係であるにもかかわらず、あたかも因果関係が存在するかのような表現をしばしば目にすることがあります。そのような表現を見かけたら気をつけてみてください。

相関関係は因果関係が成立する要件のうちの一つでしかありません。相関関係があるからと言って必ずしも因果関係があるとは限りません。要素Aと要素Bの間に因果関係が成立するためには、一般的に「①AとBの間に相関関係があること」「②AとBの発生タイミングにズレがあること」「③AとB以外の要素(変数)が影響しないこと」の3つが必要です。どれだけ相関が強くても、上記②③を満たさない場合は因果関係があるとは言い切れません。

次に、本来は相関がないにもかかわらず、「第三の要因」によってあたかも相関があるかのように見えることがあります。これを「疑似相関」と言います。例えば「アイスクリームの売り上げ」と「ビールの売り上げ」に実際に相関関係が発見されたとして、それらは直接的に関係があるといえるでしょうか。他の要素が影響しているような気がしませんか。そう、この場合は「真夏の暑さ」が影響している可能性がありますね。

実際は、アイスクリームとビールの売り上げが増えているのは、どちらも「暑さ」という共通の理由があるからです。直接的な関係性はないにもかかわらず、見えない第三の要素があるせいで、あたかも相関があるように見えてしまうこと、それが疑似相関です。

ビッグデータ解析の技術が飛躍的に向上したことによって、従来は「仮説を立ててから分析する」という順番だったのが、今ではとりあえず膨大なデータを総当たりで分析してみることができるようになってきました。実際僕も、膨大なデータを解析してみたら驚くような相関関係が出た経験があります。しかしこのような場合は、基本的には疑似相関を疑うべきだと思っています。AIが出した分析結果であっても同様です。

残念なことに、これら2つのリスクはいろいろな機会で頻繁に目にします。相関と因果は違う、というのはソコソコ知られるようになってきましたが、疑似相関についてはまだそれほどでもない気がします。個人的には、疑似相関にもかかわらず強い相関があると誤認して、誤った取り組みを人事領域で行ってしまう危険性をすごく心配しています。

そして、以上述べた相関分析の限界を(ある程度)克服する分析方法が、重回帰分析です。次はこの重回帰分析について説明したいと思います。

それではまた次回!
第5回 エクセルでできる! ピープルアナリティクス超基本編④

※本コラムは執筆者個人の考えに基づく論考であり、特定の企業や団体の意向を代表するものではありません。また、本文中に提示されている講演内容の紹介は、すべて執筆者の解釈に基づいています。

(注)
この数値については研究者によって評価が異なります。僕は少し厳しくて、「0.5」程度では十分な相関があるとは言えないのではないか、というスタンスです。

新改敬英 (Takahide SHINKAI)
慶應義塾大学大学院経営管理研究科 大学研究員

大手国際会計事務所等にて会計監査・M&Aアドバイザリーに従事したのち、
外資系メーカーおよび国内系医療・介護グループを経て研究者に転身。
民間企業在籍中は一貫して経営企画業務に従事し、
経営戦略立案、組織マネジメントから財務分析、人材採用までオールラウンドに手掛ける。
現在は九州大学大学院の博士課程に在籍し、会計学・組織マネジメントについて研究する傍ら、
慶應義塾大学大学院経営管理研究科(慶應ビジネススクール)の研究員として、
企業との共同研究・アドバイザリーに従事。(2019年3月現在)

参考リンク

関連記事

close
資料ダウンロード 健康経営に関する意識調査レポート 2018-2019 「働きがい」の源泉とは何か? 無料 資料ダウンロードする