相関係数
出典: フリー百科事典『ウィキペディア(Wikipedia)』
相関係数(そうかんけいすう、correlation coefficient)とは、2 つのデータ列の間の相関(類似性の度合い)を示す統計学的指標である。-1 から 1 の間の実数値をとり、1 に近いときは2 つのデータ列には正の相関があるといい、-1 に近ければ負の相関があるという。0 に近いときはもとのデータ列の相関は弱い。
たとえば、先進諸国の失業率と実質経済成長率は強い負の相関関係にあり、相関係数を求めれば -1 に近い数字になる。
普通単に相関係数といえば、ピアソンの積率相関係数(Pearson product-moment correlation coefficient)をさす(本項で詳述する)。これは偏差の正規分布を仮定する(パラメトリック)方法であるが、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数、ケンドールの順位相関係数なども一般に用いられる。
相関係数は、あくまでもデータ間の線形関係を計測しているに過ぎない。また、データ間の因果関係を説明するものでもない。相関係数は順序尺度であり間隔尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。
[編集] 定義
2 つのデータ列 <math>x = \{x_{i}\}</math>, <math>y = \{y_{i}\}</math> <math>(i=1,2,\ldots,n)</math> があたえられたとき、相関係数は以下のように求められる。
- <math>\frac{
\sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y}) }{ \sqrt{\sum_{i=1}^n(x_{i}-\bar{x})^2} \sqrt{\sum_{i=1}^n(y_{i}-\bar{y})^2} }</math> ただし、<math>\bar{x}</math>, <math>\bar{y}</math> はそれぞれデータ <math>x = \{x_{i}\}</math>, <math>y = \{y_{i}\}</math> の相加平均である。
これは、各データの平均からのずれを表すベクトル
- <math>x-\bar{x} = (x_1-\bar{x},\ldots,x_n-\bar{x}),</math>
- <math>y-\bar{y} = (y_1-\bar{y},\ldots,y_n-\bar{y})</math>
のなす角の余弦である。
また、この式は共分散をそれぞれの標準偏差で割ったものに等しい。
[編集] 関連項目

