分散は「1つの変数がどれくらい散らばっているか」。
共分散は「2つの変数が一緒にどう動くか」。
共分散行列は、その関係をまとめて持つ“データの形の地図”。
結論
3つは別物ではなく、同じ枠の中でつながっている。
分散は、ある1つの変数が平均からどれくらい離れているかを数値にしたものです。
値が大きいほど、その変数は大きく散らばっています。
共分散は、2つの変数が一緒に増減するかどうかを表します。
正なら「一方が大きいとき他方も大きい傾向」、負なら「一方が大きいとき他方は小さい傾向」です。
共分散行列は、複数の変数の分散と共分散を1つの表にしたものです。
対角成分が分散、非対角成分が共分散で、データ全体の散らばり方や向きをまとめて表します。
今日は統計の基本たい。分散・共分散・共分散行列。名前は似とるけど、順番に積み上げたらそんなに怖くなか。
分散はまだいいのよ。でも、共分散行列になると急に“ちゃんと分かってない感”が出るの。
今日はそこをつなげたい。
あるある
式は見たことがあるのに、何を見ているか言えない。
分散の式も、共分散の式も、教科書で一度は見ます。
でも「平均との差の二乗」「平均との差の積」と言われても、何を比べているのかが曖昧なまま進みがちです。
ここを言葉で押さえると、行列まで自然につながります。
“式は見たことある”のに“説明はできん”って、統計あるあるたいね。顔見知りやけど友達ではない感じ。
その言い方はちょっと雑だけど、言いたいことは分かるのよ…。
“見たことある”を“説明できる”に変えたいの。
本文
平均からのズレを見るだけで、分散も共分散も同じ型になる。
1) まず平均:基準点を決める
分散や共分散は、どちらも「平均からどれだけズレたか」を見る量です。
だから最初に必要なのは平均です。
ある確率変数 $X$ の平均は
$$\mu_X=\mathrm{E}[X]$$
です。標本データ $x_1,\dots,x_n$ なら、標本平均は
$$\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i$$
になります。
分散も共分散も、この「基準点からのズレ」を材料にして作ります。
2) 分散:1つの変数の散らばり
分散は、「その変数が平均からどれくらい離れているか」を表します。
もし平均との差をそのまま足し合わせると、正負が打ち消し合ってしまうので、二乗してから平均します。
確率変数 $X$ の分散は
$$\mathrm{Var}(X)=\mathrm{E}[(X-\mu_X)^2]$$
です。標本データでの分散は、文脈に応じて
$$\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2$$
または不偏分散として
$$s^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2$$
を使います。
ここで重要なのは、分散が大きいほど「平均のまわりで広く散っている」ということです。
分散が 0 なら、全部の値が同じで、まったく散っていません。
分散の直感
分散は「平均との差のズレの大きさ」を1変数だけで測る量。
だから“ばらつきの大きさ”を表すけれど、“どちら向きにズレたか”までは残さない。
分散は“1人でどれだけ散らばっとるか”たい。平均との差を二乗するけん、符号は消えて、ズレの大きさだけが残る。
なるほど。分散は“方向”じゃなくて“距離感”だけ見るのね。
だから常に 0 以上になるわけか。
3) 共分散:2つの変数が一緒にどう動くか
次に共分散です。
分散が「1つの変数のズレ」を見るのに対して、共分散は「2つの変数のズレを掛け合わせて」見ます。
確率変数 $X,Y$ の共分散は
$$\mathrm{Cov}(X,Y)=\mathrm{E}[(X-\mu_X)(Y-\mu_Y)]$$
です。標本データなら不偏共分散は
$$s_{XY}=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})$$
です。
この式の意味はかなり素直です。
$X$ も $Y$ も平均より大きいとき、積は正になります。
$X$ も $Y$ も平均より小さいときも、負×負で正になります。
つまり「同じ向きにズレる」ほど共分散は正になります。
逆に、$X$ が平均より大きいときに $Y$ が平均より小さい、あるいはその逆が多いと、積は負になります。
そのとき共分散は負です。
共分散の符号
・$\mathrm{Cov}(X,Y)>0$:一方が大きいとき、他方も大きい傾向
・$\mathrm{Cov}(X,Y)<0$:一方が大きいとき、他方は小さい傾向
・$\mathrm{Cov}(X,Y)\approx 0$:線形な意味での連動が弱い
なお、分散は共分散の特別な場合です。
$$\mathrm{Var}(X)=\mathrm{Cov}(X,X)$$
これで、分散と共分散は別物ではなく、同じ型の延長にあることが分かります。
あ、ここでつながるのね。分散は“自分との共分散”って見ると、急に整理しやすい。
そうたい。分散は1変数版、共分散は2変数版。平均との差のズレを見るって芯は一緒たい。
4) 計算例:分散と共分散を実際に出してみる
小さいデータで見た方が、式の意味が腹に落ちます。
ここでは 3 組のデータ
$$ (x_i,y_i)=(1,2),(2,4),(3,6) $$
を考えます。
平均
$$\bar{x}=\frac{1+2+3}{3}=2,\quad \bar{y}=\frac{2+4+6}{3}=4$$
平均との差
$$x_i-\bar{x}=(-1,0,1),\quad y_i-\bar{y}=(-2,0,2)$$
分散($x$側、$1/n$ 版)
$$\frac{1}{3}\left[(-1)^2+0^2+1^2\right]=\frac{2}{3}$$
共分散($1/n$ 版)
$$\frac{1}{3}\left[(-1)(-2)+0\cdot 0+(1)(2)\right]=\frac{4}{3}$$
ここでは $y=2x$ なので、$x$ が大きいとき $y$ も大きい。
だから共分散は正になります。
5) 共分散行列:複数変数の分散と共分散をまとめる
変数が2つ以上あるとき、それぞれの分散と、変数同士の共分散を全部並べたものが共分散行列です。
2変数 $(X,Y)$ なら
$$\Sigma=\begin{pmatrix}\mathrm{Var}(X) & \mathrm{Cov}(X,Y)\\ \mathrm{Cov}(Y,X) & \mathrm{Var}(Y)\end{pmatrix}$$
になります。
一般に、ベクトル確率変数 $\mathbf{X}$ の共分散行列は
$$\Sigma=\mathrm{E}\left[(\mathbf{X}-\boldsymbol{\mu})(\mathbf{X}-\boldsymbol{\mu})^T\right]$$
です。
対角成分は各変数の分散、非対角成分は変数同士の共分散です。
だから共分散行列は、「各変数がどれだけ散るか」と「変数同士がどう一緒に動くか」を一度に持っています。
読み方
・対角成分:各変数それぞれの散らばり(分散)
・非対角成分:変数同士の連動の向きと強さ(共分散)
6) 共分散行列は「データ雲の形」を決める
共分散行列は、ただ数を並べただけの表ではありません。
幾何的には、データがどの方向に広がっているか、どの方向に細長いか、つまり“データ雲の形”を決めます。
もし非対角成分が 0 に近ければ、軸ごとのばらつきが主で、傾きは弱い。
非対角成分が大きければ、データ雲は斜めに伸びます。
これが、主成分分析のような手法につながっていきます。
共分散行列は“表”でもあるけど、“形”でもあるたい。データの雲がどっち向きに伸びとるかを持っとる。
なるほど。分散は“1本の軸での広がり”、共分散行列は“全体の広がり方の地図”って感じね。
7) 共分散行列と相関行列の違い
ここでよく混同されるのが相関行列です。
共分散は単位の影響を受けます。例えば、身長を cm で測るか m で測るかで数値が変わります。
一方、相関は標準偏差で割って無次元化したものです。
標準偏差の対角行列を
$$D=\mathrm{diag}(\sigma_1,\sigma_2,\dots,\sigma_n)$$
とすると、共分散行列 $\Sigma$ と相関行列 $R$ の関係は
$$R=D^{-1}\Sigma D^{-1},\quad \Sigma=DRD$$
です。
つまり、相関行列は「スケールの違いを消して、変数同士の関係だけを見やすくした版」と言えます。
そのため、相関行列の対角成分はすべて 1 になります。
違いの要点
・共分散行列:単位つき。散らばりの絶対量も含む。
・相関行列:無次元。スケール差を消して関係だけを比べやすい。
8) よくあるつまずき
つまずき1:分散と標準偏差を混同する
標準偏差は分散の平方根。分散は二乗単位、標準偏差は元の単位に戻る。
つまずき2:共分散の大きさをそのまま比較する
共分散は単位やスケールに依存する。比較したいなら相関を見る方が分かりやすい場合が多い。
つまずき3:共分散が 0 なら完全に無関係だと思う
共分散 0 は「線形な関係が弱い」ことを意味するが、非線形な関係までは否定しない。
つまずき4:共分散行列をただの数字表だと思う
共分散行列は、データ全体の広がり方・向き・傾きをまとめた量でもある。
テンプレ
分散・共分散・共分散行列を説明するときの型。
(1)平均を置く
$$\mu=\mathrm{E}[X],\quad \bar{x}=\frac{1}{n}\sum_{i=1}^n x_i$$
(2)分散を定義する
$$\mathrm{Var}(X)=\mathrm{E}[(X-\mu)^2]$$
1変数の散らばりを見る。
(3)共分散を定義する
$$\mathrm{Cov}(X,Y)=\mathrm{E}[(X-\mu_X)(Y-\mu_Y)]$$
2変数が一緒にどう動くかを見る。
(4)共分散行列へまとめる
$$\Sigma=\mathrm{E}\left[(\mathbf{X}-\boldsymbol{\mu})(\mathbf{X}-\boldsymbol{\mu})^T\right]$$
対角=分散、非対角=共分散。
(5)必要なら相関行列も示す
$$R=D^{-1}\Sigma D^{-1}$$
落とし穴
「散らばり」と「一緒に動く」を混ぜてしまう。
落とし穴は一つです。分散と共分散を、どちらも“なんとなく散らばり”として一括りにしてしまうこと。
分散は1変数の広がり、共分散は2変数の連動です。
そして共分散行列は、その両方をまとめたものです。
ここを切り分けるだけで、かなり見通しがよくなります。
締め
平均からのズレを見る。その延長に全部ある。
結局、全部「平均からのズレ」をどう見るかたい。1人で見ると分散、2人で見ると共分散、全員まとめると共分散行列。
うん、納得。別々の単語に見えてたけど、ちゃんと一本でつながった。
これなら共分散行列も“急に出てくる表”じゃなくて、自然なまとめに見えるのよ。
よかね。統計も、ちゃんと順番つけたら急に優しく見えるたい。
そこまで人格化しなくていいけど…今日は分かりやすかった。ありがとう。