平均は数字を手早くつかむための便利な入口です。けれど、数字の集まり方まで見ると、同じ平均の奥にかなり違う現実が隠れていることがあります。統計の入口は、数字を一つに縮めることより、散らばり方を読む感覚にあります。
結論
平均は、集団の全体像を短く示すためにとても便利です。ニュースの見出しやテスト結果の報告で平均がよく使われるのは、その数字だけで大まかな雰囲気をつかめるからです。
ただ、統計の見方は平均で止まりません。平均のまわりにどれくらい散らばりがあるのか、どちら側に偏っているのか、一部の大きな値が全体を引っぱっていないかまで見ていくと、同じ平均でも意味がかなり違うことが分かります。
統計の入口で大事なのは、代表値を一つ出して終わることではなく、数字の集まり方を読むことです。平均、分散、標準偏差、分布は、ばらばらの用語ではなく、そのための道具としてつながっています。
平均で分かった気になりやすい理由
平均点とか平均年収とか、数字が一つ出ると分かった感じはするんですけど、それで何が足りないのかがまだ曖昧なんですよね。
平均は集団を一つの数字にまとめる力が強いのよ。だから便利。でも、まとまり方の違いまで一緒に畳んでしまうことがある。
同じ平均でも、中身がかなり違うことがあるってことですか。
そう。統計の入口は、平均が悪いと考えることではなく、平均が何を教えてくれて、何を隠しやすいかを分けて見ることにあるのよ。
平均が強いのは、複数の数字を一つに要約できるからです。たとえばクラスの平均点が 70 点と聞けば、全体の水準をざっくりつかめます。
けれど、その 70 点が「みんなが65〜75点に集まっているクラス」から出たのか、「30点台と100点近い点数が混ざっているクラス」から出たのかで、クラスの状態はかなり違います。平均は同じでも、中身の見え方は変わります。
平均は何をしてくれるのか
平均の役割は、数字の集まりの中心を短く示すことです。値が多い場面ほど、この要約の力は大きくなります。
たとえば通勤時間でも、全員の分布を一度に頭へ入れるのは大変です。平均通勤時間が 45 分だと分かれば、まず全体の水準をつかめます。この「まず大づかみにする」という役割は、統計でかなり大切です。
だから、平均を切り捨てる必要はありません。問題は、そこから先を見ないまま判断が終わってしまうことです。
平均って、入口としてはちゃんと役に立つんですね。
かなり役に立つのよ。ただ、入口の地図だけで町全体を分かったことにしない、という感覚が次に要るの。
ばらつきを見るとはどういうことか
平均だけで足りないとき、次に見るのがばらつきです。ばらつきとは、値が中心のまわりにどれくらい広がっているか、どれくらい散っているか、という見方です。
このための代表的な道具が、分散や標準偏差です。高校段階では公式の形が目立ちますが、見ているものは単純です。平均からどれくらい離れた値が多いのかを測ろうとしているのです。
平均を $\bar{x}$ とすると、分散は「平均からのズレの大きさ」をならした量として
$$\mathrm{Var} = \frac{1}{n}\sum (x_i-\bar{x})^2$$
のように書けます。式の細部より大事なのは、平均との差を見ていること、そして散らばりが大きいほど値も大きくなることです。
分散って、公式だけ見ると急に遠く感じるんですけど、平均からの離れ方をまとめて見てるんですね。
そういうこと。平均が中心の情報なら、分散や標準偏差は広がりの情報を足してくれるのよ。
同じ平均でも違う二つのクラス
たとえば、A組とB組の平均点がどちらも 70 点だとします。
- A組:66, 68, 70, 72, 74
- B組:40, 50, 70, 90, 100
平均はどちらも 70 点です。けれど、A組は中心のまわりにまとまっていて、B組は散らばりが大きい。授業の見え方や支援の必要性まで考えるなら、この差はかなり重要です。
分布を見ると、さらに形が見える
ばらつきまで見ても、まだ同じ数字になることがあります。そこで次に見るのが分布です。分布を見るとは、どのあたりに値が集まり、どこが薄く、どこに長い尾があるかを眺めることです。
ここで、偏り、二極化、外れ値の影響などが見えてきます。統計の面白さは、数字を一つに縮めることより、この形の違いを読むところにあります。
平均だけで判断すると何が起こるのか
平均通勤時間が 45 分という数字だけを見ると、多くの人が 45 分前後なのだろうと感じやすいです。ところが実際には、30〜40分の人が多く、90分を超える人が少数いて平均を押し上げているかもしれません。
平均年収も同じです。平均値が似ていても、全体がなだらかに広がっている集団と、一部の高所得が平均を大きく動かしている集団では、数字の読み方が変わります。
ここで大切なのは、平均が間違いだと決めつけることではありません。平均は入口として有効です。ただ、その数字の背後にある散らばり方や形まで見ないと、判断が粗くなりやすいのです。
平均って、数字を分かりやすくする力があるぶん、中身を見なくても分かったつもりになりやすいんですね。
そう。統計の入口で身につけたいのは、代表値を見る視線と、散らばり方を見る視線を切り替えられることなのよ。
しめくくり
平均は、社会の数字を読む入口としてとても強い道具です。だからこそ、その先に何が隠れやすいかを知っておく価値があります。
ばらつきや分布を見る感覚がつくと、ニュースの数字、テスト結果、アンケート、所得、通勤時間といった身近なデータの見え方が一段深くなります。統計とは、数字を一つにまとめる技術というより、数字の集まり方を読む見方なのだと分かってきます。
読後に持ち帰ってほしいのは、「平均はいったん見る。そのあとで散らばり方を見る」という順番です。この視線があるだけで、同じ数字でも見える現実が少し変わってきます。