中央値と平均値の違いを徹底解説!わかりやすく学ぼう

「中央値と平均値の違いって何?」そう思ったことはありませんか?実は、この二つの「代表値」は、データの真ん中あたりを表すのに使われるのですが、その計算方法や意味合いは少し違います。この違いを理解することは、データから情報を正確に読み取るためにとても大切なんです。

データの「真ん中」を表す二つの代表値:中央値と平均値

データを整理して「このグループはだいたいこのくらいだね」と、代表的な数値を一つで表したいとき、私たちは「代表値」を使います。その中でもよく使われるのが「平均値」と「中央値」です。名前は似ていますが、それぞれ計算方法と、どんなデータに適しているかが異なります。この「中央値と平均値の違い」をしっかり押さえることが、データの意味を正しく理解する第一歩となります。

平均値は、みんなが知っている「合計を個数で割る」という方法で計算されます。例えば、テストの点数なら、全員の点数を足して、人数で割れば平均点が出ますよね。これは、全体の「ならし」の値を表すのに便利です。

一方、中央値は、データを小さい順(または大きい順)に並べたときに、ちょうど真ん中にくる値です。もしデータの個数が奇数なら、真ん中の値がそのまま中央値になります。もしデータの個数が偶数なら、真ん中の二つの値の平均が中央値となります。この計算方法の違いが、「中央値と平均値の違い」の肝となります。

それぞれの計算方法をまとめると、以下のようになります。

代表値 計算方法 特徴
平均値 データの合計 ÷ データの個数 全てのデータの値を使う。外れ値(極端に大きい・小さい値)の影響を受けやすい。
中央値 データを小さい順に並べたときの真ん中の値(個数が偶数の場合は、真ん中の2つの値の平均) データの並び順だけを使う。外れ値の影響を受けにくい。

外れ値に強い中央値の力

「中央値と平均値の違い」を最も分かりやすく示すのが、外れ値(極端に大きい値や小さい値)がある場合です。例えば、あるクラスのテストの点数が以下のようだったとしましょう。

  • 50点, 60点, 70点, 80点, 100点

この場合の平均値は (50 + 60 + 70 + 80 + 100) ÷ 5 = 360 ÷ 5 = 72点 です。中央値は、データを小さい順に並べると (50, 60, 70, 80, 100) なので、真ん中の70点が中央値です。

では、もし一人だけ極端に低い点数を取った場合を考えてみましょう。

  • 10点, 60点, 70点, 80点, 100点

この場合の平均値は (10 + 60 + 70 + 80 + 100) ÷ 5 = 320 ÷ 5 = 64点 となり、先ほどより下がります。しかし、中央値は、データを小さい順に並べても (10, 60, 70, 80, 100) 真ん中の70点のままです。このように、中央値は外れ値の影響を受けにくいため、データの分布に偏りがある場合に、より実態に近い代表値を示すことがあります。

外れ値の影響を受けにくいという点は、中央値が持つ大きな強みです。

どんな時にどっちを使う?

「中央値と平均値の違い」を理解した上で、どちらの代表値を使うのが適切かは、データの性質や分析の目的に依存します。例えば、

  1. 平均値が適している場合:
    • データの分布が正規分布に近い(左右対称で、真ん中にデータが集中している)場合。
    • 全てのデータの値を均等に扱いたい場合。
    • 統計的な処理(検定や回帰分析など)を行う場合。
  2. 中央値が適している場合:
    • データの分布に偏りがある(歪んでいる)場合。
    • 外れ値が存在し、その影響を小さくしたい場合。
    • 所得や不動産価格など、極端に大きい値が紛れ込みやすいデータを扱う場合。

所得のデータで見る中央値と平均値の違い

所得のデータで「中央値と平均値の違い」を見てみましょう。例えば、ある地域に5人の人が住んでいて、年収が以下のようだったとします。

  • 200万円, 300万円, 400万円, 500万円, 1000万円

この場合の平均年収は (200+300+400+500+1000) ÷ 5 = 2400 ÷ 5 = 480万円 です。一方、中央値は、データを小さい順に並べた (200, 300, 400, 500, 1000) 真ん中の400万円です。

この例では、一人が非常に高い年収を持っているために、平均年収が中央値よりも高くなっています。このような場合、「この地域の平均的な年収は480万円です」と言うよりも、「この地域の年収の中央値は400万円です」と言った方が、多くの人の生活実態に近い感覚を表しているかもしれません。

所得のようなデータでは、富裕層に偏りがあることが多く、平均値は彼らの年収に引っ張られて高めに出てしまう傾向があります。そのため、所得格差などを分析する際には、中央値を用いることが一般的です。

テストの点数で見る中央値と平均値の違い

テストの点数でも、「中央値と平均値の違い」は現れます。例えば、あるクラスのテストの点数が以下のようだったとします。

  • 50点, 60点, 70点, 80点, 90点

この場合の平均点は (50+60+70+80+90) ÷ 5 = 350 ÷ 5 = 70点 です。中央値も、データを小さい順に並べた (50, 60, 70, 80, 90) 真ん中の70点です。この場合は、平均値と中央値が一致しています。

しかし、もしクラスに数人、極端に低い点数を取った人がいた場合を考えてみましょう。

  • 10点, 20点, 70点, 80点, 90点

この場合の平均点は (10+20+70+80+90) ÷ 5 = 270 ÷ 5 = 54点 となります。一方、中央値は、データを小さい順に並べた (10, 20, 70, 80, 90) 真ん中の70点のままです。

このように、テストの点数でも、極端に低い点数や高い点数(外れ値)があると、平均値はその外れ値に引っ張られてしまうことがあります。そのため、クラス全体の学力レベルを把握したい場合、平均点だけでなく中央値も見てみると、より多角的に理解できるでしょう。

不動産価格で見る中央値と平均値の違い

不動産価格でも、「中央値と平均値の違い」は顕著に現れます。例えば、ある街で5軒の家が売却されたとしましょう。それぞれの価格は以下の通りです。

  • 2000万円, 3000万円, 4000万円, 5000万円, 2億円

この場合の平均価格は (2000+3000+4000+5000+20000) ÷ 5 = 34000 ÷ 5 = 6800万円 です。しかし、中央値は、データを小さい順に並べた (2000, 3000, 4000, 5000, 20000) 真ん中の4000万円です。

この例では、一軒だけ非常に高額な邸宅があったために、平均価格が中央値よりも大幅に高くなっています。不動産情報で「平均価格」と「中央価格」が示されている場合、平均価格は一部の高級物件に引き上げられている可能性があり、中央価格の方がより一般的な物件の価格帯を示していると言えるでしょう。

アンケート結果で見る中央値と平均値の違い

アンケート結果でも、「中央値と平均値の違い」は活用できます。例えば、5段階評価で「満足度」を尋ねたとしましょう。回答が以下のようになったとします。

  • 2, 3, 4, 4, 5

この場合の平均点は (2+3+4+4+5) ÷ 5 = 18 ÷ 5 = 3.6点 です。中央値は、データを小さい順に並べた (2, 3, 4, 4, 5) 真ん中の4点です。

ここで、もし一人だけ「1」と答えた人がいた場合。

  • 1, 3, 4, 4, 5

平均点は (1+3+4+4+5) ÷ 5 = 17 ÷ 5 = 3.4点 となり、少し下がります。しかし、中央値は、データを小さい順に並べた (1, 3, 4, 4, 5) 真ん中の4点のままです。

このように、アンケートで回答にばらつきがある場合、中央値は「多くの人がどのあたりに回答しているか」をより正確に表してくれることがあります。特に、極端な意見が少数派である場合、中央値は全体の傾向を把握するのに役立ちます。

まとめ:中央値と平均値、どちらも大切

「中央値と平均値の違い」をここまで見てきましたが、どちらの代表値も、データの特性を理解する上で非常に重要です。平均値は全てのデータを考慮した「ならし」の値であり、中央値はデータの真ん中にある「代表的な値」を表します。どちらか一方だけを見るのではなく、両方を比較することで、データの偏りや特徴をより深く理解することができます。この二つの違いを理解して、データの世界をもっと楽しんでくださいね!

関連記事: