執筆:天野由貴 監修:奥村晴彦
はじめに
この連載は,グラフの読み方について解説した『ねこでも分かる!いかさまグラフにはもうダマされない!!』の続編です。前連載の『グラフを読む力』の養成から発展して,実際に『グラフを表現する力』の養成へ・・・データを正しく,美しく描くこと※にフォーカスしていきます。
今回もイトウさんとにゃんこさんと一緒に楽しく学びましょう!
※本連載ではMicrosoft Excel for Mac, Office365環境で画像をキャプチャしております。Windows版で操作が異なる場合は注釈をいれております。
人物紹介
奥村先生
言わずとしれた,すんごい先生。統計学,物理学,情報学に精通しており,LaTeXやRの本も執筆されている。にゃんこさんとイトウさんをやさしく指導してくれます。
にゃんこさん
わかりにくさを嫌う猫。グラフはわかりやすくしてほしいと常日頃思っている。3Dグラフは撲滅!撲滅!!
イトウさん
本連載では生徒役。すべてのことをわりとあっさり受け止めるタイプ。
前回のおさらい
この連載では,第1回に棒グラフ,第2回に横棒グラフと折れ線グラフ,第3回に円グラフの描き方を説明しました
次はなにをするんですか?
ちょっと整理してみましょう.今までにやったものは
棒グラフ,円グラフ:複数の量を比較する
折れ線グラフ:ある量の変化を示す
と,いうことになります
そういうわけで,今までにこの連載では量を比較するのと変化を示すのをやったので,次は2つの量の関係を表すグラフをやるのはどうかなと思います
2つの関係を表す?
それは・・・散布図です!
前回の最後の伏線が回収された!!!
散布図とは
散布図ってどんなのでしたっけ?
下の図を見てみましょう。これはある小学校4年生のクラス25人の身長と体重を計測したデータを散布図にしたものです
体重と身長の関係をみてみるということですね
身長が142cm,体重が39kgだったら,横軸が142,縦軸が39のところに点を打ちます
そうして,25人分の点々を打っていくということですね!
そう,そうしてこの点々がどのように散らばっているかを見て,2つの変数の関係を見ようとしているわけです
なんとなく右上がりになってますね
子どもの身長が高いほど体重が重くなる,というのはなんとなく理屈に合ってる気がしますよね
なるほどー
近似直線を入れてみます
近似直線ってなんですか?
散布図は点がバラバラになってますけど,先ほどイトウさんも気がついたように,このグラフはなんとなく点の散らばり方が右上がりになってますよね
こういうデータの傾向をわかりやすくするために,直線で表してみたというのが近似直線です
たしかに右上がりになっているということですね
この線の付近の人が平均的なひとで,線の上の点の人は太り気味,下は痩せ気味みたいな感じですね
なるほど!
こういう風に片方の変数が大きくなれば,もう片方の変数も大きくなる傾向があることを『正の相関』があると言います
相関係数を計算すると0.75ですね
相関係数?
2つの変数の関係を表す数値のことで…-1から1までの間で以下のようになります
散布図にするとこんな感じ
右下がりになったら負の相関で,どうにも線が引けないようなんだと相関がないんですね
相関係数は図3が-0.90,図4が0.18になります
相関係数はExcelだとCORRELという関数で計算できます。
変数AがA1からA17のセルに入ってて,変数BがB1からB17のセルに入ってるとすると
=CORREL(A1:A17,B1:B17)
のように入力すると,相関係数が表示されます
難しい計算しなくても,かんたんに!(たすかった・・・!)
相関をみるときの注意
しかし,相関係数のみに頼ってデータを判断するのは危険です
さっきの1に近いと正の相関,−1だと負の相関ってやつですね?
たとえば,図5のような散布だった場合
おわんみたいな形になってますね
これ,相関係数を計算すると-0.02なんですよね
相関がない?
でも,なんらかの傾向はあるわけです
散布図を見てみないとわからないですねー,こういうこと
たとえばこんな散布図はどうでしょう
ハートだ!
おわんやハートみたいな散布図だと相関係数とか求めても,その散らばりがどうなってるかなんてわからないですよね
計算だけはできちゃうということですね
そうなのです。ちなみにこれだと相関係数は0になります
でも,散布図で見るとなんかつながってる感がありますよね
相関係数だけでデータを判断した気になってしまわないよう,気をつける必要があります
あと擬似相関にも注意が必要です
ぎじ?相関がぎじ?
見かけは関係があるように見えるのだけれど,実際は因果関係がないということですね
下の図は,各都道府県の大学進学率と平均寿命を散布図にしてみたものです
学校基本調査 令和2年度 初等中等教育機関・専修学校・各種学校《報告書掲載集計》 卒業後の状況調査 高等学校 全日制・定時制 | ファイル | 統計データを探す | 政府統計の総合窓口
厚生労働省の生命表が令和2年のデータなので,学校基本調査も令和2年のデータを使ってみました
正の相関があるように見えるので,大学進学率が高い都道府県ほど平均寿命が長い!?
相関係数自体は0.49ですね
でも平均寿命って,経済水準や医療環境,生活習慣など,いろんな要素が影響しますよね
たしかに・・・
そういう他の要素も含めれば因果関係はあるかもしれないけれど,明白に言い切れない感じですね
つまり,このグラフだけで因果関係ある!!て,ならないでねってことなんです
そうですね,単純に判断しないように気をつけます!!
発展:相関係数について
そういや何度もでてくる『相関係数』ってどうやって計算するんですか?
XとYの2つの変数の共分散を,Xの標準偏差とYの標準偏差の積で割ります
う・・・?
あ,イトウさん,フリーズした
イトウさんにも,仕組みは理解してほしいなぁ
まず,共分散というのは,『Xの偏差 × Yの偏差』の平均になります
偏差ってなんですか
偏差とは一般には基準とする値との差のことですが、ここでは平均との差を偏差と呼ぶことにします.
たとえば,今,平均点が50点の社会のテストがあって,イトウさんが60点取ったとすると,偏差は10ってことです.
理科の平均点が55点で,イトウさんが40点だったとすると,偏差は−15。これをかけると−150になりますよね
それが『Xの偏差 × Yの偏差』ですか
そう,それがたとえばクラス20人分のデータがあったとするとその偏差を全部足して,20で割れば,共分散の値が求められるわけです
標準偏差は偏差とは違うんですか?
さっきのイトウさんの理科の偏差みたいに,偏差ってマイナスになることもありますよね.
マイナスにならないように偏差を2乗して,それを個数で割ったものを『分散』といいます。この分散の平方根にしたものが標準偏差になります。
クラス20人でするのだったら,偏差を2乗したものを20で割ったものが分散,それにルートをつけてあげたものが標準偏差です
さっきの奥村先生の説明だと,相関係数は共分散を標準偏差の積で割るということだったので,20人分の社会と理科の共分散の数値を,社会の標準偏差✕理科の標準偏差で割るってことですか
そのとおりです。イトウさん,えらい!
えっへん!
まとめ
今回は散布図について説明しましたけど,あまりにも説明の量が多すぎて,イトウさんに散布図を描いてもらう暇がありませんでした
ちょっと楽しちゃった♪
いや,次回描いてもらいましょう
やっぱり・・・
折れ線グラフのときも,Excelの散布図の機能を使って描いてもらったので,きっとうまく描けますね
ハードルがあがってる!