執筆:天野由貴 監修:奥村晴彦
はじめに
この連載では,世の中に出回っている変なグラフを例に,どこが悪いかを解き明かしていきます。みなさんも変なグラフにだまされないよう,イトウさんとにゃんこさんと一緒に学びましょう。
人物紹介
奥村先生
言わずとしれた,すんごい先生。統計学,物理学,情報学に精通しており,LaTeXやRの本も執筆されている。にゃんこさんとイトウさんをやさしく指導してくれます。
にゃんこさん
わかりにくさを嫌う猫。グラフはわかりやすくしてほしいと常日頃思っている。3Dグラフは撲滅!撲滅!!
イトウさん
本連載では生徒役。すべてのことをわりとあっさり受け止めるタイプ。
前回までのあらすじ
前回は尺度を教わりました。ちょっとむつかしい・・・。
尺度についてちょっと復習しましょう。
尺度の復習
順序関係のない単なる名前や番号
例:生徒名や出席番号,科目名など
順序に意味があるが,間隔に意味がないもの
例:順位,好き/ふつう/嫌いなど
数値の差に意味があるが,比に意味がないもの
例:セ氏温度(°C),西暦年など
数値の差だけでなく比にも意味があるもの
例:重さ,長さ,降水量など
名義尺度と順序尺度は『質的』な性質のものです。間隔尺度と比例尺度は『量的』で,グラフで表すことができます。かんたんにいうと,『質的』は計算できないもので,『量的』は計算できるもの。
ほへー・・・。
順序を量として計算する方法※も考えられているのですが,名義尺度だけは量として扱いにくいですね。
※順序については,順序統計量という考え方があり,それに基づく検定は外れ値に強いというのでよく使われています。
名義は,どう数値に置き換えていいかわからないですもんね。
そういえば,そもそもグラフの縦軸と横軸がそれぞれ尺度を持っているわけで,これは「〇〇尺度のグラフです」というのはどこで判断すればいいんですか?
ちょっと考えてみましょう。
生徒100人に好きな科目を4択で聞きました。
国語 32人
算数 26人
理科 18人
社会 24人
これをこんなグラフにしてみる。順番は多い順にしました。
これはおかしなグラフですか?
えっ,おかしくないような・・・なんとなく・・・
さて,この場合,横軸の科目名は何尺度?
名義尺度です・・・
では,このグラフが何尺度のグラフかな?と考えたらどうなりますか?
えっ・・・名義尺度のグラフになっちゃうのかな・・・?
いや,そうではありません。このグラフの場合は縦軸が人数なので,量的ですよね。人数は比例尺度になります。
あっ,そっちかー!「縦軸が人数の比例尺度のグラフ」なんだ!
比例尺度を表すのには棒グラフが向いているので,このグラフはおかしなグラフではないのでした。
なるほど・・・奥深い・・・。
折れ線グラフ
名義尺度の折れ線グラフ
出典:2013年東京都議選の簡単なデータ分析
https://www.huffingtonpost.jp/taku-sugawara/2013_1_b_3488128.html
ダメダメ折れ線グラフで多いのは,横軸が名義尺度のやつです。
折れ線グラフは,時系列の変化を表すのに向いてるんでしたね!
このグラフの横軸は別に時系列になってるわけじゃないですね。
でも,2009年から2013年の変化は見たいところですね。
わかった,横軸を年にすればいいんだ!
それだと折れ線が19本必要になりますね。
後で説明しますが,折れ線多すぎのグラフもダメダメなんです。
そうなんだ・・・・。
このテの『レーダーチャートの開き』パターンは一般にあまり良い代替がなくて難しいです。
開き・・・(サンマの開きみたいな?)
レーダーチャートってお星さまみたいな形につながってるけど,それを開いて平らにしたみたいな・・・。
なるほど・・・。
そんなわけで苦肉の策で描きなおしたグラフがこちらになります。
みなさんはあんまり見慣れない感じかもしれないですが,わかりやすさを目指してみました。
すっきりしててイイと思います!
下落差の大きい順に並べ替えています。元の記事が共産党増区と当選ラインが下がったことについて述べているためです。
先程のグラフの問題点は,点をつなぐ線に意味がなかったことですが,このグラフでは間を矢印でつないでわかりやすくしています。
そっか,普通の折れ線グラフでは点と点を線で結ぶことで,変化をわかりやすくしてるんですね。
そうです。線に意味ないことが先程のグラフの最大の問題点と言ってもよいかもしれません・・・。
折れ線多すぎに注意
出典:都道府県別人口の推移
https://www.pref.miyazaki.lg.jp/tokeichosa/kense/toke/sojinko.html
これは都道府県別人口の推移を表したグラフですね。
イトウさん,このサイトは宮崎県のサイトですけど,このグラフで宮崎県がどういう変化なのか解説できますか。
えっ?えーと・・・(目を細める)
わからないですよね。折れ線の本数が多すぎなんです。宮崎県は下の方で絡み合っているところでなおさらわからないですね。こういうスパゲティグラフはいけません。
たしかにスパゲティ!
全国の中で宮崎県がどういうポジションなのか見たい場合は,このような方法もあります。
他の都道府県をグレーにして,宮崎を赤にして目立たせてみました。
人口少なめの県なんだなぁということがわかります。
2020年以降は予測の数値なのでそこもわかりやすくしました。
なるほど!
まあこれでも本数多すぎなので,宮崎をわかりやすくするために,例えば九州地方にしぼってみます。
折れ線の本数少なくてわかりやすい!
しかし,この2つの描き直しだと宮崎県の人口が少ないということしかわからなくて,あまり増減はわからないですよね。
そんなわけなので,増減がわかりやすいように,各県それぞれ大正4年の人口を100としてグラフにしてみました。
あ,実はよく増えているのは東京よりも神奈川のがすごいんですね!
そうですね,埼玉や千葉も!
宮崎の増減もわかるようになりました。
いくつかの例を挙げましたが,結局そのグラフが何を言いたいのかで正解のパターンは違ってくると思います。九州地方だけにしぼると見やすいですが,情報量は減りますよね。でも全部を色付きの線にすると何がなんだかわからなくなってしまいます。グラフにしたときに,何をわかりやすくするのか意識したほうがいいですね。
まとめ
尺度はまだまだ勉強が必要みたいです・・・。でも横軸が名義尺度の折れ線グラフはダメ!は覚えました。
今回はスパゲティグラフもダメも覚えてください。
はーい!
次回はなんの話しようかな・・・。
せ,せんせい,続けてくださいね?
著者プロフィール
天野 由貴(アマノ ユキ)
大学職員。インストラクショナル・デザインの研究者。「情報デザインを意識したスライド作成入門」等の教材を作成・公開。ねこが大好き。 https://home.riise.hiroshima-u.ac.jp/~ten/
奥村 晴彦(オクムラ ハルヒコ)
三重大学特任教授。統計学,情報科学,情報教育の研究者。 第一学習社の「情報」教科書の著者の一人。 https://oku.edu.mie-u.ac.jp/~okumura/