以前、箱ヒゲ図についての作成方法をこちらでご紹介いたしました。
今回はオープンデータを使って都道府県別のお酒の消費量について箱ひげ図作成し、「どの県で何のお酒が人気なのか?」を調べてみようと思います。
私の勝手な先入観かもしれませんが、九州地方の人は焼酎が好きで、東北地方の人は日本酒が好きなイメージがありませんか?
今回はそのイメージが私の勝手な思い込みなのか、それともデータから客観的にみて当たっているのか、確かめてみようという試みです。
このような分析をする場合、都道府県名を横軸、お酒の消費量を縦軸にしたヒストグラムを作成してもいいですが、横軸に47都道府県をずらっと並べ、さらにお酒の種類の数だけグラフを作成するとなると、たくさんのチャートを作ることになりますよね....
こんな時に箱ひげ図を作成すると、コンパクトに数値のばらつきを表現することができます。
使用するオープンデータは以下の2つです。
1. 都道府県別お酒の消費量データ
国税庁で公開している「都道府県別の販売(消費)数量」を使います。
以下のサイトからダウンロードが可能です。
https://www.nta.go.jp/publication/statistics/kokuzeicho/sake2019/shuzei.htm
2. 都道府県別人口データ
単に都道府県別の消費量をみると、人口の多い都市部の消費量が多い、という結果になることが予想されます。
それでは都道府県別にどのお酒の人気があるのかという特色が見えないため、お酒の消費量を都道府県ごとの成人人口で割ることにより、「成人一人あたりに対するお酒の消費量」をみてみようと思います。
都道府県別の成人以上の人口についてはe-statからデータを取得できます。
https://www.e-stat.go.jp/dbview?sid=0003312321
1.のデータが「令和元年度」のデータですので、人口データもその年度に合わせて取得したかったのですが、平成30年度までしかデータがなかったので、今回は平成30年度の人口を使用します。
①Tableau Desktopを起動し、データに接続
まず都道府県別人口データに接続します。
今回は成人人口を使用したいので、年齢五階級のカラムで以下のようなグループを作成しました。
次に都道府県別のお酒の消費量データを「新しいデータソース」として追加します。
ただしこちらのデータは、読み込みするだけでは、分析する形として適していませんので、
データインタプリターを使ってデータを読み込みました。
データインタプリター便利!ありがとう!!
さらにお酒の種類が列名に入って横持ちになっているので、ピボットしてデータを縦持ちにしましょう。
列の名前は適宜修正してください。
こちらもフィルター設定と列の非表示で必要な項目のみに絞ります。
これでデータがやっと分析できる形になりました!
さて、前置きが長くなりました。いよいよ本題の箱ひげ図の作成に入ります。
以下の手順に沿って、箱ひげ図を作成してみましょう。
①成人ひとりあたりのお酒の消費量を算出するため、以下のように「成人一人あたり消費量」を計算フィールドで作成します。
②列に「お酒の種類」、行に「成人一人あたり消費量」を配置