ヒストグラムとは、数値のデータを区間ごとに区切ったときに、各区間にあるデータの個数を棒グラフに似た形で表現したチャートを指します。
データの分布にどのような特徴があるのか把握したい場合、数の羅列をそのまま見るだけでは判断が難しいですが、ヒストグラムを作るとぱっと見でばらつき具合を判断することができます。
例えば以下のイメージは、Tableauの「世界指標」というデータセットに含まれている2012年の乳児死亡率に対して、地域別で作成したヒストグラムで、棒の高さはその区間に属する国の数を表しています。
アフリカは0.78~10.92%の間でデータがばらついているのに対し、ヨーロッパでは0%の国が多く、データが偏っていることが分かります。
このようにヒストグラムでは、数値データのばらつき具合を一目で確認することができます。
初見のデータに対して分析する前に、ヒストグラムを作成することでデータの傾向を把握したり、異常値を発見することが期待できます。
それでは上のイメージで示したヒストグラムを実際に作成してみましょう!
1. Tableauを起動し、データ接続で保存されたデータソースから「世界指標」を選択します。
2. ヒストグラムを作成したいメジャーに対して、「ビン」を作成します。
「ビン」というのは、ヒストグラムを作成するための階級幅をもったディメンションをイメージしてください。
今回は「乳児死亡率」に対して、ヒストグラムを作成するため、「乳児死亡率」を右クリックし、作成>ビンを選択。
以下のようなウインドウが表示され、Tableauがメジャーからヒストグラムの作成に適した階級幅を提案してくれます。ありがたいですね~。
今回はTableauが提案してくれたとおりに、0.078という階級幅でヒストグラムを作成します。
もしこの階級幅を変えたい場合は「ビンのサイズ」の値を変更してください。
「OK」を選択すると、以下のように「乳児死亡率(ビン)」というディメンションが新しく作成されます。
3. シート上にヒストグラムを作成
列に先ほど新しく作成した「乳児死亡率(ビン)」、行に「レコード数」を配置すると、以下のようにグラフが作成されます。
ヒストグラムらしい見た目になりましたが、ヒストグラムは棒と棒の間には隙間を作らないことが一般的ですので、「サイズ」を調整して隙間を埋めます。
あとは列に「地域」ディメンションに地域を追加し、フィルターで「年」を2012に絞り込みます。
これでヒストグラムは完成ですが、横軸が小数点になっていて見づらいので、書式設定を変更してパーセンテージ表示にするといいですね。
軸ラベル上で右クリック>書式設定からパーセンテージ表示に変更できます。
これでヒストグラムの完成です!
ヒストグラムを作成する際に手間がかかる点が、「適切な階級幅の設定」だと思います。
手作業でヒストグラムを作成する場合、データの最大値と最小値を確認して、データの個数からどのくらいの階級幅にするか考えて・・・というステップが必要です。
ここがすごく面倒なのですが、Tableauを使うと自動で階級幅の設定をしてくれるので、すばやくヒストグラムを作成することが可能になります。
データの特徴がわかることで「こんな視点で分析してみたらいいかも」というアイディアが生まれることもありますので、ぜひデータ分析をする前にヒストグラムを活用してみてください!