みなさんこんにちは!
待ちに待ったTableau 10.5が昨日(1/11)リリースされました!(ダウンロードがまだの方はこちら)
今回のアップグレードで注目されているのが、新型データエンジンの「Hyper」です。この記事では、「Hyper」の概要、Tableau 10.4との使い勝手の比較を紹介していきます。
Tableauの公式サイトでは以下のように紹介されています。
Hyper は、大規模で複雑なデータセットでのデータ取得および分析的クエリ処理を高速に行うために開発された Tableau の新しいインメモリデータエンジンテクノロジーです。Tableau 10.5 に搭載されている Hyper は、大量のデータの多角的な分析を数秒で実行でき、クエリの処理速度は最大 5 倍、抽出作成の速度は最大 3 倍高速になります。 抽出やクエリのパフォーマンスが向上し、これまでよりもさらに大規模なデータセットに対応したことで、ビジネスのニーズに応じてデータを抽出できるようになります。
簡単にまとめると、クエリの処理速度と抽出作成速度がかなり早くなりましたよ!ということですね。
その他にも、以下のような新機能が発表されています。
• データ統合、データ変換、データブレンドの強化
• k-meansクラスタリングやウィンドウ関数など、より豊かな分析
• 半構造化データと非構造化データをサポートすることにより、大規模なデータ取り組みを支援する
• 分析およびトランザクションシステムの統一
Tableau 10.5では、Hyper(.hyper)を新たな抽出形式として採用しています。従来の抽出ファイル(.tde)は、Tableau 10.5で開き、保存することで自動的に.hyper形式として更新されるようになっています。
ここからは実際に使い勝手はどのように変わったのか、Tableau 10.4とTableau 10.5とを比較していきたいと思います。
比較するのは、
①抽出作成速度
②クエリ処理速度
の2点です。
まずは抽出作成速度の比較からしていきます。
比較環境は、
・同一PCで実行
・使用データは100万件程度で、6つのテーブルを結合した状態
とします。
ちなみにデータはこのように結合されています。
上図の状態から接続を抽出に変え、抽出ファイルの作成開始から処理終了までの時間を計測します。
試行回数は10回で、その平均値を結果とします。
結果は…
Tableau 10.4…65.8秒
Tableau 10.5…38.7秒
となりました。
他の条件からの影響もあるかもしれませんが、今回の試行の結果からは、Tableau 10.5は10.4に比べて、約42%抽出時間が短くなることがわかります。
Tableauの抽出作成時間は早いとはいえませんので、これだけ短縮されるのはとてもうれしいですね!
次にクエリの処理速度の比較をしていきます。
比較環境は、
・同一PCで実行
・私が社内勉強会で作成した、とても処理に時間が掛かるTableauワークブックを使用
とします。
上記のワークブックをTableau 10.4とTableau 10.5で開き、特定のシートのフィルターの値を変え、そこで発生したクエリが終了するまでの時間を計測します。
こちらも試行回数は10回とし、その平均値を結果とします。
結果は…
Tableau 10.4…14.1秒
Tableau 10.5…5.0秒
となりました。
こちらの比較ではTableau 10.5は10.4に比べて、約65%クエリ処理速度が短縮されていることがわかります。
分析の視点を切り替える度に発生するクエリの時間が半分以下になるので、よりいろいろな視点からの分析が捗りそうですね!
今回はTableauに新しく搭載されたデータエンジン「Hyper」について紹介しました。従来のデータエンジンと比較し、処理速度はかなり早くなっているので、Tableauでの分析がますます加速しそうですね。
読んで頂き、ありがとうございました。
https://www.tableau.com/ja-jp/products/new-features/hyper
https://japan.cnet.com/release/30227317/
http://jp.techcrunch.com/2016/03/11/20160310tableau-scores-advanced-database-tech-with-acquisition-of-german-startup-hyper/