NTTデータ社が公開している「ビッグデータ活用基盤リファレンスアーキテクチャ」と、「AWS Well-Architected フレームワーク」を組み合わせることで、効率的かつ高品質なビッグデータ基盤をAWSに構築するための指針を整理しました。ビッグデータ活用基盤リファレンスアーキテクチャは具体的なアーキテクチャのグランドデザイン作成を支援するのに対し、AWS Well-Architectedはクラウド環境における設計の原則とベストプラクティスを定義しています。両者を連携させることで、より実践的で堅牢なビッグデータ基盤の構築が可能です。
データ活用プロジェクトにおけるシステム基盤開発の上流工程で参照されることを目的とした文書です。特定の製品やオープンソースソフトウェアに依存しない内容で、データの「収集」「蓄積」「加工」「活用」という一連のプロセス全体を俯瞰したアーキテクチャ図と、検討すべき項目を観点一覧として体系化しています。
アーキテクチャ図: バッチ処理とストリーム処理の違いにより大きく2つに分類
バッチ: 既存システムのデータは、ファイル転送、API、バルクローダ、ETLなどの方法で「データレイク」に収集・蓄積。その後、「データウェアハウス」や「データマート」で加工・分析
ストリーム: リアルタイムデータは「データハブ」で収集され、ストリーム処理を経て「データマート」や「可視化」に利用
観点一覧: プロジェクト共通項目とシステム化項目の両方が網羅されており、プロジェクトのプラットフォーム選択(オンプレミス、クラウド、ハイブリッド)、コスト、体制から、データ収集や蓄積の詳細な要件まで多岐にわたる観点を整理
※ リファレンスアーキテクチャは、特定の製品やソフトウェアに依存しない内容のため、AWS以外のプラットフォームでも利用可
AWSのアーキテクチャに関するベストプラクティスです。アーキテクチャを評価し、長期的にスケール可能な設計を実装するための一貫したアプローチを提供します。このフレームワークは、クラウドベースの堅牢なシステムを構築するための基本原則となる以下6つの柱に基づいています。
オペレーショナルエクセレンス: ビジネス価値を提供するためにシステムを稼働およびモニタリングし、サポートするプロセスと手順を継続的に改善する能力
セキュリティ: リスク評価と緩和戦略を通じてビジネス価値を提供しながら、情報、システム、資産を保護する能力
信頼性: ワークロードが意図した機能を正常かつ一貫して実行する能力。これには、ワークロードをライフサイクル全体で運用およびテストする能力も含む
パフォーマンス効率: コンピューティングリソースを効率的に使用してシステム要件を満たし、需要の変化や技術の進化に合わせてその効率を維持する能力
コスト最適化: 最も低い価格でビジネス価値を提供するためにシステムを実行する能力
サステナビリティ(持続可能性): クラウドワークロードの実行に伴う環境への影響を最小限に抑える能力
これらの6つの柱は、システムが設計目標を満たしているかを継続的に評価・改善するためのチェックリストとしても機能します。
ビッグデータ活用基盤リファレンスアーキテクチャが提供する「アーキテクチャ図」と「観点一覧」、 AWS Well-Architectedが提供する「クラウドでの実装原則」を組み合わせることで、相乗効果が期待できます。
要件定義フェーズ: ビッグデータ活用基盤リファレンスアーキテクチャの観点一覧を用いて、プロジェクトの要件を網羅的に洗い出す。その際、プラットフォームの選択(クラウド、ハイブリッドなど)やコスト見積もりの段階で、(プラットフォームとしてAWSを選択する場合)AWS Well-Architectedの6つの柱も考慮に入れることで、より現実的な計画を立てる
設計~実装フェーズ: ビッグデータ活用基盤リファレンスアーキテクチャのアーキテクチャ図に基づき、各コンポーネントをAWSサービスで実装する際に、AWS Well-Architectedの原則を適用
データレイクの構築: (例)Amazon S3をデータレイクとして利用する際、AWS Well-Architectedの「コスト最適化」の柱を考慮し、S3のライフサイクルポリシーを適用してデータの保存コストを削減
データ処理の自動化: (例)「バッチ処理」や「ストリーム処理」を実装する際、AWS GlueやAmazon Kinesisといったサーバーレスサービスを選択することで、AWS Well-Architectedの「オペレーショナルエクセレンス」と「パフォーマンス効率」を向上
セキュリティの確保: (例)データ収集から活用までの各レイヤーで、AWS Well-Architectedの「セキュリティ」の柱に沿って、AWS IAMやAWS KMSを適切に設定し、データへのアクセス制御や暗号化を徹底
信頼性の確保: (例)データレイクに格納されたデータの「バックアップ」計画を策定する際、AWS Well-Architectedの「信頼性」の柱に沿って、S3のレプリケーション機能を利用して複数リージョンにデータを複製し、災害時の復旧能力を向上
リソースの自動スケーリングとサーバレス化: (例)AWS Well-Architectedの「サステナビリティ(持続可能性)」の柱に沿って、処理量の増減に応じて自動的にスケーリングするAmazon EMRや、処理が不要なときにリソースを消費しないサーバーレスサービス(AWS Lambdaなど)を積極的に採用することで、エネルギー消費とコストを最小限に抑制
運用フェーズ: システム稼働後も、AWS Well-Architectedの評価ツールなどを利用して、定期的にシステムの健全性をチェックし、継続的な改善を図る
ビッグデータ活用基盤リファレンスアーキテクチャは、ビッグデータ基盤を成功させるための包括的な設計ガイドであり、特に上流工程でグランドデザインの検討で有用です。一方、AWS Well-Architected フレームワークは、クラウドの特性を活かした設計と運用のための不可欠な羅針盤です。この2つの情報を統合的に活用することで、機能要件だけでなく、セキュリティ、信頼性、コスト効率といった非機能要件も高い水準で満たす、高品質なビッグデータ基盤をAWS上に構築することが可能です。両者は、効率的かつ高品質なビッグデータ基盤をAWSに構築する際、計画から運用に至るまで、開発プロジェクトの成功を支える強力なツールです。