data mart tutorial types
特定の状況に対処する方法
このチュートリアルでは、データマートの実装、タイプ、構造、およびデータウェアハウスとデータマートの違いを含むデータマートの概念について説明します。
これで 完全なデータウェアハウストレーニングシリーズ 、色々見てみました データウェアハウススキーマ 詳細に。
このチュートリアルは、簡単な例とともにデータマートの概念を詳細に学習するのに役立ちます。
データマートとは何ですか?データマートはいつ必要ですか?費用対効果の高いデータマート、データマートのコスト、データマートの種類、データマートの実装手順、データマートの構造、パイロットデータマートはいつ役立ちますか?データマートの欠点と、データウェアハウスとデータマートの違い。
ターゲットオーディエンス
- データウェアハウス/ ETL開発者およびテスター。
- データベースの概念に関する基本的な知識を持つデータベースの専門家。
- データウェアハウス/ ETLの概念を理解したいデータベース管理者/ビッグデータの専門家。
- データウェアハウスの仕事を探している大学卒業生/フレッシャーズ。
学習内容:
- データマートとは何ですか?
- データウェアハウスとデータマートの比較
- データマートの種類
- データマートの実装手順
- データマートの構造
- パイロットデータマートはいつ役に立ちますか?
- データマートの欠点
- 結論
データマートとは何ですか?
データマートは、主にマーケティング(または)販売などの特定のビジネスドメインに関連するデータウェアハウスのごく一部です。
DWシステムに保存されるデータは膨大であるため、データマートは個々の部門に属するデータのサブセットを使用して設計されています。したがって、特定のユーザーグループは、このデータを分析に簡単に利用できます。
ユーザーの組み合わせが多いデータウェアハウスとは異なり、各データマートには特定のエンドユーザーのセットがあります。エンドユーザーの数が少ないほど、応答時間が長くなります。
データマートは、ビジネスインテリジェンス(BI)ツールにもアクセスできます。データマートには、重複した(または)未使用のデータは含まれていません。それらは定期的に更新されます。それらは主題指向で柔軟なデータベースです。各チームは、データウェアハウス(または)他のデータマートのデータを変更することなく、データマートを開発および保守する権利を有します。
データマートは、データウェアハウスシステムよりもコストが非常に低いため、中小企業に適しています。データマートの構築に必要な時間も、データウェアハウスの構築に必要な時間よりも短くなります。
複数のデータマートの図解:
データマートはいつ必要ですか?
データマートの運用コストは高額になる場合があるため、必要に応じて、利害関係者を関与させて、部門のデータマートを計画および設計します。
データマートを構築する以下の理由を考慮してください。
- 一連のユーザーアクセス制御戦略を使用してデータを分割する場合。
- 特定の部門が、巨大なDWデータをスキャンする代わりに、クエリ結果をはるかに高速に表示したい場合。
- 部門が他のハードウェア(または)ソフトウェアプラットフォームでデータを構築したい場合。
- 部門がそのツールに適した方法でデータを設計したい場合。
費用対効果の高いデータマート
費用効果の高いデータマートは、次の手順で構築できます。
- 機能分割を特定する: 組織のデータを各データマート(部門)固有のデータに分割して、組織にさらに依存することなく、要件を満たします。
- ユーザーアクセスツールの要件を特定する: 市場には、さまざまなデータ構造を必要とするさまざまなユーザーアクセスツールが存在する可能性があります。データマートは、DWデータを乱すことなく、これらすべての内部構造をサポートするために使用されます。ユーザーのニーズに応じて、1つのデータマートを1つのツールに関連付けることができます。データマートは、そのようなツールに毎日更新されたデータを提供することもできます。
- アクセス制御の問題を特定する: DWシステムのさまざまなデータセグメントにプライバシーが必要であり、承認されたユーザーのセットがアクセスする必要がある場合は、そのようなすべてのデータをデータマートに移動できます。
データマートのコスト
データマートのコストは次のように見積もることができます。
- ハードウェアとソフトウェアのコスト: 新しく追加されたデータマートは、エンドユーザーが要求したクエリを処理するために、追加のハードウェア、ソフトウェア、処理能力、ネットワーク、およびディスクストレージスペースを必要とする場合があります。これにより、データマートはコストのかかる戦略になります。したがって、予算は正確に計画する必要があります。
- ネットワークアクセス: データマートの場所がデータウェアハウスの場所と異なる場合は、すべてのデータをデータマートの読み込みプロセスで転送する必要があります。したがって、コストがかかる可能性のある大量のデータを転送するためのネットワークを提供する必要があります。
- 時間枠の制約: データマートの読み込みプロセスにかかる時間は、データの複雑さと量、ネットワーク容量、データ転送メカニズムなどのさまざまな要因によって異なります。
データウェアハウスとデータマートの比較
S.No | データウェアハウス | データ市場 |
---|---|---|
1 | 複雑で、実装にコストがかかります。 | 実装が簡単で安価です。 |
二 | ビジネス全体の組織レベルで機能します。 | 範囲は特定の部門に限定されています。 |
3 | データの依存関係が非常に大きいため、ビジネスユーザーにとってDWのクエリは困難です。 | データが限られているため、ビジネスユーザーにとってデータマートのクエリは簡単です。 |
4 | 実装時間は、数か月または数年になる場合があります。 | 実装時間は、数日、数週間、または数か月と短くなる場合があります。 |
5 | さまざまな外部ソースシステムからデータを収集します。 | いくつかの集中型DW(または)内部(または)外部ソースシステムからデータを収集します。 |
6 | 戦略的な決定を下すことができます。 | ビジネス上の意思決定を行うことができます。 |
データマートの種類
データマートは、依存型、独立型、ハイブリッド型の3つのタイプに分類されます。この分類は、データウェアハウス(または)他のデータソースからのデータの入力方法に基づいています。
抽出、変換、および転送(ETT)は、任意のソースシステムからデータマートのデータを取り込むために使用されるプロセスです。
それぞれのタイプを詳しく見ていきましょう!
#1)依存データマート
依存データマートでは、データは既存のデータウェアハウス自体から供給されます。データマートに再構築されたデータの一部が一元化されたデータウェアハウスから抽出されるため、これはトップダウンアプローチです。
データマートは、以下に示すように、論理的または物理的にDWデータを使用できます。
- 論理ビュー: このシナリオでは、データマートのデータはDWから物理的に分離されていません。仮想ビュー(または)テーブルを介して論理的にDWデータを参照します。
- 物理サブセット: このシナリオでは、データマートのデータはDWから物理的に分離されています。
1つ以上のデータマートが開発されると、ユーザーがデータマートのみにアクセスできるようにする(または)データマートとデータウェアハウスの両方にアクセスできるようにすることができます。
ETTは、使用可能なデータが集中型DWにすでに存在するため、依存データマートの場合の簡略化されたプロセスです。要約されたデータの正確なセットは、それぞれのデータマートに移動する必要があります。
依存データマートの画像を以下に示します :
#2)独立したデータマート
独立したデータマートは、組織内の小さな部門に最適です。ここでは、データは既存のデータウェアハウスから供給されていません。独立したデータマートは、エンタープライズDWにも他のデータマートにも依存していません。
独立したデータマートは、外部(または)内部データソースからデータが抽出、変換、およびロードされるスタンドアロンシステムです。これらは、単純な部門ごとのビジネスニーズをサポートするまで、設計と保守が容易です。
独立したデータマートの場合は、データが集中型DWに処理される方法と同様の方法で、ETTプロセスの各フェーズで作業する必要があります。ただし、ソースの数とデータマートに入力されるデータは少ない場合があります。
独立したデータマートの絵画的表現 :
#3)ハイブリッドデータマート
ハイブリッドデータマートでは、データはDWと他の運用システムの両方から統合されます。ハイブリッドデータマートは、大規模なストレージ構造で柔軟性があります。他のデータマートデータを参照することもできます。
ハイブリッドデータマートの図解:
データマートの実装手順
少し複雑と思われるデータマートの実装について、以下の手順で説明します。
- 設計: ビジネスユーザーがデータマートを要求するときから、設計フェーズには、要件の収集、それぞれのデータソースからの適切なデータの作成、論理的および物理的なデータ構造とER図の作成が含まれます。
- 構築: チームは、データマートシステム内のすべてのテーブル、ビュー、インデックスなどを設計します。
- 人口: データは抽出され、変換され、メタデータとともにデータマートにロードされます。
- アクセス: データマートデータは、エンドユーザーがアクセスできるようになっています。彼らは分析とレポートのためにデータを照会することができます。
- 管理します: これには、ユーザーアクセス制御、データマートのパフォーマンスの微調整、既存のデータマートの保守、システムに障害が発生した場合のデータマート回復シナリオの作成などのさまざまな管理タスクが含まれます。
データマートの構造
各データマートの構造は、要件に従って作成されます。データマート構造はスター結合と呼ばれます。この構造は、データマートごとに異なります。
スター結合は、大量のデータをサポートするためにファクトテーブルとディメンションテーブルで形成される多次元構造です。スター結合では、中央にディメンションテーブルで囲まれたファクトテーブルがあります。
それぞれのファクトテーブルデータは、外部キー参照を持つディメンションテーブルデータに関連付けられています。ファクトテーブルは、20〜30のディメンションテーブルで囲むことができます。
DWシステムと同様に、スター結合でも、ファクトテーブルには数値データのみが含まれ、それぞれのテキストデータはディメンションテーブルに記述できます。この構造は、DWのスタースキーマに似ています。
スター結合構造の図解。
ただし、一元化されたDWからの詳細なデータは、データマートのデータのベースになります。正規化されたDWデータに対して多くの計算が実行され、キューブの形式で保存される多次元データマートデータに変換されます。
これは、レガシーソースシステムからのデータが正規化されたDWデータに変換される方法と同様に機能します。
パイロットデータマートはいつ役に立ちますか?
パイロットは、ユーザー数が制限された小規模な環境に展開して、本格的な展開の前に展開が成功するかどうかを確認できます。ただし、これは常に必須というわけではありません。目的が達成されると、パイロット展開は役に立たなくなります。
Javaでオブジェクトの配列を初期化する方法
パイロット展開に推奨される以下のシナリオを検討する必要があります。
- エンドユーザーがデータウェアハウスシステムを初めて使用する場合。
- エンドユーザーが本番環境に移行する前に、自分でデータ/レポートを取得することに抵抗がない場合。
- エンドユーザーが最新のツール(または)テクノロジーを実際に使用したい場合。
- 経営陣が、大きなリリースにする前に、メリットを概念実証として見たい場合。
- チームが、リリース前にすべてのETLコンポーネント(または)インフラストラクチャコンポーネントが正常に機能することを確認したい場合。
データマートの欠点
データマートにはDWに比べていくつかの利点がありますが、以下に説明するようにいくつかの欠点もあります。
- 作成された不要なデータマートは、維持するのが困難です。
- データマートは、中小企業のニーズを対象としています。データマートのサイズを大きくすると、パフォーマンスが低下します。
- より多くのデータマートを作成する場合、管理者はそれらのバージョン管理、セキュリティ、およびパフォーマンスを適切に処理する必要があります。
- データマートには、履歴(または)要約(または)詳細データが含まれる場合があります。ただし、データの不整合の問題により、DWデータとデータマートデータの更新が同時に行われない場合があります。
結論
多くの組織は、コスト削減の観点からデータマートを目指しています。したがって、このチュートリアルでは、データウェアハウスシステムのデータマートの技術的側面に焦点を当てています。
ETLのメタデータについては、次のチュートリアルで詳しく説明します。
=> すべての人のためのデータウェアハウジングトレーニングシリーズを見るには、ここにアクセスしてください。