data warehousing fundamentals
データウェアハウジングの基礎についてすべて学びます。この詳細ガイドでは、データウェアハウジングとは何か、そのタイプ、特性、長所、および短所について説明します。
データウェアハウスは、今日のIT業界における最新のストレージトレンドです。
このチュートリアルでは、データウェアハウスとは何ですか?データウェアハウジングが重要なのはなぜですか?データウェアハウスアプリケーションの種類、データウェアハウスの特性、データウェアハウスの長所と短所。
このシリーズのデータウェアハウジングチュートリアルのリスト:
チュートリアル#1: データウェアハウジングの基礎
チュートリアル#2: データウェアハウスのETLプロセスとは何ですか?
チュートリアル#3: データウェアハウスのテスト
チュートリアル#4: データウェアハウスのディメンションデータモデル
チュートリアル#5: データウェアハウスモデリングのスキーマタイプ
チュートリアル#6: データマートチュートリアル
チュートリアル#7: ETLのメタデータ
このデータウェアハウスシリーズのチュートリアルの概要
| Tutorial_Num | あなたが学ぶこと |
|---|---|
| チュートリアル#7 | ETLのメタデータ このチュートリアルでは、ETLでのメタデータの役割、メタデータの例と種類、メタデータリポジトリ、およびメタデータ管理での課題について説明します。 |
| チュートリアル#1 | データウェアハウジングの基礎 このチュートリアルから、データウェアハウジングの概念についてすべて学びます。この詳細ガイドでは、データウェアハウジングとは何か、そのタイプ、特性、長所と短所について説明します。 |
| チュートリアル#2 | データウェアハウスのETLプロセスとは何ですか? ETLプロセスに関するこの詳細なチュートリアルでは、データウェアハウスのETL(抽出、変換、および読み込み)プロセスに関連するプロセスフローとステップについて説明します。 |
| チュートリアル#3 | データウェアハウスのテスト このチュートリアルでは、データウェアハウステスト、ETLテストの責任、DWおよびETL展開のエラーの目標と重要性について詳しく説明します。 |
| チュートリアル#4 | データウェアハウスのディメンションデータモデル このチュートリアルでは、データウェアハウスにおけるディメンションデータモデルの利点と神話について説明します。また、例を使用してディメンションテーブルとファクトテーブルについても学習します。 |
| チュートリアル#5 | データウェアハウスモデリングのスキーマタイプ このチュートリアルでは、さまざまなデータウェアハウススキーマタイプについて説明します。スタースキーマとスノーフレークスキーマとは何か、スタースキーマとスノーフレークスキーマの違いについて学びます。 |
| チュートリアル#6 | データマートチュートリアル このチュートリアルでは、データマートの実装、タイプ、構造、およびデータウェアハウスとデータマートの違いを含むデータマートの概念について説明します。 |
学習内容:
データウェアハウジングの基礎:完全ガイド
ターゲットオーディエンス
- データウェアハウス/ ETL開発者およびテスター。
- データベースの概念に関する基本的な知識を持つデータベースの専門家。
- データウェアハウジングの概念を理解したいデータベース管理者/ビッグデータの専門家。
- データウェアハウスの仕事を探している大学卒業生/フレッシャーズ。
データウェアハウジングとは何ですか?
データウェアハウス(DW)は、大量の整理されたデータのリポジトリです。このデータは、1つ以上の異なるデータソースから統合されます。 DWは、主に組織での分析レポートと時間通りの意思決定のために設計されたリレーショナルデータベースです。
この目的のためのデータは、ソーストランザクションデータから分離および最適化されており、メインビジネスに影響を与えることはありません。組織がビジネスの変更を導入した場合、DWはその変更の影響を調べるために使用されるため、DWは非意思決定プロセスの監視にも使用されます。

運用データはDWから非常に分離されているため、データウェアハウスはほとんどが読み取り専用システムです。これにより、適切なクエリ書き込みで最大量のデータを取得するための環境が提供されます。
したがって、DWは、ビジネスユーザー向けのレポートやダッシュボードを表示するビジネスインテリジェンスツールのバックエンドエンジンとして機能します。 DWは、銀行、金融、小売セクターなどで広く使用されています。
データウェアハウジングが重要なのはなぜですか?
データウェアハウスが重要である理由のいくつかを以下に示します。
- データウェアハウスは、「異なる形式」の複数の異種ソースからすべての運用データを収集し、抽出、変換、および読み込み(ETL)のプロセスを通じて、組織全体で「標準化された次元形式」でデータをDWに読み込みます。
- データウェアハウスは、分析レポートと事実に基づく意思決定のために「現在のデータと履歴データ」の両方を維持します。
- 四半期レポートと年次レポートを比較してパフォーマンスを向上させることにより、組織がコストの削減と収益の増加について「よりスマートで迅速な意思決定」を行うのに役立ちます。
データウェアハウスアプリケーションの種類
ビジネスインテリジェンス(BI)は、意思決定のために設計されたデータウェアハウジングのブランチです。 DW内のデータが読み込まれると、BIはデータを分析し、ビジネスユーザーに提示することで主要な役割を果たします。
実際には、「データウェアハウスアプリケーション」という用語は、データを処理および利用できるさまざまなタイプの数を意味します。
下記の3種類のDWアプリケーションがあります。
- 情報処理
- 分析処理
- BIの目的に役立つデータマイニング
#1)情報処理
これは、データウェアハウスが格納されているデータと直接1対1で接触できる一種のアプリケーションです。
データは、データに直接クエリを書き込むことで処理できるため(または)、データの基本的な統計分析を使用して、最終結果をレポート、表、チャート、またはグラフの形式でビジネスユーザーに報告します。
DWは、情報処理のために次のツールをサポートしています。
(i)クエリツール: ビジネス(または)アナリストは、クエリツールを使用してクエリを実行し、データを調査し、ビジネス要件に従ってレポートまたはグラフィックの形式で出力を生成します。

(ii)レポートツール: ビジネスが定義された形式でスケジュールに基づいて、つまり毎日、毎週、または毎月結果を確認したい場合は、レポートツールが使用されます。これらの種類のレポートは、いつでも保存および確認できます。
(iii)統計ツール: 企業がデータの広い視野で分析を行いたい場合は、統計ツールを使用してそのような結果を生成します。企業は、これらの戦略的結果を理解することにより、結論と予測を行うことができます。

#2)分析処理
これは、データウェアハウスが格納されているデータの分析処理を可能にする一種のアプリケーションです。データは、スライスアンドダイス、ドリルダウン、ロールアップ、ピボットなどの操作で分析できます。
(i)スライスアンドダイス :データウェアハウスを使用すると、スライスアンドダイス操作で、さまざまな視点を組み合わせて、さまざまなレベルからアクセスされたデータを分析できます。スライスアンドダイス操作は、内部でドリルダウンメカニズムを使用します。スライスはディメンションデータで機能します。
ビジネス要件の一部として、単一の領域に焦点を当てると、スライスは要件に従ってその特定の領域の寸法を分析し、結果を提供します。ダイシングは分析操作で機能します。ダイシングは、すべてのディメンションにわたって特定の属性セットをズームして、多様な視点を提供します。次元は、1つ以上の連続したスライスから考慮されます。
(ii)ドリルダウン :企業が要約番号のより詳細なレベルに移動したい場合、ドリルダウンはその要約をマイナーな詳細レベルにナビゲートするための操作です。これにより、何が起こっているのか、どこにビジネスをより集中させる必要があるのかがわかります。
根本原因分析のために、階層レベルから細部レベルまでトラックをドリルダウンします。これは、販売のドリルダウンが 国レベル->地域レベル->州レベル->地区レベル->店舗レベル。

(iii)ロールアップ :ロールアップは、ドリルダウン操作とは逆に機能します。ビジネスで要約されたデータが必要な場合は、ロールアップが重要になります。ディメンション階層を上に移動することにより、詳細レベルのデータを集約します。
ロールアップは、システムの開発とパフォーマンスを分析するために使用されます。
これは、 例 合計をロールアップできる販売ロールアップのように 都市レベル -> 州レベル -> 地域レベル -> 国レベル 。
(iv)ピボット :ピボットは、キューブ上のデータを回転させることによってディメンションデータを分析します。 例えば、 行のディメンションを列のディメンションに、またはその逆に入れ替えることができます。
#3)データマイニング
これは、データウェアハウスがデータの知識発見を可能にし、結果が視覚化ツールで表される一種のアプリケーションです。上記の2種類のアプリケーションでは、ユーザーが情報を操作できます。
データはさまざまなビジネスで膨大になるため、データウェアハウスにクエリを実行してドリルダウンし、データに関するすべての可能な洞察を取得することは困難です。次に、知識の発見を達成するためにデータマイニングが登場します。
これにより、過去のすべての関連付け、結果などがデータに反映され、将来が予測されます。したがって、これはデータ駆動型であり、ユーザー駆動型ではありません。データは、隠れたパターン、関連、分類、および予測を見つけることによって発見できます。
データマイニングは、将来を予測するためにデータと詳細に連携します。予測に基づいて、実行するアクションも提案します。
以下に、データマイニングのさまざまなアクティビティを示します。
- パターン: データマイニングは、データベースで発生するパターンを検出します。ユーザーは、意思決定のためにパターンに関するある程度の知識が期待されるビジネス入力を提供できます。
- 協会/関係: データマイニングは、相関ルールの頻度でオブジェクト間の関係を検出します。この関係は、2つ以上のオブジェクト間である可能性があります(または)同じオブジェクトのプロパティ内のルールを検出する可能性があります。
- 分類: データマイニングは、事前定義されたクラスのセットにデータを編成します。したがって、データからオブジェクトが取得されると、分類によってそれぞれのクラスラベルがそのオブジェクトに関連付けられます。
- 予測: データマイニングは、既存の値のセットを比較して、ビジネスで可能な限り最良の将来の値/トレンドを見つけます。
したがって、上記のすべての結果に基づいて、データマイニングは実行する一連のアクションも提案します。
データウェアハウスの特徴
データウェアハウスは、サブジェクト指向、統合、不揮発性、および時変としてのデータの次の特性に基づいて構築されます。
#1)主題指向: 賢明なデータの適用ではなく、特定のサブジェクト領域に関してデータを分析できるため、データウェアハウスをサブジェクト指向として定義できます。これにより、意思決定を容易にするためにより明確な結果が得られます。教育システムに関しては、主題分野は学生、主題、マーク、教師などである可能性があります。
携帯電話をスパイするアプリケーション
#2)統合: データウェアハウス内のデータは、他のリレーショナルデータベース、フラットファイルなどの個別のソースから統合されます。このような膨大な量のデータは、効果的なデータ分析のためにフェッチされます。ただし、異なるデータソースが異なる形式である可能性があるため、データの競合が発生する可能性があります。データウェアハウスは、このすべてのデータをシステム全体で一貫した形式で提供します。
#3)不揮発性: データがデータウェアハウスに読み込まれると、変更することはできません。データを頻繁に変更してもデータを分析できないため、論理的にはこれで問題ありません。運用データベースの頻繁な変更は、スケジュールに基づいてデータウェアハウスにロードできます。このプロセス中に、新しいデータが追加されますが、以前のデータは消去されず、履歴データとして残ります。
#4)時変: データウェアハウス内の最近のデータとともにすべての履歴データは、任意の期間のデータを取得するために重要な役割を果たします。レポートやグラフなどが必要な場合は、それを前年と比較して傾向を分析するために、6か月前、1年前、またはそれ以上の古いデータなどが必要です。
データウェアハウスの利点
データウェアハウスシステムが生産的である場合、組織はそれを使用することで次の利点を得ることができます。
- 強化されたビジネスインテリジェンス
- システムとクエリのパフォーマンスの向上
- 複数のソースからのビジネスインテリジェンス
- データへのタイムリーなアクセス
- 強化されたデータ品質と一貫性
- ヒストリカルインテリジェンス
- 高い投資収益率
#1)強化されたビジネスインテリジェンス: データウェアハウスとビジネスインテリジェンスがなかった初期の頃、ビジネスユーザーとアナリストは、限られた量のデータと独自の直感で意思決定を行っていました。
DW&BIは、実際の事実と、一定期間にわたって収集された実際の組織データを使用して洞察を提供することにより、変化をもたらしました。ビジネスユーザーは、戦略的な意思決定とスマートなビジネス上の意思決定のニーズに基づいて、マーケティング、財務、販売などのビジネスプロセスデータを直接クエリできます。
#2)システムとクエリのパフォーマンスの向上: データウェアハウジングは、異種システムからかさばる情報を収集し、それを1つのシステムの下に配置して、単一のクエリエンジンを使用してデータを高速に取得できるようにします。
#3)複数のソースからのビジネスインテリジェンス: ビジネスインテリジェンスが一般的にデータに対してどのように機能するか知っていますか?複数のシステム、サブシステム、プラットフォーム、およびデータソースからデータを吸収して、プロジェクトで作業します。ただし、データウェアハウスは、重複することなくすべてのプロジェクトデータを統合することにより、BIのこの問題を解決します。
#4)データへのタイムリーなアクセス: ビジネスユーザーは、データの取得に費やす時間を減らすことでメリットを得ることができます。便利なツールがいくつかあり、最小限の技術的知識でデータをクエリしてレポートを生成できます。これにより、ビジネスユーザーはデータ収集ではなくデータ分析に十分な時間を費やすことができます。
#5)強化されたデータ品質と一貫性: データウェアハウジングは、異なるソースシステム形式のデータを単一の形式に変換します。したがって、データウェアハウスにデータを提供している同じビジネスユニットが、ビジネスレポートとクエリにDWリポジトリを再利用できる可能性があります。
したがって、組織の観点からは、すべてのビジネスユニットが一貫した結果/レポートで待機します。したがって、この高品質で一貫性のあるデータは、ビジネスを成功させるのに役立ちます。
#6)ヒストリカルインテリジェンス: データウェアハウスは、トランザクションシステムによって維持されないすべての履歴データを維持します。この大量のデータは、特定の期間のデータを分析してレポートし、傾向を分析して将来を予測するために使用されます。
#7)高い投資収益率(ROI): 誰もがより大きな利益とより少ない費用の観点から、投資の良いリターンを期待することによってビジネスを始めます。実際のデータの世界では、多くの研究により、データウェアハウスとビジネスインテリジェンスシステムを実装することで高い収益が得られ、コストが節約されることが証明されています。
これで、適切に設計されたDWシステムがビジネスにどのようにメリットをもたらすかを理解できるはずです。
データウェアハウジングのデメリット
これは非常に成功したシステムですが、システムの落とし穴のいくつかを知っておくとよいでしょう。
- データウェアハウスの作成は、間違いなく時間のかかる複雑なプロセスです。
- システムは継続的なアップグレードが必要なため、メンテナンスコストは高額です。また、適切に利用しないと増加する可能性があります。
- DWシステムを理解し、技術的に実装するために、開発者、テスター、およびユーザーに適切なトレーニングを提供する必要があります。
- 意思決定のためにDWにロードできない機密データが存在する可能性があります。
- ビジネスプロセス(または)ソースシステムの再構築は、DWに大きな影響を及ぼします。
結論
この入門チュートリアルが、データウェアハウジングの基礎の背景を提供することを願っています。データウェアハウジングのすべての基本的な概念を詳しく調べました。
この包括的なチュートリアルでは、データウェアハウジングの定義、タイプ、特性、長所と短所を学びました。
=> Easy Data Warehousing TrainingSeriesをお読みください。