what is data lake data warehouse vs data lake
このチュートリアルでは、データレイクの必要性、定義、アーキテクチャ、利点、データレイクとデータウェアハウスの違いなど、データレイクについてすべて説明します。
「データレイク」という用語は、今日のITの世界で非常に頻繁に使用されています。それが何で、その用語が正確にどこから来ているのか疑問に思ったことはありますか?
データがさまざまな形で昼夜を問わず増幅している情報技術の時代では、データレイクの概念は確かに重要で有用になります。
ここでは、データレイクとは何か、その利点や用途などについて詳しく見ていきましょう。
学習内容:
データレイクとは何ですか?どのように機能しますか?
データレイクは、データのシステムまたは一元化されたリポジトリであり、構造化、半構造化、非構造化、およびバイナリデータをすべて自然/ネイティブ/生の形式で保存できます。
構造化データには、RDBMSのテーブルが含まれる場合があります。半構造化データには、CSVファイル、XMLファイル、ログ、JSONなどが含まれます。非構造化データには、PDF、Word文書、テキストファイル、電子メールなどが含まれる場合があります。バイナリデータには、オーディオ、ビデオ、画像ファイルが含まれる場合があります。
これは、データを格納するためのフラットなアーキテクチャに従います。通常、データはオブジェクトBLOBまたはファイルの形式で保存されます。
(画像 ソース )
データレイクを使用すると、最初にデータを構造化する必要なしに、すべての企業を1か所にそのまま保存できます。機械学習、リアルタイム分析、オンプレミスのデータ移動、リアルタイムのデータ移動、ダッシュボード、視覚化など、さまざまな種類の分析を直接実行できます。
すべてのデータを元の形式で保持し、分析が後でオンデマンドで行われることを前提としています。
データレイクのアナロジー
(画像 ソース )
データレイクという用語は、当時PentahoのCTOであったJamesDixonによって造られました。彼は、データマート(データウェアハウスのサブセット)を、直接簡単に使用できるようにパッケージ化および構造化された、洗浄済みの蒸留水で満たされたウォーターボトルに似ていると定義しています。
一方、それは自然な形の水域に類似しています。データは小川(さまざまなビジネス機能/ソースシステム)から湖に流れます。データレイクの消費者、つまりユーザーは、分析、調査、サンプルの収集、およびダイビングのために湖にアクセスできます。
湖の水が釣り、ボート、飲料水の提供など、さまざまなニーズに対応しているように、データレイクアーキテクチャは複数の目的を果たします。
ウォークラフトプライベートサーバーの新しい世界
データサイエンティストは、これを使用してデータを探索し、仮説を立てることができます。これは、データアナリストがデータを分析してパターンを発見する機会を提供します。これは、ビジネスユーザーと利害関係者にデータを探索するためのモードを提供します。
また、レポートアナリストがレポートを設計し、ビジネスに提示する機会も提供します。それどころか、データウェアハウスは、飲料水にのみ使用できるビスレリボトルのように、明確な目的のためにデータをパッケージ化しました。
データレイク市場–成長、傾向、予測
データレイク市場は、製品(ソリューションまたはサービス)、展開(オンプレムまたはクラウド)、クライアントの業界(小売、銀行、ユーティリティ、保険、IT、ヘルスケア、テレコム、出版、製造)、および地理に基づいて分割されます地域。
Mordor Intelligenceが発行したレポートによると、 以下は、データレイクの市場スナップショットです。
(画像 ソース )
#1)市場の概要
データレイク市場は2019年に37億4000万米ドルと評価され、2020年から2025年の予測期間にわたって29.9%のCAGR(複合年間成長率)で、2025年までに176.0億米ドルに達すると予測されています。
これらのデータリザーバーは、データウェアハウスを介した多くの組織にとって経済的なオプションとしてますます判明しています。データレイクとは対照的に、データウェアハウジングでは、ウェアハウスに入る前にデータを追加で処理する必要があります。
ウェアハウス用のデータベースを作成するには多くの処理とスペースが必要なため、データレイクを管理するコストはデータウェアハウスと比較して少なくなります。
クラスdのデフォルトのサブネットマスク
#2)主要なプレーヤー
下の画像に示すように、データレイク市場は5つの主要なプレーヤーによって支配される統合市場になると予測されています。
#3)主なトレンド
- その使用は銀行部門でかなり成長すると予想されます。銀行は、外出先での分析を提供するためにデータレイクを採用しています。また、銀行セクターの多くのサイロを解消するのにも役立っています。
- 世界中でデジタル決済/モバイルウォレットの使用が大幅に増加しているため、ビッグデータ分析の範囲が拡大し、それによってそれらの機会が増えています。
- 北米ではデータレイクの採用が増えると予想されます。キャップジェミニが行った調査によると、米国の金融機関の60%以上が、ビッグデータ分析がビジネスの差別化要因として機能し、競争力を高めていると考えています。組織の90%以上が、ビッグデータプロジェクトへの投資が将来の成功の可能性を高めると感じています。
- スマートメーターの用途に必要であり、米国では2021年に約9千万台のスマートメーターが設置されると見込まれているため、高い需要が見込まれます。
データレイクが必要な理由
データレイクの目的は、データ(最も純粋な形式のデータ)の未処理のビューを提供することです。
例
今日、グーグル、アマゾン、クラウドエラ、オラクル、マイクロソフトなどの多くの大企業がデータレイクを提供しています。
多くの組織が、Azure DataLakeやAmazonS3などのクラウドストレージサービスを使用しています。企業は、ApacheHadoopのような分散ファイルシステムも使用しています。独自のビッグデータを管理および共有できる個人データレイクの概念も進化しました。
産業用途について言えば、ヘルスケア分野に非常に適しています。ヘルスケアにおける多くのデータの非構造化フォーマットのため( 例えば、 医師のメモ、臨床データ、患者の病歴など)およびリアルタイムの洞察の要件であるデータレイクは、データウェアハウスよりも優れたオプションです。
データが非常に膨大で生の教育セクターでも柔軟なソリューションを提供します。
運輸部門では、主にサプライチェーン管理やロジスティクスにおいて、予測を行い、コスト削減のメリットを実現するのに役立ちます。
航空および電力業界もデータレイクを使用しています。
その実装の例は、GE Predix(General Electricによって開発された)です。これは、産業資産にリンクし、データを収集および分析し、リアルタイムで提供する産業アプリケーションを作成、展開、および管理するための強力なデータガバナンス能力を提供する産業データレイクプラットフォームです。産業インフラストラクチャとプロセスを改善するための洞察。
データウェアハウスとデータレイクの違い
多くの場合、湖がデータウェアハウスとどのように異なるかを理解するのは難しいと感じています。彼らはまた、それがデータウェアハウスと同じであると主張しています。しかし、これは現実ではありません。
データレイクとデータウェアハウスの唯一の共通点は、どちらもデータストレージリポジトリであるということです。残り、彼らは違います。それらには異なるユースケースと目的があります。
違いは以下のとおりです。
データレイク | データウェアハウス | |
---|---|---|
分析 | データレイクは、機械学習、データ検出データプロファイリング、および予測分析に使用できます。 | データウェアハウスは、ビジネスインテリジェンス、視覚化、およびバッチレポートに使用できます。 |
データ | データレイクは、すべての生データを保持します。 構造化、非構造化、または半構造化の場合があります。データレイク内の一部のデータは使用されない可能性があります。 | データウェアハウスには、処理および改良されたデータ、つまり特定のビジネス上の問題の報告と解決に必要な構造化データのみが組み込まれています。 |
ユーザー | 一般に、データレイクのユーザーはデータサイエンティストとデータ開発者です。 | 一般に、データウェアハウスのユーザーは、ビジネスプロフェッショナル、運用ユーザー、およびビジネスアナリストです。 |
アクセシビリティ | データレイクは構造がないため、アクセスが容易で、簡単かつ迅速に更新できます。 | データウェアハウスでは、データウェアハウスは設計によって構造化されているため、データの更新はより複雑でコストのかかる操作です。 |
スキーマ | スキーマオンライト。 DW実装の前に設計されています。 | スキーマオンリード。分析時に書かれました。 |
建築 | フラットアーキテクチャ | 階層アーキテクチャ |
目的 | データレイクに保存されている生データの目的は固定されていないか、未定です。 場合によっては、特定の将来の使用を念頭に置いて、または単にデータを手元に置くために、データがデータレイクに流れ込むことがあります。 データレイクのデータは整理されておらず、フィルタリングも少なくなっています。 | データウェアハウスに保存されている処理済みデータには、特定の明確な目的があります。 DWは、データを整理およびフィルタリングしました。 したがって、必要なストレージスペースはデータレイクよりも少なくなります。 |
ストレージ | 低コストのストレージ向けに設計されています。 データレイクのハードウェアは、データウェアハウスのハードウェアとは大きく異なります。 安価なストレージと組み合わせた既製のサーバーを使用します。これにより、データレイクはかなり経済的で、テラバイトやペタバイトまで拡張性が高くなります。 これは、すべてのデータをデータレイクに保持して、いつでもその時点に戻って分析を実行できるようにするために行われます。 | 大量のデータには高価です。 データウェアハウスには、高性能にするために高価なディスクストレージがあります。 したがって、スペースを節約するために、データモデルは単純化され、ビジネス上の意思決定を行うために実際に必要なデータのみがデータウェアハウスに保持されます。 |
データ型のサポート | データレイクは、サーバーログ、センサーデータ、ソーシャルネットワークアクティビティ、テキスト、画像、マルチメディアなどの非従来型のデータタイプを非常によくサポートします。 すべてのデータは、ソースや構造に関係なく保持されます。 | 通常、データウェアハウスは、トランザクションシステムからフェッチされたデータで構成されます。 従来とは異なるデータ型を十分にサポートしていません。従来とは異なるデータの保存と消費は、データウェアハウスではコストがかかり困難な場合があります。 |
セキュリティ | データレイクのセキュリティは、データウェアハウスよりも比較的新しい概念であるため、「成熟」段階にあります。 | データウェアハウスのセキュリティは「成熟した」段階にあります。 |
機敏 | 非常に機敏です。必要に応じて構成および再構成します。 | アジャイル性が低い。固定構成。 |
データレイクアーキテクチャ
アーキテクチャ図
上記は、データレイクの概念的なアーキテクチャ図です。左端には、構造化、半構造化、または非構造化のデータソースがあることがわかります。
これらのデータソースは、生の形式のデータ、つまり変換なしのデータを使い果たす生データストアに結合されます。これは、低コストで永続的でスケーラブルなストレージです。
次に、データ検出、探索的データ分析、および予測モデリングに使用できる分析サンドボックスがあります。基本的に、これはデータサイエンティストがデータを探索し、新しい仮説を立て、ユースケースを定義するために使用されます。
次に、生データを消費者が使用できる形式、つまりエンドユーザーへのレポートに使用できる構造化された形式に処理するバッチ処理エンジンがあります。
次に、ストリーミングデータを取り込んで変換するリアルタイム処理エンジンがあります。
データレイクの主な特徴
データレイクとして分類されるためには、ビッグデータリポジトリは次の3つの属性を持っている必要があります。
#1)通常は分散ファイルシステム(DFS)内に格納されているデータの単一の共通リポジトリ。
Hadoopデータレイクは、ネイティブ形式でデータを保持し、データライフサイクル中にデータへの変更と相対的なセマンティクスをキャプチャします。このアプローチは、コンプライアンスチェックと内部監査に特に役立ちます。
これは、データが変換、集約、および変更されるときに、必要なときにデータ全体を配置することが困難であり、企業がデータのソース/出所を見つけるよう努める従来のエンタープライズデータウェアハウスを超える拡張機能です。
#2)計画およびジョブスケジューリング機能を組み込みます(たとえば、YARNなどのスケジューラツールを使用)。
ワークロードの実行はエンタープライズHadoopにとって不可欠なニーズであり、YARNはリソース管理と、一定のプロセスを提供するための中央プラットフォームを提供します。 セキュリティ 、およびHadoopクラスター全体のデータガバナンスツール。分析ワークフローが必要なレベルのデータアクセスとコンピューティング能力を備えていることを確認します。
#3)データを消費、処理、または操作するために必要なユーティリティと関数のセットで構成されます。
組織がデータをネイティブ形式または純粋な形式で保存するため、ユーザーが簡単かつ迅速にアクセスできることは、データレイクの重要な特徴の1つです。
データが構造化、非構造化、半構造化のいずれの形式であっても、データレイクにそのまま挿入されます。これにより、データ所有者は、データを共有するための技術的または政治的な障壁を取り除くことにより、顧客、サプライヤー、および運用データを組み合わせることができます。
利点
(画像 ソース )
- 用途が広い :CRMデータからソーシャルネットワークアクティビティに至るまで、あらゆる種類の構造化/非構造化データを保存するのに十分な能力。
- スキーマの柔軟性の向上 :データ分析の計画や事前知識は必要ありません。すべてのデータを元の形式で保存し、後でオンデマンドで分析が行われることを前提としています。これはOLAPにとって非常に便利です。 例えば、 Hadoopデータレイクを使用すると、スキーマをデータから切り離すことができるスキーマフリーにすることができます。
- リアルタイムの意思決定分析 :リアルタイムの意思決定分析に到達するための、膨大な量の一貫したデータとディープラーニングアルゴリズムのメリットを享受しています。無制限のデータ型から値を取得できます。
- スケーラブル: これらは、従来のデータウェアハウスよりもはるかにスケーラブルであり、コストも低くなります。
- 高度な分析/ SQLおよび他の言語との互換性: データレイクでは、データをクエリする方法が多数あります。単純な分析のためにSQLのみをサポートする従来のデータウェアハウスとは異なり、データを分析するための他の多くのオプションと言語サポートを提供します。また、SparkMLlibなどの機械学習ツールとも互換性があります。
- データの民主化: 効果的なデータ管理プラットフォームを利用しながら、組織全体のデータの単一の統合ビューを介したデータへの民主化されたアクセス。これにより、データのオールラウンドな可用性が保証されます。
- データの品質の向上: 全体として、ネイティブ形式のデータストレージ、スケーラビリティ、汎用性、スキーマの柔軟性、SQLやその他の言語のサポート、高度な分析などの技術的メリットを通じて、データレイクを使用してデータの品質を向上させることができます。
課題とリスク
データレイクには多くの利点があります。しかし、そうです。組織が注意深く取り組む必要のある、それらに関連するいくつかの課題とリスクもあります。
彼らです:
- 適切に設計されていない場合、それらはデータの沼に変わる可能性があります。場合によっては、組織は戦略や目的を考慮せずに、これらの湖に無制限のデータをダンプし続けることになります。
- データレイクでマイニングを行うのは非常に難しいため、データを使用したいアナリストは、その方法について知識がない場合があります。したがって、それらはしばらくすると関連性と勢いを失います。組織は、アナリストにとってこの障壁を取り除くことに取り組む必要があります。
- データレイクには多くのまとまりのないデータがあるため、本番環境で使用するのに十分なほど新鮮でも最新でもありません。したがって、これらの湖のデータはパイロットモードのままであり、本番環境に移行することはありません。
- 非構造化データは、使用できないデータにつながる可能性があります。
- 組織は、行われた投資に関してビジネスに重大な影響を与えていないことを経験することがあります。これには考え方の変更が必要です。影響が発生するためには、企業はマネージャーとリーダーに、これらのデータリザーバーから得られた分析に基づいて意思決定を行うように促す必要があります。
- セキュリティとアクセス制御も、それらを使用する際のリスクの1つです。プライバシーと規制が必要な可能性のあるデータの一部は、監視なしでデータレイクに配置されます。
実装
企業では、アジャイルな方法でデータレイクの実装を行うことは非常に賢明です。
つまり、最初にData Lake MVPを実装するには、品質、アクセスのしやすさ、ストレージ、分析機能に関してユーザーがテストし、フィードバックを受け取り、複雑な要件と機能を追加してLakeに価値を付加します。
一般に、組織は以下の4つの基本的な実装段階を経ます。
(画像 ソース )
ステージ1:
基本的なデータレイク: この段階で、チームはデータレイクの基本的なアーキテクチャ、テクノロジー(クラウドベースまたはレガシー)、およびセキュリティと管理のプラクティスに落ち着きます。さまざまなエンタープライズソースからのすべての生データを保存し、内部データと外部データを組み合わせて豊富な情報を提供できるようになっています。
ステージ2:
サンドボックス:分析能力の強化: この段階で、データサイエンティストはデータリザーバーにアクセスして、生データを利用するための予備実験を実行し、ビジネスニーズを満たす分析モデルを設計します。
ステージ3:
Javaで.jarを開く方法
データウェアハウスとデータレイクのコラボレーション: この段階で、組織は既存のデータウェアハウスとの相乗効果でデータレイクの使用を開始します。データウェアハウスのストレージ制限を超えないように、優先度の低いデータが送信されます。
これは、コールドデータから洞察を生成するか、従来のデータベースでインデックス付けされていない情報を検出するためにクエリを実行する可能性を示します。
ステージ4:
データレイクのエンドツーエンドの採用: これは、組織のデータアーキテクチャの重要な要素になり、効果的に直接検索操作を行う最後の成熟度取得段階です。この時点で、データレイクはEDWに取って代わり、すべてのエンタープライズデータの唯一のソースになります。
組織は、データレイクを通じて次のことを実行できます。
- さまざまなビジネスニーズに対応する複雑なデータモデリングおよび分析ソリューションを作成します。
- データレイクからの理解とさまざまなアプリケーションおよびデータソースを統合するインタラクティブなダッシュボードを設計します。
- 計算操作を処理するため、高度な分析またはロボット工学プログラムを実装します。
この時点で、それは強力なセキュリティと管理手段も持っています。
データレイクベンダー
業界にはデータレイクツールを提供するさまざまなベンダーがあります。
(画像 ソース )
大企業を見ると:
- コンピューティング インテリジェントなデータレイクツールを提供しています。 BDM(Big Data Management)10.2.2は、利用可能な最新バージョンです。
- と呼ばれるベンダーがあります 見物人 ツールも提供している人。
- 会社 タレンド ETLツールで人気のあるデータレイクツールも提供します。
- 次に、と呼ばれるオープンソースツールがあります カイロ から Teradata 会社。 Teradata社の「ThinkBig」チームと呼ばれるチームがこのツールを開発しました。
- 会社 キャスクデータ Incはこれらのサービスも提供しています。
- から マイクロソフト 、 発見できる Azureデータレイク 業界で利用可能です。
- Hvr-ソフトウェア データレイク統合ソリューションも提供します。
- 表彰台データ、 Qlikの会社は、データレイクパイプライン、マルチゾーンデータレイクなどのツール製品を提供しています。
- スノーフレーク データレイク製品もあります。
- ザロニ はビッグデータを使用して膨大なデータを処理しているデータレイク会社です。
したがって、これらはすべて、人気のあるサービスプロバイダーであり、そのようなツールのベンダーでもあります。
データレイクに関する知識の実践と構築をお探しの場合は、InformaticaまたはKyloをお勧めします。クラウドベースのサービスをお探しの場合は、Looker、Informatica、Talendを選択できます。これらの3つのベンダーは、AWSクラウドデータレイクを提供しています。また、Kyloから1か月の無料トライアルを入手することもできます。
結論
このチュートリアルでは、データレイクの概念について詳しく説明しました。データレイクの背後にある基本的な考え方、そのアーキテクチャ、主要な特性、利点、およびその例、ユースケースなどについて説明しました。
また、データレイクがデータウェアハウスとどのように異なるかを見ました。また、関連サービスを提供するトップベンダーについても説明しました。
幸せな読書!!