big data tutorial beginners what is big data
このチュートリアルでは、ビッグデータの基本についてすべて説明します。チュートリアルには、ビッグデータのアプリケーションに加えて、利点、課題、テクノロジー、およびツールが含まれています。
技術が進歩するこのデジタル世界では、私たちは毎日大量のデータを交換しています。 テラバイトまたはペタバイト 。
その量のデータを毎日交換する場合は、それも維持し、どこかに保存する必要があります。大量のデータを高速でさまざまな種類で処理するためのソリューションは次のとおりです。 ビッグデータ。
さまざまなデータベース、Webサイト、ウィジェットなど、複数のソースからの複雑なデータを処理できます。また、さまざまなソースからのデータをリンクして照合することもできます。それは確かにデータへのより速いアクセスを提供します( 例えば、 ソーシャルメディア)。
このビッグデータシリーズのチュートリアルのリスト
チュートリアル#1: ビッグデータとは? (このチュートリアル)
チュートリアル#2: Hadoopとは何ですか?初心者向けのApacheHadoopチュートリアル
チュートリアル#3: Hadoop HDFS –Hadoop分散ファイルシステム
チュートリアル#4: HadoopアーキテクチャとHDFSコマンドガイド
チュートリアル#5: 例を含むHadoopMapReduceチュートリアル| MapReduceとは何ですか?
チュートリアル#6: 初心者向けのApacheHadoopYARNチュートリアル| YARNとは何ですか?
チュートリアル#7: 包括的なHadoopテストチュートリアル|ビッグデータテストガイド
学習内容:
ビッグデータとは?
巨大という言葉はビッグデータを説明するのに十分ではありません。特定の特性がデータをビッグデータに分類します。
BigDataには3つの主要な特性があり、いずれかのデータがこれらの特性を満たす場合、そのデータはBigDataとして扱われます。私 tは、以下で説明する3つのVの組み合わせです。
- ボリューム
- 速度
- バラエティ
ボリューム :データは膨大な量である必要があります。ビッグデータには、テラバイトまたはペタバイト単位の大量のデータを維持するためのソリューションがあります。 BigDataに対してCRUD(作成、読み取り、更新、削除)操作を簡単かつ効果的に実行できます。
速度 :データへのより高速なアクセスを担当します。 例えば、 今日のソーシャルメディアは、ほんのわずかな時間でデータを迅速に交換する必要があり、BigDataがそのための最良のソリューションです。したがって、速度は別の特性であり、データの処理速度です。
バラエティ :ソーシャルメディアでは、オーディオやビデオの録音、画像などの非構造化データを扱っています。また、銀行ドメインなどのさまざまなセクターでは、構造化データと半構造化データが必要です。 BigDataは、両方のタイプのデータを1か所に保持するためのソリューションです。
多様性とは、複数のソースからの構造化データ/非構造化データなど、さまざまなタイプのデータを意味します。
構造化データ :適切な構造を持つデータ、またはOracle、SQL Server、MySQLなどのリレーショナルデータベースに表形式で簡単に保存できるデータは、構造化データと呼ばれます。簡単かつ効率的に処理または分析できます。
構造化データの例は、SQL(Structured Query Language)を使用して管理できるリレーショナルデータベースに格納されているデータです。 例えば、 従業員データ(名前、ID、指定、および給与)は表形式で保存できます。
従来のデータベースでは、非構造化データまたは半構造化データをフォーマットするか、リレーショナルデータベースに適合させた後でのみ、操作を実行したり、データを処理したりできます。 例 構造化データの中にはERP、CRMなどがあります。
半構造化データ: 半構造化データは、完全にフォーマットされていないデータです。データテーブルやデータベースには保存されません。ただし、このデータにはタグやカンマ区切り値などが含まれているため、簡単に準備して処理できます。 例 半構造化データの例は、XMLファイル、CSVファイルなどです。
非構造化データ: 非構造化データは、構造を持たないデータです。どのような形式でもかまいません。事前定義されたデータモデルはありません。従来のデータベースに保存することはできません。検索と処理は複雑です。
また、非構造化データの量は非常に多いです。 例 非構造化データの対象となるのは、電子メールの本文、音声、ビデオ、画像、達成されたドキュメントなどです。
従来のデータベースの課題
- 従来のデータベースはさまざまなデータをサポートしていません。つまり、非構造化データと半構造化データを処理できません。
- 従来のデータベースは、大量のデータを処理している間は低速です。
- 従来のデータベースでは、大量のデータの処理や分析は非常に困難です。
- 従来のデータベースは、テラバイトまたはペタバイト単位のデータを保存できます。
- 従来のデータベースでは、履歴データとレポートを処理できません。
- 一定時間後、データベースのデータクリーンアップが必要です。
- 従来のデータベースでは、大量のデータを維持するためのコストが非常に高くなります。
- 従来のデータベースでは完全な履歴データが維持されていないため、データの精度は低くなります。
ビッグデータ従来のデータベースに対する利点
- ビッグデータは、構造化、半構造化、非構造化などのさまざまなタイプのデータを処理、管理、および処理する責任があります。
- 大量のデータを維持するという点で費用効果があります。分散データベースシステムで動作します。
- ビッグデータの手法を使えば、大量のデータを長期間保存できます。したがって、履歴データの処理と正確なレポートの生成は簡単です。
- データ処理速度は非常に速いため、ソーシャルメディアはビッグデータ技術を使用しています。
- データの正確性はビッグデータの大きな利点です。
- これにより、ユーザーは現在および過去のデータに基づいてビジネスの効率的な意思決定を行うことができます。
- エラー処理、バージョン管理、およびカスタマーエクスペリエンスは、BigDataで非常に効果的です。
推奨読書=> ビッグデータvsビッグデータ分析vsデータサイエンス
ビッグデータの課題とリスク
課題:
- ビッグデータの主要な課題の1つは、大量のデータを管理することです。今日、データはさまざまなソースからさまざまなシステムに送られてきます。したがって、適切に管理することは、企業にとって非常に大きな課題です。 例えば、 過去20年間のデータを含むレポートを生成するには、システムの過去20年間のデータを保存および維持する必要があります。正確なレポートを提供するには、関連するデータのみをシステムに入力する必要があります。無関係または不要なデータを含めるべきではありません。そうしないと、その量のデータを維持することが企業にとって大きな課題になります。
- このテクノロジーのもう1つの課題は、さまざまなタイプのデータの同期です。ビッグデータはさまざまなソースからの構造化データ、非構造化データ、半構造化データをサポートしていることは誰もが知っているように、データを同期してデータの一貫性を保つことは非常に困難です。
- 企業が直面している次の課題は、システムで直面している問題を支援および実装できる専門家のギャップです。この分野の才能には大きなギャップがあります。
- コンプライアンスの側面の処理には費用がかかります。
- BigDataのデータ収集、集約、保存、分析、およびレポートには莫大なコストがかかります。組織はこれらすべてのコストを管理できる必要があります。
リスク:
- さまざまなデータを処理できますが、企業が要件を適切に理解してデータのソースを制御できない場合、欠陥のある結果が得られます。その結果、結果を調査して修正するには、多くの時間とお金が必要になります。
- データセキュリティは、ビッグデータのもう1つのリスクです。大量のデータがあると、誰かがそれを盗む可能性が高くなります。データハッカーは、会社の重要な情報(履歴データを含む)を盗んで販売する可能性があります。
- また、データプライバシーはビッグデータのもう1つのリスクです。ハッカーから個人データや機密データを保護したい場合は、保護する必要があり、すべてのプライバシーポリシーに合格する必要があります。
ビッグデータテクノロジー
ビッグデータの管理に使用できるテクノロジーは次のとおりです。
- Apache Hadoop
- Microsoft HDInsight
- SQLなし
- ハイブ
- Sqoop
- Excelのビッグデータ
これらのテクノロジーの詳細については、今後のチュートリアルで説明します。
ビッグデータの概念を使用するためのツール
以下に、ビッグデータの概念の使用に役立つオープンソースツールを示します。
#1)Apache Hadoop
#2)Lumify
#3)Apache Storm
#4)アパッチサモア
#5)Elasticsearch
#6)MongoDB
#7)HPCCシステムビッグデータ
ビッグデータの応用
以下は、それが使用されるドメインです。
- 銀行
- メディアとエンターテインメント
- 医療提供者
- 保険
- 教育
- 小売
- 製造
- 政府
ビッグデータとデータウェアハウス
データウェアハウスは、HadoopまたはBigDataテストについて説明する前に理解する必要がある基本的な概念です。
リアルタイムの例からデータウェアハウスを理解しましょう。 例えば 、3つの異なる国に支店を設立している会社があります。インド、オーストラリア、日本に支店があるとします。
すべての支店で、顧客データ全体がローカルデータベースに保存されます。これらのローカルデータベースは、Oracle、MySQL、SQL Serverなどの通常の従来のRDBMSであり、すべての顧客データは毎日データベースに保存されます。
現在、四半期ごと、半年ごと、または年ごとに、組織はビジネス開発のためにこのデータを分析したいと考えています。同じことを行うために、組織は複数のソースからこのすべてのデータを収集し、それを1つの場所にまとめます。この場所は、 'データウェアハウス'。
データウェアハウスは、複数のソースまたは複数のデータベースタイプから取得されたすべてのデータを含む一種のデータベースです。 「ETL」 (これは IS xtract、 T ransformと L oad)プロセス。データウェアハウスでデータの準備ができたら、分析目的で使用できます。
したがって、分析のために、データウェアハウスで利用可能なデータからレポートを生成できます。ビジネスインテリジェンスツールを使用して、複数のグラフとレポートを生成できます。
ビジネスを成長させ、組織に適切な意思決定を行うために、分析目的でデータウェアハウスが必要です。
このプロセスでは3つのことが起こっています。1つは、複数のソースからデータを取得し、それをデータウェアハウスという単一の場所に配置したことです。
Java8の新機能インタビューの質問
ここでは「ETL」プロセスを使用します。したがって、複数のソースから1つの場所にデータをロードしながら、それを変換ルートに適用し、さまざまな種類のETLツールをここで使用できます。
データがデータウェアハウスに入る準備ができたら、ビジネスインテリジェンス(BI)ツールを使用してビジネスデータを分析するためのさまざまなレポートを生成できます。または、レポートツールとも呼ばれます。 TableauやCognosなどのツールを使用して、ビジネス用のデータを分析するためのレポートとダッシュボードを生成できます。
OLTPとOLAP
OLTPとは何か、OLAPとは何かを理解しましょう。
ローカルで維持され、トランザクションの目的で使用されるデータベースは、 OLTP、つまりオンライントランザクション処理。 日々のトランザクションはここに保存され、すぐに更新されるため、OLTPシステムと呼びました。
ここでは従来のデータベースを使用し、複数のテーブルがあり、関係があるため、すべてがデータベースに従って体系的に計画されています。このデータを分析目的で使用することはありません。ここでは、Oracle、MySQL、SQLServerなどの従来のRDMBSデータベースを使用できます。
データウェアハウスの部分では、TeradataまたはHadoop Systemsを使用します。これらも一種のデータベースですが、DataWarehouseのデータは通常、分析目的で使用され、 OLAP または オンライン分析処理。
ここでは、データを四半期ごと、半年ごと、または年ごとに更新できます。データが「Offerly」で更新されることもあります。Offerlyは、顧客の要件ごとに分析するためにデータが更新およびフェッチされることを意味します。
また、複数のソースからスケジュールに基づいてデータを取得し、このETLタスクを実行できるため、分析用のデータは毎日更新されません。これが、オンライン分析処理システムの仕組みです。
ここでも、BIツールまたはレポートツールはダッシュボードだけでなくレポートも生成でき、これに基づいてビジネス担当者はビジネスを改善するための決定を下します。
ビッグデータはどこに登場しますか?
BigDataは、従来のデータベースのストレージおよび処理能力を超えるデータであり、構造化および非構造化形式であるため、ローカルRDBMSシステムで処理することはできません。
この種のデータは、テラバイト(TB)またはペタバイト(PB)以上で生成され、最近急速に増加しています。 Facebook、WhatsApp(ソーシャルネットワーキングに関連する)など、この種のデータを取得するための複数のソースがあります。アマゾン、Eコマースに関連するフリップカート。 Gmail、Yahoo、EメールやGoogle、その他の検索エンジンに関連するRediff。また、SMSデータ、通話録音、通話記録などのモバイルからビッグデータを取得します。
結論
ビッグデータは、大量のデータを効率的かつ安全に処理するためのソリューションです。履歴データも維持する責任があります。このテクノロジーには多くの利点があるため、すべての企業がビッグデータに切り替えたいと考えています
著者: Vaishali Tarey、テクニカルリード@ Syntel