complete guide big data analytics
これは、ビッグデータ分析の包括的なガイドであり、そのユースケース、アーキテクチャ、例、およびビッグデータとデータサイエンスとの比較が含まれています。
ビッグデータ分析は、Facebook、Google、Amazonなどの企業が、ビッグデータからの価値抽出に対する顧客の傾向を理解するために、分散データ処理と分析の独自の新しいパラダイムを設定したため、注目を集めています。
このチュートリアルでは、ビッグデータ分析について説明し、ビッグデータおよびデータサイエンスと比較します。企業がビッグデータ戦略と機能する方法論で持つ必要のある必要な属性について説明します。また、データ分析の最新の傾向といくつかのユースケースについても説明します。
下の画像に示すように、Analyticsでは、ITスキル、ビジネススキル、およびデータサイエンスを使用する必要があります。ビッグデータ分析は、ビッグデータからの価値を利用する中心であり、組織の消費可能な洞察を引き出すのに役立ちます。
(画像 ソース )
学習内容:
ビッグデータ分析とは
ビッグデータ分析は、ビッグデータに対する分析の統計的手法、ツール、および手順のコレクションの使用を扱います。
推奨 読書=> ビッグデータ入門
これは、ビッグデータから価値のあるパターンと意味のある洞察を抽出して、データ主導の意思決定をサポートするのに役立つ分析です。ビッグデータや分析が普及したのは、ソーシャルメディアやIoTデータなどの新しいデータソースの出現によるものです。
この傾向は、データマイニング、クリーニング、モデリング、および視覚化のための技術、ツール、テクノロジー、およびプロセスを網羅する「データサイエンス」と呼ばれる実践と研究の分野を生み出しています。
ビッグデータ対ビッグデータ分析対データサイエンス
に ビッグデータ、データサイエンス、ビッグデータ分析の比較 下の表から理解できます。
基礎 | ビッグデータ | データサイエンス | ビッグデータ分析 |
---|---|---|---|
ツールとテクノロジー | Hadoopエコシステム、CDH、Cassandra、MongoDB、Java、Python、Talend、SQL、Rapid Miner | R、Python、Jupyter、Data Science Workbench、IBM SPSS、Tableau | Spark、Storm、Knime、Data Wrapper、Lumify、HPCC、Qubole、Microsoft HDInsight |
仕事の役割とスキル | ストレージインフラストラクチャのメンテナンス、データ処理、Hadoopに関する知識と他のツールとの統合。 | データ変換、データエンジニアリング、データラングリング、データモデリング、および視覚化 | BIおよび高度な分析、統計、データモデリング、機械学習、数学スキル、コミュニケーション、コンサルティング。 |
指定 | ビッグデータアーキテクト ビッグデータ開発者 ビッグデータエンジニア | データサイエンティスト 機械学習エンジニア | ビッグデータアナリスト ビジネスアナリスト ビジネスインテリジェンスエンジニア ビジネス分析スペシャリスト データ視覚化開発者 Analytics Manager |
約米ドルでの平均年収 | 100,000 | 90,000 | 70,000 |
推奨読書= >> データサイエンスとコンピュータサイエンス
すべてのビッグデータ分析戦略に必要なもの
明確に定義され、統合された包括的な戦略は、組織における貴重なデータ主導の意思決定に貢献し、それをサポートします。このセクションでは、ビッグデータ分析戦略を定義する際に考慮する必要がある最も重要なステップをリストしました。
ステップ1:評価
すでにビジネス目標に沿った評価では、主要な利害関係者を巻き込み、適切なスキルセットを持つメンバーのチームを作成し、ポリシー、人、プロセス、およびテクノロジーとデータの資産を評価する必要があります。必要に応じて、このプロセスで評価対象の顧客を関与させることができます。
ステップ2:優先順位付け
評価後、ユースケースを導き出し、ビッグデータ予測分析、規範的分析、および認知分析を使用してそれらに優先順位を付ける必要があります。また、優先順位付けマトリックスなどのツールを使用して、主要な利害関係者からのフィードバックと入力を利用して、ユースケースをさらにフィルタリングすることもできます。
ステップ3:ロードマップ
このステップでは、期限付きのロードマップを作成し、それをすべての人に公開する必要があります。ロードマップには、複雑さ、資金、ユースケースの固有の利点、およびマップされたプロジェクトに関するすべての詳細を含める必要があります。
ステップ4:変更管理
変更管理を実装するには、データの可用性、整合性、セキュリティ、および使いやすさを管理する必要があります。既存のデータガバナンスを使用した効果的な変更管理プログラムは、継続的な監視に基づいて活動とメンバーにインセンティブを与えます。
ステップ5:適切なスキルセット
業界の現在の傾向の中で、適切なスキルセットを特定することは、組織の成功にとって非常に重要です。したがって、適切なリーダーに従い、重要な利害関係者を教育するための教育プログラムを導入する必要があります。
ステップ6:信頼性、スケーラビリティ、セキュリティ
適切なアプローチと効果的なビッグデータ分析戦略により、データサイエンスの原則を含む解釈可能なモデルを効果的に使用して、分析プロセスの信頼性を高めます。ビッグデータ分析戦略には、堅牢で緊密に統合された分析パイプラインのために、最初からセキュリティの側面も含める必要があります。
データ分析のためのデータパイプラインとプロセス
データ分析パイプラインを計画するときは、考慮する必要のある3つの基本的な側面があります。 これらは次のとおりです。
- 入力: データ形式 処理するテクノロジーの選択は、データの根底にある性質に基づいています。データが時系列で品質であるかどうか。
- 出力: コネクタの選択 、レポート、および視覚化は、エンドユーザーの技術的専門知識とそのデータ消費要件によって異なります。
- ボリューム: スケーリングソリューション ビッグデータ処理システムの過負荷を回避するために、データの量に基づいて計画されています。
次に、ビッグデータ分析パイプラインの一般的なプロセスとステージについて説明します。
ステージ1:データの取り込み
データの取り込みは、データパイプラインの最初の最も重要なステップです。データの3つの側面を考慮します。
- データのソース– ビッグデータパイプラインのアーキテクチャの選択に関して重要です。
- データの構造– シリアル化は、パイプライン全体で均一な構造を維持するための鍵です。
- データの清浄度– 分析は、欠測値や外れ値などの問題がなく、データと同じくらい優れています。
ステージ2:ETL /倉庫
次の重要なモジュールは、ETL(Extract Transform Load)を実行するためのデータストレージツールです。適切なデータセンターでのデータストレージは、
- ハードウェア
- 管理の専門知識
- 予算
(画像 ソース )
データセンターでのETL /ウェアハウジング用のテスト済みツールは次のとおりです。
- Apache Hadoop
- Apache Hive
- アパッチ寄木細工
- Prestoクエリエンジン
Google、AWS、Microsoft Azureなどのクラウド企業は、これらのツールをペイパーベースで提供し、初期の設備投資を節約します。
ステージ3:分析と視覚化
高速クエリに対するHadoopの制限を考慮すると、結果の必要な視覚化を備えた高速でアドホックなクエリを可能にする分析プラットフォームとツールを使用する必要があります。
>>推奨読書: ビッグデータツール
ステージ4:モニタリング
視覚化ツールを使用して取り込み、ストレージ、分析のためのインフラストラクチャをセットアップした後、次のステップは、監視するITおよびデータ監視ツールを用意することです。これらには以下が含まれます:
- CPUまたはGPUの使用
- メモリとリソースの消費
- ネットワーク
検討する価値のあるツールは次のとおりです。
- Datadog
- グラファナ
監視ツールはビッグデータ分析パイプラインに不可欠であり、パイプラインの品質と整合性を監視するのに役立ちます。
ビッグデータ分析アーキテクチャ
以下のアーキテクチャ図は、Hadoop&Map-reduce処理、インメモリ分析システム、およびリアルタイム分析に非構造化データソースと構造化データソースの両方を使用して、リアルタイム操作と意思決定の結果を組み合わせる方法を示しています。
(画像 ソース )
データ分析の現在の傾向
このセクションでは、業界でビッグデータ分析のトレンドを実装または追跡する際に探す必要のある重要な側面をリストしました。
#1)ビッグデータソース
ビッグデータには主に3つのソースがあります。 これらは以下に参加しています:
- ソーシャルデータ: ソーシャルメディアの使用により生成されたデータ。このデータは、 気持ち そして 顧客の行動 マーケティング分析に役立ちます。
- マシンデータ: このデータは、IoTセンサーを使用して産業機器およびアプリケーションからキャプチャされます。それは理解に役立ちます 人々の 動作 に関する洞察を提供します プロセス 。
- トランザクションデータ: これは、支払い注文、請求書、領収書などに関するユーザーのオフラインとオンラインの両方のアクティビティの結果として生成されます。この種のデータのニーズのほとんどは 前処理 そして クリーニング 分析に使用する前に。
#2)SQL / NoSQLデータストレージ
従来のデータベースやRDBMSと比較すると、NoSQLデータベースはビッグデータ分析に必要なタスクに適していることがわかります。
NoSQLデータベースは本質的に非構造化データを非常にうまく処理でき、高価なスキーマの変更、垂直方向のスケーリング、ACIDプロパティの干渉に限定されません。
#3)予測分析
Predictive Analyticsは、組織が新しい顧客の反応や購入、クロスセルの機会を生み出すように導くカスタマイズされた洞察を提供します。組織は、予測分析を使用して個々の要素を詳細なレベルで予測し、将来の結果を予測して潜在的な問題を防止しています。これはさらに履歴データと組み合わされ、規範的な分析に変わります。
ビッグデータ予測分析がうまく使用されている分野には、ビジネス、児童保護、臨床意思決定支援システム、ポートフォリオ予測、経済レベルの予測、および引受があります。
#4)ディープラーニング
ビッグデータは、従来のコンピューティングにとって圧倒的です。データ分析の従来の機械学習手法は、データの多様性と量の増加に伴い、パフォーマンスがフラットになることがわかりました。
アナリティクスは、フォーマットのバリエーション、高度に分散された入力ソース、不均衡な入力データ、高速で移動するストリーミングデータに関する課題に直面しており、ディープラーニングアルゴリズムはそのような課題に非常に効率的に対処します。
ディープラーニングは、セマンティックインデックス作成、識別タスクの実行、セマンティックイメージ、ビデオタグ付け、ソーシャルターゲティング、およびオブジェクト認識、データタグ付け、情報検索、自然言語の分野での階層型マルチレベル学習アプローチで効果的に使用されています。処理。
#5)データレイク
さまざまなデータセットをさまざまなシステムに保存し、それらを分析のために従来のデータ管理アプローチと組み合わせると、費用がかかり、ほとんど実行不可能であることがわかります。そのため、組織はデータレイクを作成しています。データレイクは、実用的な分析のために生のネイティブ形式でデータを保存します。
以下の画像は、ビッグデータアーキテクチャのデータレイクの例を示しています。
(画像 ソース )
ビッグデータ分析は
以下に、いくつかの一般的なユースケースを示します。
#1)顧客分析
ビッグデータ分析は、マイクロマーケティング、1対1のマーケティング、より細かいセグメンテーション、ビジネスの顧客向けのマスカスタマイゼーションなどのさまざまな目的に役立ちます。企業は、類似または異なる範囲の製品やサービスをアップセルまたはクロスセルする顧客の傾向に応じて、製品やサービスをパーソナライズするための戦略を作成できます。
#2)運用分析
運用分析は、既存のデータを活用し、マシンとIoTデータでデータを強化することにより、全体的な意思決定とビジネス結果の改善に役立ちます。
例えば、 医療におけるビッグデータ分析により、医療費の最適化、臨床試験の監視の改善、COVID-19などの病気の流行への対応の予測と計画に関連する課題と新しい機会に直面することが可能になりました。
#3)不正防止
ビッグデータ分析は、主に金融および保険セクターでの不正行為の予測と削減を支援することにより、大きな利益をもたらす可能性があると見られています。
例えば、 保険会社は、人口統計、収益、医療費請求、弁護士費用、天気、顧客の音声録音、およびコールセンターのメモに関するリアルタイムデータを収集します。特定のリアルタイムの詳細は、上記の情報を履歴データと組み合わせて、推測された不正請求を早期に特定することにより、予測モデルを導き出すのに役立ちます。
#4)価格の最適化
企業はビッグデータ分析を使用して、カテゴリレベルではなく、製品レベルで最良の価格を見つけることにより、利益率を高めています。大企業は、何千もの製品で定期的に変更される価格設定変数の詳細と複雑さを把握するには、圧倒的すぎると感じています。
動的取引スコアリングなどの分析主導の価格最適化戦略により、企業はデータと個々の取引レベルに関する洞察に基づいて製品とセグメントのクラスターの価格を設定し、要求の厳しいクライアントからの迅速な勝利を獲得できます。
よくある質問
Q#1)ビッグデータ分析は良いキャリアですか?
回答: これはあらゆる組織にとって付加価値であり、情報に基づいた意思決定を可能にし、競合他社よりも優位に立つことができます。ビッグデータのキャリアの動きは、組織の主要な意思決定者になる可能性を高めます。
Q#2)ビッグデータ分析が重要なのはなぜですか?
回答: これは、組織が業界データを組み合わせて分析できる新しい成長機会とまったく新しいカテゴリの製品を作成するのに役立ちます。これらの企業は、製品とサービス、バイヤーとサプライヤー、消費者の好みに関する十分な情報を取得して分析することができます。
Q#3)ビッグデータ分析には何が必要ですか?
回答: 優れたビッグデータアナリストが精通している必要のあるテクノロジーの範囲は膨大です。ビッグデータ分析をマスターするには、さまざまなツール、ソフトウェア、ハードウェア、およびプラットフォームを理解している必要があります。 例えば、 スプレッドシート、SQLクエリ、R / R Studio、Pythonはいくつかの基本的なツールです。
エンタープライズレベルでは、Linux、Hadoop、Java、Scala、Python、Spark、Hadoop、HIVEに加えて、MATLAB、SPSS、SAS、Congnosなどのツールが重要です。
客観的な質問:
Q#4)以下に示すデータベースのうちNoSQLデータベースではないものはどれですか?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
回答: PostgreSQL
Q#5)CassandraはNoSQLですか?
- 本当
- 誤り
回答: 本当
Q#6)次のうち、Hadoopの所有物ではないものはどれですか?
テクニカルサポートインタビューの質問と回答
- オープンソース
- Javaに基づく
- 分散処理
- リアルタイム
回答: リアルタイム
Q#7)データサイエンティストによって実行されないすべてのアクティビティを選択してください。
- 機械学習モデルを構築し、そのパフォーマンスを向上させます。
- 分析を検証するための統計モデルの評価
- データ視覚化ツールを使用して高度な分析を要約する
- テクニカル分析の結果を社内チームおよびビジネスクライアントに提示
回答: テクニカル分析の結果を社内チームおよびビジネスクライアントに提示
さらに読む= >> データアナリストとデータサイエンティストの主な違い
Q#8)データアナリストが実行するアクティビティはどれですか?
- 生データをクリーンアップして整理する
- データの興味深い傾向を見つける
- 簡単に解釈できるダッシュボードと視覚化を作成する
- 上記のすべて
回答: 上記のすべて
Q#9)データエンジニアが実行するのは次のうちどれですか?
- 新しいデータソースの既存のデータ分析パイプラインへの統合
- データ消費用のAPIの開発
- 継続的なパフォーマンスのためのシステムの監視とテスト
- 上記のすべて
回答: 上記のすべて
Q#10)分析のためのデータフローの正しいシーケンスは次のとおりです。
- データソース、データ準備、データ変換、アルゴリズム設計、データ分析
- データソース、データ変換、アルゴリズム設計、データ準備、データ分析
- データソース、アルゴリズム設計、データ準備、データ変換、データ分析
- データソース、データ準備、アルゴリズム設計、データ変換、データ分析
回答: データソース、データ準備、データ変換、アルゴリズム設計、データ分析
Q#11)データ分析は線形プロセスです。
- 本当
- 誤り
回答: 誤り
Q#12)探索的分析はそうではありません
- 回答 初期データ分析の質問の詳細
- データセットの問題を特定する
- 質問に対する答えのスケッチを作成します
- 質問に答えるためにデータが正しいかどうかを判断します
回答: 回答初期データ分析の質問の詳細
Q#13)予測質問は、推論質問に付けられた別の名前です。
- 本当
- 誤り
回答: 誤り
結論
ビッグデータ分析の最も重要な側面について説明しました。最大のメリットを享受するために、ビッグデータ分析業界で最も普及しているユースケースとトレンドについて説明しました。