data mining process models
データマイニングプロセスに関するこのチュートリアルでは、データ抽出プロセスに関連するデータマイニングモデル、手順、および課題について説明します。
データマイニング技術 この前のチュートリアルで詳細に説明されました すべての人のための完全なデータマイニングトレーニング 。データマイニングは、科学技術の世界で有望な分野です。
データベースのナレッジディスカバリーとも呼ばれるデータマイニングは、データベースやデータウェアハウスに保存されている大量のデータから有用な情報を検出するプロセスです。この分析は、企業の意思決定プロセスのために行われます。
データマイニングは、クラスタリング、関連付け、シーケンシャルパターン分析および決定木などのさまざまな手法を使用して実行されます。
学習内容:
- データマイニングとは何ですか?
- プロセスとしてのデータ抽出
- データマイニングモデル
- データマイニングプロセスのステップ
- OracleDBMSでのデータマイニングプロセス
- データウェアハウスでのデータマイニングプロセス
- データ抽出のアプリケーションは何ですか?
- データマイニングの課題
- 結論
- 推奨読書
データマイニングとは何ですか?
データマイニングは、大量のデータから興味深いパターンと知識を発見するプロセスです。データソースには、データベース、データウェアハウス、Web、およびシステムに動的にストリーミングされるその他の情報リポジトリまたはデータを含めることができます。
なぜ企業はデータ抽出を必要とするのですか?
ビッグデータの出現により、データマイニングがより一般的になりました。ビッグデータは非常に大きなデータセットであり、コンピューターで分析して、人間が理解できる特定のパターン、関連性、傾向を明らかにすることができます。ビッグデータには、さまざまな種類とさまざまなコンテンツに関する広範な情報が含まれています。
したがって、この量のデータでは、手動介入による単純な統計は機能しません。このニーズは、データマイニングプロセスによって満たされます。これにより、単純なデータ統計から複雑なデータマイニングアルゴリズムに変更されます。
データマイニングプロセスは、トランザクション、写真、ビデオ、フラットファイルなどの生データから関連情報を抽出し、その情報を自動的に処理して、企業が行動を起こすのに役立つレポートを生成します。
したがって、データマイニングプロセスは、企業がデータのパターンと傾向を発見し、データを要約し、関連情報を取得することによって、より良い意思決定を行うために重要です。
プロセスとしてのデータ抽出
ビジネス上の問題がある場合は、生データを調べて、情報を記述し、ビジネスで使用するレポートを引き出すモデルを構築します。生データはさまざまなソースとさまざまな形式で利用できるため、データソースとデータ形式からモデルを構築することは反復的なプロセスです。
データは日々増加しているため、新しいデータソースが見つかると、結果が変わる可能性があります。
以下はプロセスの概要です。
(画像 ソース )
データマイニングモデル
製造、マーケティング、化学、航空宇宙などの多くの業界がデータマイニングを利用しています。したがって、標準的で信頼性の高いデータマイニングプロセスの需要が大幅に高まっています。
重要なデータマイニングモデルは次のとおりです。
#1)データマイニングの業界標準プロセス(CRISP-DM)
CRISP-DMは、6つのフェーズで構成される信頼性の高いデータマイニングモデルです。これは、データマイニングプロセスへの構造化されたアプローチを提供する循環プロセスです。 6つのフェーズは任意の順序で実装できますが、前のステップに戻ってアクションを繰り返す必要がある場合があります。
モバイルアプリケーションテストの面接の質問と回答
CRISP-DMの6つのフェーズは次のとおりです。
#1)ビジネスの理解: このステップでは、ビジネスの目標が設定され、目標の達成に役立つ重要な要素が発見されます。
#2)データの理解: この手順では、データ全体を収集し、ツールにデータを入力します(ツールを使用している場合)。データは、データソース、場所、取得方法、および問題が発生したかどうかとともに一覧表示されます。データは視覚化され、その完全性をチェックするために照会されます。
#3)データの準備: このステップには、適切なデータの選択、クリーニング、データからの属性の構築、複数のデータベースからのデータの統合が含まれます。
#4)モデリング: このステップでは、ディシジョンツリーなどのデータマイニング手法の選択、選択したモデルを評価するためのテストデザインの生成、データセットからのモデルの構築、専門家との構築モデルの評価を行い、結果について話し合います。
#5)評価: このステップでは、結果のモデルがビジネス要件をどの程度満たしているかを判断します。実際のアプリケーションでモデルをテストすることにより、評価を行うことができます。モデルは、繰り返されるべき間違いやステップがないかレビューされます。
#6)展開: このステップでは、展開計画が作成され、データマイニングモデルの結果を監視および維持してその有用性を確認する戦略が形成され、最終レポートが作成され、プロセス全体のレビューが行われて、間違いをチェックし、ステップが繰り返されるかどうかが確認されます。 。
(画像 ソース )
#2)SEMMA(サンプル、探索、変更、モデル化、評価)
SEMMAは、SASInstituteによって開発されたもう1つのデータマイニング手法です。頭字語SEMMAは、サンプル、探索、変更、モデル化、評価の略です。
charをintc ++に変換する方法
SEMMAを使用すると、探索的統計および視覚化手法を簡単に適用し、重要な予測変数を選択して変換し、変数を使用してモデルを作成して結果を導き出し、その精度を確認できます。 SEMMAは、非常に反復的なサイクルによっても駆動されます。
SEMMAの手順
- サンプル: このステップでは、大きなデータセットが抽出され、完全なデータを表すサンプルが取り出されます。サンプリングにより、計算コストと処理時間が削減されます。
- 見る: データをよりよく理解するために、外れ値や異常がないかデータを調べます。データを視覚的にチェックして、傾向とグループ化を見つけます。
- 変更: このステップでは、グループ化やサブグループ化などのデータの操作は、構築されるモデルに焦点を合わせ続けることによって行われます。
- モデル: 調査と修正に基づいて、データのパターンを説明するモデルが構築されます。
- 評価: このステップでは、構築されたモデルの有用性と信頼性が評価されます。実際のデータに対するモデルのテストはここで行われます。
SEMMAとCRISPの両方のアプローチは、知識発見プロセスで機能します。モデルが構築されると、それらはビジネスや研究作業のために展開されます。
データマイニングプロセスのステップ
データマイニングプロセスは、データ前処理とデータマイニングの2つの部分に分かれています。データ前処理には、データクリーニング、データ統合、データ削減、およびデータ変換が含まれます。データマイニング部分は、データマイニング、パターン評価、およびデータの知識表現を実行します。
(画像 ソース )
なぜデータを前処理するのですか?
正確性、完全性、一貫性、適時性など、データの有用性を決定する多くの要因があります。データは、意図した目的を満たしている場合、品質が高くなければなりません。したがって、前処理はデータマイニングプロセスで非常に重要です。データの前処理に関連する主な手順を以下に説明します。
#1)データクリーニング
データクリーニングは、データマイニングの最初のステップです。ダーティデータをマイニングで直接使用すると、手順が混乱し、不正確な結果が生じる可能性があるため、これは重要です。
基本的に、このステップでは、コレクションからノイズの多いデータや不完全なデータを削除します。一般にデータをそれ自体でクリーンアップする多くの方法が利用可能ですが、それらは堅牢ではありません。
このステップでは、次の方法で定期的な清掃作業を実行します。
(i)不足しているデータを埋める:
欠落しているデータは、次のような方法で埋めることができます。
- タプルを無視します。
- 不足している値を手動で入力します。
- 中心傾向、中央値、または
- 最も可能性の高い値を入力します。
(ii)ノイズの多いデータを削除します。 ランダムエラーはノイズの多いデータと呼ばれます。
ノイズを除去する方法は次のとおりです。
ビニング: ビニングメソッドは、値をバケットまたはビンにソートすることによって適用されます。平滑化は、隣接する値を参照して実行されます。
ビニングは、ビンごとに平滑化することによって行われます。つまり、各ビンはビンの平均に置き換えられます。中央値による平滑化。各ビン値はビン中央値に置き換えられます。ビン境界による平滑化、つまり、ビンの最小値と最大値はビン境界であり、各ビン値は最も近い境界値に置き換えられます。
- 外れ値の特定
- 不整合の解決
#2)データ統合
データベース、データキューブ、ファイルなどの複数の異種データソースを組み合わせて分析する場合、このプロセスはデータ統合と呼ばれます。これは、データマイニングプロセスの精度と速度を向上させるのに役立ちます。
データベースが異なれば、データベースに冗長性が生じるため、変数の命名規則も異なります。追加のデータクリーニングを実行して、データの信頼性に影響を与えることなく、データ統合から冗長性と不整合を取り除くことができます。
データ統合は、Oracle Data ServiceIntegratorやMicrosoftSQLなどのデータ移行ツールを使用して実行できます。
#3)データ削減
この手法は、データの収集から分析に関連するデータを取得するために適用されます。表現のサイズは、整合性を維持しながらボリュームがはるかに小さくなります。データ削減は、ナイーブベイズ、ディシジョンツリー、ニューラルネットワークなどの方法を使用して実行されます。
データ削減のいくつかの戦略は次のとおりです。
- 次元削減: データセット内の属性の数を減らします。
- 数の削減: 元のデータボリュームをより小さな形式のデータ表現に置き換える。
- データ圧縮: 元のデータの圧縮表現。
#4)データ変換
このプロセスでは、データはデータマイニングプロセスに適した形式に変換されます。データが統合されるため、マイニングプロセスがより効率的になり、パターンが理解しやすくなります。データ変換には、データマッピングとコード生成プロセスが含まれます。
データ変換の戦略は次のとおりです。
- スムージング: クラスタリング、回帰手法などを使用してデータからノイズを除去します。
- 集計: サマリー操作はデータに適用されます。
- 正規化: より狭い範囲内に収まるようにデータをスケーリングします。
- 離散化: 数値データの生の値は間隔に置き換えられます。 例えば、 年齢。
#5)データマイニング
データマイニングは、大量のデータから興味深いパターンや知識を特定するプロセスです。これらのステップでは、インテリジェントパターンを適用してデータパターンを抽出します。データはパターンの形式で表され、モデルは分類とクラスタリングの手法を使用して構造化されます。
#6)パターン評価
このステップでは、興味度の尺度に基づいて知識を表す興味深いパターンを特定します。データの要約と視覚化の方法は、ユーザーがデータを理解できるようにするために使用されます。
#7)知識表現
知識表現は、データの視覚化と知識表現ツールを使用して、マイニングされたデータを表現するステップです。データは、レポート、表などの形式で視覚化されます。
OracleDBMSでのデータマイニングプロセス
RDBMSは、行と列を持つテーブルの形式でデータを表します。データベースクエリを作成することにより、データにアクセスできます。
Oracleなどのリレーショナルデータベース管理システムは、CRISP-DMを使用したデータマイニングをサポートしています。 Oracleデータベースの機能は、データの準備と理解に役立ちます。 Oracleは、Javaインタフェース、PL / SQLインタフェース、自動データマイニング、SQL関数、およびグラフィカル・ユーザインタフェースを介したデータマイニングをサポートしています。
データウェアハウスでのデータマイニングプロセス
データウェアハウスは、データキューブと呼ばれる多次元データ構造用にモデル化されています。データキューブの各セルには、いくつかの集計メジャーの値が格納されます。
OLAPスタイル(オンライン分析処理)で実行される多次元空間でのデータマイニングでは、さまざまなレベルの粒度で次元の複数の組み合わせを探索できます。
データ抽出のアプリケーションは何ですか?
データマイニングが広く使用されている分野のリストは次のとおりです。
#1)財務データ分析: データマイニングは、銀行、投資、クレジットサービス、住宅ローン、自動車ローン、保険および株式投資サービスで広く使用されています。これらのソースから収集されたデータは、完全で信頼性が高く、高品質です。これにより、体系的なデータ分析とデータマイニングが容易になります。
#2)小売および電気通信産業: 小売セクターは、販売、顧客の買い物履歴、商品の輸送、消費、およびサービスに関する膨大な量のデータを収集します。小売データマイニングは、顧客の購買行動、顧客の買い物パターン、傾向を特定し、顧客サービスの品質を向上させ、顧客維持と満足度を向上させるのに役立ちます。
#3)科学と工学: データマイニングコンピュータサイエンスおよびエンジニアリングは、システムステータスの監視、システムパフォーマンスの向上、ソフトウェアバグの特定、ソフトウェアの盗難の検出、およびシステムの誤動作の認識に役立ちます。
#4)侵入検知と防止: 侵入は、ネットワークリソースの整合性、機密性、または可用性を脅かす一連のアクションとして定義されます。データマイニング手法は、侵入検知および防止システムのパフォーマンスを向上させるのに役立ちます。
#5)レコメンダーシステム: レコメンダーシステムは、ユーザーが関心を持つ製品のレコメンデーションを作成することにより、消費者を支援します。
データマイニングの課題
以下に、データマイニングに関連するさまざまな課題を示します。
Windows10でjarファイルを開く
- データマイニングには、管理が難しい大規模なデータベースとデータ収集が必要です。
- データマイニングプロセスには、ドメインの専門家が必要ですが、これも見つけるのが困難です。
- 異種データベースからの統合は複雑なプロセスです。
- データマイニングの結果を使用するには、組織レベルのプラクティスを変更する必要があります。プロセスの再構築には、労力とコストが必要です。
結論
データマイニングは、マイニングプロセスを改良し、新しいデータを統合してより効率的な結果を得ることができる反復プロセスです。データマイニングは、効果的でスケーラブルで柔軟なデータ分析の要件を満たしています。
それは情報技術の自然な評価と見なすことができます。知識発見プロセスとして、データ準備およびデータマイニングタスクはデータマイニングプロセスを完了します。
データマイニングプロセスは、データベースデータや時系列などの高度なデータベースなど、あらゆる種類のデータに対して実行できます。データマイニングプロセスには、独自の課題もあります。
データマイニングの例について詳しくは、今後のチュートリアルにご注目ください。