data mining techniques
データマイニング技術に関するこの詳細なチュートリアルでは、有用なデータを抽出するためのアルゴリズム、データマイニングツール、および方法について説明します。
これで すべての人のための詳細なデータマイニングトレーニングチュートリアル 、前のチュートリアルでデータマイニングについてすべて調べました。
このチュートリアルでは、データ抽出に使用されるさまざまな手法について学習します。データマイニングは膨大な量のデータから有用な情報を抽出する概念であることがわかっているため、有用な情報を抽出するために、いくつかの手法と方法が大量のデータセットに適用されます。
これらの手法は基本的に、データセットに適用されるメソッドとアルゴリズムの形式です。 データマイニング技術のいくつかは次のとおりです。 頻繁なパターン、関連付けと相関、分類、クラスタリング、外れ値の検出、および統計、視覚、音声データマイニングなどの高度な手法のマイニング。
一般に、データマイニング技術には、リレーショナルデータベース、トランザクションデータベース、およびデータウェアハウスが使用されます。ただし、時系列、シンボリックシーケンス、生物学的シーケンシャルデータなどの複雑なデータ用の高度なマイニング手法もいくつかあります。
学習内容:
データマイニング技術の目的
毎日膨大な量のデータが保存されているため、企業は現在、それらの傾向を見つけることに関心を持っています。データ抽出技術は、生データを有用な知識に変換するのに役立ちます。大量のデータを手動で調べることは人間には不可能であるため、大量のデータをマイニングするにはソフトウェアが必要です。
データマイニングソフトウェアは、大規模なデータベース内のさまざまなアイテム間の関係を分析します。これは、意思決定プロセス、顧客についての詳細、マーケティング戦略の作成、売上の増加、およびコストの削減に役立ちます。
データ抽出技術のリスト
適用されるデータマイニング手法は、データ分析の観点によって異なります。
それでは、さまざまな方法でデータ抽出を実行する方法のさまざまな手法について説明しましょう。
#1)頻繁なパターンマイニング/関連分析
このタイプのデータマイニング手法は、指定されたデータセット内の繰り返しの関係を探します。データベース内のさまざまなアイテム間の興味深い関連性と相関関係を探し、パターンを特定します。
例、 そのような種類の場合は、「買い物バスケット分析」です。「顧客が店で一緒に購入する可能性が高い製品はどれか」を調べます。パンやバターなど。
応用: 店舗の棚への商品の配置の設計、マーケティング、商品のクロスセル。
パターンは、相関ルールの形式で表すことができます。相関ルールでは、サポートと信頼は、関連付けられたアイテムの有用性を見つけるためのパラメーターであるとされています。両方のアイテムを一度に一緒に購入したトランザクションは、サポートと呼ばれます。
顧客が両方のアイテムを購入したが、次々と購入したトランザクションは自信です。マイニングされたパターンは、 最小サポートしきい値 そして 最小信頼しきい値 値。しきい値は、ドメインの専門家によって決定されます。
xmlファイルを開くための最良のプログラム
パン=>バター(サポート= 2%、信頼度-60%)
上記のステートメントは、相関ルールの例です。これは、パンとバターを一緒に購入したトランザクションが2%あり、パンとバターを一緒に購入した顧客の60%がいることを意味します。
アソシエーション分析を実装する手順:
- 頻繁なアイテムセットを見つける。アイテムセットとは、アイテムのセットを意味します。 k個のアイテムを含むアイテムセットはk個のアイテムセットです。アイテムセットの頻度は、アイテムセットを含むトランザクションの数です。
- 頻繁なアイテムセットから強力な相関ルールを生成します。強力な相関ルールとは、最小しきい値のサポートと信頼が満たされていることを意味します。
Aprioriアルゴリズム、パターン成長アプローチ、垂直データ形式を使用したマイニングなど、さまざまな頻繁なアイテムセットマイニング方法があります。この手法は、一般にマーケットバスケット分析として知られています。
#2)相関分析
相関分析は、アソシエーションルールの単なる拡張です。場合によっては、サポートと信頼のパラメーターがユーザーに興味のないパターンをもたらすことがあります。
上記のステートメントをサポートする例は次のとおりです。分析された1000のトランザクションのうち、600にはパンのみが含まれ、750にはバターが含まれ、400にはパンとバターの両方が含まれていました。アソシエーションルール実行の最小サポートが30%で、最小信頼度が60%であるとします。
400/1000 = 40%および信頼値= 400/600 = 66%のサポート値がしきい値を満たしています。しかし、バターを購入する確率は75%であり、66%を超えていることがわかります。これは、一方を購入するともう一方の購入が減少するため、パンとバターは負の相関関係にあることを意味します。結果はだまされています。
上記の例から、サポートと信頼性は、興味深いパターンのマイニングに役立つ別の興味深い尺度、つまり相関分析で補完されます。
A => B (サポート、信頼、相関)。
相関ルールは、アイテムセットAとBの間のサポート、信頼度、および相関によって測定されます。相関は、LiftとChi-Squareによって測定されます。
(i)リフト: 単語自体が言うように、Liftは、1つのアイテムセットの存在が他のアイテムセットの発生を持ち上げる程度を表します。
AとBの発生間のリフトは、次の方法で測定できます。
リフト(A、B)= P(A U B)/ P(A)。 P(B)。
もしそれが<1, then A and B are negatively correlated.
> 1の場合。次に、AとBは正の相関関係にあります。つまり、一方の発生はもう一方の発生を意味します。
= 1の場合、それらの間に相関関係はありません。
(ii)カイ2乗: これは別の相関測定です。スロット(AとBのペア)の観測値と期待値の差の2乗を期待値で割って測定します。
> 1の場合、負の相関があります。
#3)分類
分類は、重要なデータクラスのモデルを構築するのに役立ちます。モデルまたは分類器は、クラスラベルを予測するために構築されます。ラベルは、「はい」または「いいえ」、「安全」または「危険」などの離散値を持つ定義済みクラスです。ラベルクラスはすでに知られているため、これは一種の教師あり学習です。
データ分類は2段階のプロセスです。
- 学習ステップ: モデルはここで作成されます。事前定義されたアルゴリズムがデータに適用され、提供されたクラスラベルを使用して分析され、分類ルールが構築されます。
- 分類ステップ: このモデルは、特定のデータのクラスラベルを予測するために使用されます。分類ルールの精度は、テストデータによって推定されます。テストデータは、正確であることが判明した場合、新しいデータタプルの分類に使用されます。
アイテムセット内のアイテムは、クラスラベルレベルで機能を予測するためにターゲットカテゴリに割り当てられます。
応用: 銀行は、ローン申請者を低リスク、中リスク、または高リスクとして特定し、年齢層の分類に基づいてマーケティングキャンペーンを設計します。
#4)ディシジョンツリーの帰納
デシジョンツリー誘導法は、分類分析に分類されます。デシジョンツリーは、理解しやすく、シンプルで高速なツリーのような構造です。この場合、各非リーフノードは属性のテストを表し、各ブランチはテストの結果を表し、リーフノードはクラスラベルを表します。
タプルの属性値は、ルートからリーフノードまでの決定木に対してテストされます。決定木は、ドメインの知識を必要としないため、人気があります。これらは多次元データを表すことができます。決定木は、分類ルールに簡単に変換できます。
応用: 決定木は、医学、製造、生産、天文学などで構築されます。 以下に例を示します。
#5)ベイズ分類
ベイズ分類は、分類分析のもう1つの方法です。ベイズ分類器は、特定のタプルが特定のクラスに属する確率を予測します。これは、確率と決定理論に基づくベイズの定理に基づいています。
ベイズ分類は、意思決定プロセスの事後確率と事前確率に基づいて機能します。事後確率では、与えられた情報から仮説が立てられます。つまり、属性値は既知ですが、事前確率では、属性値に関係なく仮説が与えられます。
#6)クラスタリング分析
これは、データのセットをクラスターまたはオブジェクトのグループに分割する手法です。クラスタリングはアルゴリズムを使用して行われます。ラベル情報がわからないため、教師なし学習の一種です。クラスタリング手法は、互いに類似または異なるデータを識別し、特性の分析が行われます。
クラスター分析は、特性評価、属性サブセットの選択など、他のさまざまなアルゴリズムを適用するための前段階として使用できます。クラスター分析は、クレジットカード取引での高額購入などの異常検出にも使用できます。
アプリケーション: 画像認識、Web検索、およびセキュリティ。
#7)外れ値の検出
他のオブジェクトから例外的な動作をするデータオブジェクトを見つけるプロセスは、外れ値検出と呼ばれます。外れ値の検出とクラスター分析は相互に関連しています。外れ値の方法は、統計、近接ベース、クラスタリングベース、分類ベースに分類されます。
外れ値にはさまざまな種類があり、その一部は次のとおりです。
- グローバル外れ値: データオブジェクトは、残りのデータセットから大幅に逸脱しました。
- コンテキスト外れ値: それは、日、時間、場所などの特定の要因によって異なります。データオブジェクトがコンテキストを参照して大幅に逸脱している場合。
- 集合的な外れ値: データオブジェクトのグループがデータセット全体とは異なる動作をする場合。
応用: クレジットカード詐欺のリスクの検出、新規性の検出など。
#8)シーケンシャルパターン
このタイプのデータマイニングでは、傾向またはいくつかの一貫したパターンが認識されます。顧客の購入行動とシーケンシャルパターンを理解することは、店舗が商品を棚に陳列するために使用されます。
応用: アイテムAを購入すると、過去の購入履歴を見てアイテムAと一緒にアイテムBが購入されることが多いというEコマースの例。
#9)回帰分析
このタイプの分析は監視され、さまざまな関係の中でどのアイテムセットが互いに関連しているか、または互いに独立しているかを識別します。売上、利益、気温の予測、人間の行動の予測などが可能です。すでにわかっているデータセット値があります。
入力が提供されると、回帰アルゴリズムが入力値と期待値を比較し、エラーが計算されて正確な結果が得られます。
応用: マーケティングと製品開発の取り組みの比較。
トップデータマイニングアルゴリズム
データマイニング技術は、その背後にあるアルゴリズムを通じて適用されます。これらのアルゴリズムはデータ抽出ソフトウェアで実行され、ビジネスニーズに基づいて適用されます。
データセットを分析するために組織によって広く使用されているアルゴリズムのいくつかを以下に定義します。
- K-means: これは、類似したアイテムのグループが一緒にクラスター化される一般的なクラスター分析手法です。
- Aprioriアルゴリズム: これは頻繁なアイテムセットマイニング手法であり、トランザクションデータベースではアソシエーションルールが適用されます。頻繁なアイテムセットを検出し、一般的な傾向を強調します。
- K最近傍法: この方法は、分類と回帰分析に使用されます。 k最近傍法は、トレーニングデータを格納する怠惰な学習であり、ラベルのない新しいデータが来ると、入力データを分類します。
- ベイズの船: これは、各データオブジェクトの特徴が互いに独立していることを前提とする単純な確率的分類アルゴリズムのグループです。ベイズの定理を応用したものです。
- AdaBoost: これは、パフォーマンスを向上させるために使用される機械学習メタアルゴリズムです。 Adaboostは、ノイズの多いデータや外れ値に敏感です。
データ抽出方法
複雑なデータ型を処理するためのいくつかの高度なデータマイニング方法を以下に説明します。
今日の世界のデータは、単純なデータから複雑なデータまでさまざまな種類があります。時系列、多次元、空間、マルチメディアデータなどの複雑なデータ型をマイニングするには、高度なアルゴリズムと手法が必要です。
それらのいくつかを以下に説明します。
- クリック: これは、多次元部分空間でクラスターを見つける最初のクラスタリング手法でした。
- P3C: これは、中程度から高度な多次元データのよく知られたクラスタリング手法です。
- 湖: これは、中次元から高次元のデータをクラスタリングすることを目的としたk-meansベースの方法です。アルゴリズムは、可能性のある外れ値を削除することにより、データをk個の互いに素な要素のセットに分割します。
- カーラー: これは相関クラスタリングアルゴリズムであり、線形相関と非線形相関の両方を検出します。
トップデータマイニングツール
データマイニングツールは、データのマイニングに使用されるソフトウェアです。ツールはバックエンドでアルゴリズムを実行します。これらのツールは、オープンソース、フリーソフトウェア、およびライセンスバージョンとして市場で入手できます。
データ抽出ツールには次のものがあります。
#1)RapidMiner
RapidMinerは、データ準備、機械学習、予測モデルの展開を統合する分析チーム向けのオープンソースソフトウェアプラットフォームです。このツールは、データマイニング分析の実行とデータモデルの作成に使用されます。分類、クラスタリング、相関ルールマイニング、および回帰アルゴリズム用の大規模なセットがあります。
#2)オレンジ
これは、データの視覚化と分析のパッケージを含むオープンソースツールです。 Orangeは、動作中のPython環境にインポートできます。これは、新しい研究者や小さなプロジェクトに最適です。
#3)言語
KEEL(進化的学習に基づく知識抽出)はオープンソース( GPLv3 )多数の異なる知識データ発見タスクに使用できるJavaソフトウェアツール。
#4)SPSS
IBM SPSS Modelerは、IBMのデータマイニングおよびテキスト分析ソフトウェアアプリケーションです。これは、予測モデルを構築し、他の分析タスクを実行するために使用されます。
#5)KNIME
これは、データクリーニングおよび分析パッケージ、感情分析およびソーシャルネットワーク分析の分野に特化したアルゴリズムを含む無料のオープンソースツールです。 KNIMEは、さまざまなソースからのデータを同じ分析に統合できます。 Java、Python、Rプログラミングとのインターフェースがあります。
重要な質問:分類は予測とどのように異なりますか?
分類はデータのグループ化です。分類の例は、年齢層、病状などに基づいてグループ化することです。予測は、分類されたデータを使用して結果を導き出します。
例 of Predictive Analysisは、年齢層、病状の治療に基づいて関心を予測しています。予測は、連続値の推定とも呼ばれます。
重要な用語:予測データマイニング
予測データマイニングは、ビジネスインテリジェンスやその他のデータを使用して特定のデータトレンドを予測または予測するために行われます。これは、企業がより良い分析を行い、より良い意思決定を行うのに役立ちます。予測分析は、多くの場合、予測データマイニングと組み合わされます。
予測データマイニングは、分析に関連するデータを見つけます。予測分析では、データを使用して結果を予測します。
結論
このチュートリアルでは、組織や企業が最も有用で関連性のある情報を見つけるのに役立つさまざまなデータマイニング手法について説明しました。この情報は、企業がそれに基づいて行動するための顧客の行動を予測するモデルを作成するために使用されます。
データマイニング技術に関する上記のすべての情報を読むと、その信頼性と実現可能性をさらに適切に判断できます。データ抽出手法には、データの操作、データの再フォーマット、データの再構築が含まれます。必要な情報の形式は、実行する手法と分析に基づいています。
最後に、すべての技術、方法、データマイニングシステムは、新しい創造的なイノベーションの発見に役立ちます。