weka explorer visualization
このチュートリアルでは、WEKAエクスプローラーを使用して、データの視覚化、K-meansクラスター分析、および相関ルールマイニングを実行する方法について説明します。
の中に 前のチュートリアル 、決定木のWEKAデータセット、分類器、およびJ48アルゴリズムについて学習しました。
これまで見てきたように、WEKAは、多くの研究者や学生が多くの機械学習タスクを実行するために使用するオープンソースのデータマイニングツールです。ユーザーは、機械学習メソッドを構築し、WEKAディレクトリで提供されるサンプルデータセットで実験を実行することもできます。
WEKAでのデータの視覚化は、サンプルデータセットまたは.arff、.csv形式のユーザー作成データセットを使用して実行できます。
=> 完全な機械学習トレーニングシリーズを読む
アソシエーションルールマイニングは、Aprioriアルゴリズムを使用して実行されます。これは、頻繁なパターンマイニングを実行するためにWEKAによって提供される唯一のアルゴリズムです。
FartherestFirst、FilteredCluster、HierachicalClusterなど、クラスター分析を実行するためのWEKAには多くのアルゴリズムがあります。これらのうち、最も単純なクラスタリング方法であるSimpleKmeansを使用します。
学習内容:
WEKAエクスプローラーを使用した相関ルールマイニング
WEKAエクスプローラーを使用してアソシエーションルールマイニングを実装する方法を見てみましょう。
アソシエーションルールマイニング
1994年にSrikantとAggarwalによって開発および設計されました。これは、データ内のパターンを見つけるのに役立ちます。これは、一緒に発生する機能または相関する機能を見つけるデータマイニングプロセスです。
swfファイルとは何ですか?
アソシエーションルールのアプリケーションには、単一のバスケットで購入されたアイテムを分析するためのマーケットバスケット分析が含まれます。クロスマーケティング。自動車ディーラーや石油会社など、当社のビジネス製品の価値を高める他のビジネスと協力します。
大きなデータセットで頻繁なアイテムセットが見つかった後、アソシエーションルールがマイニングされます。これらのデータセットは、AprioriやFPGrowthなどのマイニングアルゴリズムを使用して検出されます。頻繁なアイテムセットマイニングは、サポートと信頼性の測定を使用してデータをマイニングします。
サポートと自信
サポート パンとバターなど、2つのアイテムが1回のトランザクションで一緒に購入される確率を測定します。 信頼 ラップトップやコンピューターのウイルス対策ソフトウェアなど、2つのアイテムが次々に購入されるが、一緒には購入されない確率を示す指標です。
最小しきい値のサポートと最小しきい値の信頼値は、トランザクションを整理し、最も頻繁に発生するアイテムセットを見つけるために想定されています。
WEKAエクスプローラーを使用した実装
WEKAにはの実装が含まれています Aprioriアルゴリズム 相関ルールを学習するため。 Aprioriは、バイナリ属性、カテゴリデータ(公称データ)でのみ機能するため、データセットに数値が含まれている場合は、最初にそれらを公称値に変換します。
Aprioriは、最小限のサポートと信頼度のしきい値ですべてのルールを見つけます。
以下の手順に従ってください。
#1) Excelファイルデータセットを準備し、「 apriori.csv '。
#二) WEKAエクスプローラーを開き、(前処理)タブで「apriori.csv」ファイルを選択します。
#3) これで、ファイルがWEKAエクスプローラーにロードされます。
#4) 次の画像に示すように、チェックボックスをオンにして(削除)をクリックして、(トランザクション)フィールドを削除します。次に、ファイルを「aprioritest.arff」として保存します。
#5) (関連付け)タブに移動します。アプリオリルールはここからマイニングできます。
#6) (選択)をクリックして、サポートと信頼度のパラメーターを設定します。 ここで設定できるさまざまなパラメータは次のとおりです。
- 「」 lowerBoundMinSupport 」と「 upperBoundMinSupport 」、これは私たちのアルゴリズムが機能するサポートレベルの間隔です。
- デルタ サポートの増分です。この場合、0.05は0.1から1へのサポートの増分です。
- metricType 「自信」、「リフト」、「レバレッジ」、「信念」のいずれかになります。これは、相関ルールをランク付けする方法を示しています。一般的に、信頼が選択されます。
- numRules マイニングするアソシエーションルールの数を示します。デフォルトでは、10に設定されています。
- 重要なレベル 信頼水準の重要性を示しています。
# 7) 選択ボタンの横にあるテキストボックスには、「 アプリオリ-N-10-T-0-C-0.9-D0.05-U1.0-M0.1-S-1.0-c-1 」は、設定タブでアルゴリズムに設定された要約ルールを示しています。
#8) スタートボタンをクリックします。アソシエーションルールは右側のパネルで生成されます。このパネルは2つのセクションで構成されています。 1つ目はアルゴリズムであり、実行するために選択されたデータセットです。 2番目の部分はアプリオリ情報を示しています。
右側のパネルの実行情報を理解しましょう。
- スキームは私たちアプリオリを使用しました。
- インスタンスと属性:6つのインスタンスと4つの属性があります。
- 最小サポートと最小信頼度は、それぞれ0.4と0.9です。 6つのインスタンスのうち、最小サポートで2つのインスタンスが見つかりました。
- マイニング相関ルールに対して実行されるサイクル数は12です。
- 生成される大きなアイテムセットは3:L(1)、L(2)、L(3)ですが、サイズがそれぞれ7、11、5であるため、これらはランク付けされていません。
- 見つかったルールがランク付けされます。これらのルールの解釈は次のとおりです。
- バターT4 =>ビールF4:6つのうち、4つのインスタンスは、バターが真の場合、ビールが偽であることを示しています。これは強い関連性を与えます。信頼水準は0.1です。
出力
アソシエーションルールは、Aprioriアルゴリズムを備えたWEKAエクスプローラーを使用してマイニングできます。このアルゴリズムは、WEKAディレクトリで利用可能なすべてのタイプのデータセット、およびユーザーが作成した他のデータセットに適用できます。サポートと信頼度およびその他のパラメーターは、アルゴリズムの(設定)ウィンドウを使用して設定できます。
WEKAエクスプローラーを使用したK-meansアルゴリズム
WEKAExplorerを使用してクラスタリング用のK-meansアルゴリズムを実装する方法を見てみましょう。
クラスター分析とは
クラスタリングアルゴリズムは、同様の特性を持つデータのグループを作成するために使用される教師なし学習アルゴリズムです。類似性のあるオブジェクトをグループとサブグループに集約し、データセットの分割につながります。クラスター分析は、データセットをサブセットに分割するプロセスです。これらのサブセットはクラスターと呼ばれ、クラスターのセットはクラスタリングと呼ばれます。
クラスター分析は、画像認識、パターン認識、Web検索、セキュリティなどの多くのアプリケーションで、同様の好みを持つ顧客のグループ化などのビジネスインテリジェンスで使用されます。
K-meansクラスタリングとは
Kは、クラスタリングが最も単純なクラスタリングアルゴリズムであることを意味します。 K-クラスタリングアルゴリズムでは、データセットはK-クラスターに分割されます。目的関数は、パーティションの品質を見つけるために使用され、類似したオブジェクトが1つのクラスターに含まれ、異なるオブジェクトが他のグループに含まれるようにします。
この方法では、クラスターの重心がクラスターを表すことがわかります。重心はクラスターの中心と見なされ、クラスター内のポイントの平均値として計算されます。ここで、クラスタリングの品質は、ポイントと中心の間のユークリッド距離を測定することによって求められます。この距離は最大である必要があります。
K-Meanクラスタリングアルゴリズムはどのように機能しますか
ステップ1: Kの値を選択します。ここで、Kはクラスターの数です。
ステップ2: 各ポイントを繰り返し、それに最も近い中心を持つクラスターを割り当てます。各要素が繰り返されると、すべてのクラスターの重心が計算されます。
ステップ3: データセットのすべての要素を反復し、すべてのクラスターの点と重心の間のユークリッド距離を計算します。クラスター内に最も近くないポイントが存在する場合は、そのポイントを最も近いクラスターに再割り当てし、データセット内のすべてのポイントに対してこれを実行した後、各クラスターの重心を再度計算します。
ステップ4: 2つの連続する反復の間に新しい割り当てが発生しなくなるまで、ステップ#3を実行します。
K-WEKAを使用したクラスタリングの実装を意味します
Wekaを使用して実装する手順は次のとおりです。
#1) WEKA Explorerを開き、(前処理)タブで(ファイルを開く)をクリックします。データセット「vote.arff」を選択します。
#二) 「クラスター」タブに移動し、「選択」ボタンをクリックします。クラスタリング方法を「SimpleKMeans」として選択します。
#3)(設定)を選択し、次のフィールドを設定します。
- ユークリッドとしての距離関数
- クラスターの数は6です。クラスターの数が多いほど、誤差の二乗和は減少します。
- 10としてシード
(OK)をクリックして、アルゴリズムを開始します。
#4) 左側のパネルで(開始)をクリックします。アルゴリズムは結果を白い画面に表示します。 実行情報を分析してみましょう。
- スキーム、リレーション、インスタンス、および属性は、データセットのプロパティと使用されるクラスタリング方法を記述します。この場合、vote.arffデータセットには435のインスタンスと13の属性があります。
- Kmeansクラスターでは、反復回数は5回です。
- 二乗誤差の合計は1098.0です。このエラーは、クラスターの数が増えると減少します。
- 重心を持つ最後の5つのクラスターは、表の形式で表されます。この場合、クラスターの重心は168.0、47.0、37.0、122.0.33.0、および28.0です。
- クラスター化されたインスタンスは、クラスターに含まれるインスタンス全体の数と割合を表します。
#5) 「クラスからクラスターへの評価」を選択し、「開始」をクリックします。
アルゴリズムは、クラスラベルをクラスターに割り当てます。クラスター0は共和党を表し、クラスター3は民主党を表します。誤ってクラスター化されたインスタンスは39.77%であり、重要でない属性を無視することで削減できます。
#6) 重要でない属性を無視します。 「属性を無視」ボタンをクリックして、削除する属性を選択します。
# 7) 「視覚化」タブを使用して、クラスタリングアルゴリズムの結果を視覚化します。タブに移動し、任意のボックスをクリックします。ジッターを最大に移動します。
- X軸とY軸は属性を表します。
- 青い色はクラスラベルの民主党員を表し、赤い色はクラスラベルの共和党員を表します。
- ジッタは、クラスタを表示するために使用されます。
- ウィンドウの右側にあるボックスをクリックして、x座標属性を変更し、他の属性に関してクラスタリングを表示します。
出力
Kは、クラスタリングが単純なクラスター分析方法であることを意味します。クラスターの数は、設定タブを使用して設定できます。各クラスターの重心は、クラスター内のすべてのポイントの平均として計算されます。クラスターの数が増えると、二乗誤差の合計が減少します。クラスタ内のオブジェクトは、同様の特性とプロパティを示します。クラスターはクラスラベルを表します。
WEKAを使用したデータ視覚化の実装
データの視覚化
データを明確に理解することを目的として、グラフやプロットでデータを表現する方法は、データの視覚化です。
データを表現する方法はたくさんあります。それらのいくつかは次のとおりです。
#1)ピクセル指向の視覚化: ここで、ピクセルの色は寸法値を表します。ピクセルの色は、対応する値を表します。
#2)幾何学的表現: 多次元データセットは、2D、3D、および4D散布図で表されます。
#3)アイコンベースの視覚化: データは、チェルノフの顔と棒人間を使用して表されます。チェルノフの顔は、人間の精神の能力を使用して、顔の特徴とそれらの違いを認識します。棒人間は、5つの棒人間を使用して多次元データを表します。
#4)階層データの視覚化: データセットは、ツリーマップを使用して表されます。階層データをネストされた三角形のセットとして表します。
WEKAエクスプローラーを使用したデータの視覚化
WEKAを使用したデータの視覚化は、IRIS.arffデータセットで行われます。
必要な手順は次のとおりです。
#1) (前処理)タブに移動し、IRIS.arffデータセットを開きます。
#二) データセットには、4つの属性と1つのクラスラベルがあります。 このデータセットの属性は次のとおりです。
- Sepallength: タイプ-数値
- 分離幅: タイプ-数値
- ペタレングス: タイプ-数値
- 花びらの幅: タイプ-数値
- クラス: タイプ名義
#3) データセットを視覚化するには、(視覚化)タブに移動します。タブには、属性プロット行列が表示されます。インスタンスがプロットされている間、データセット属性はx軸とy軸にマークされます。 x軸属性とy軸属性のボックスを拡大できます。
#4) プロットのボックスをクリックして拡大します。 例えば、 x:花びらの長さとy:花びらの幅。クラスラベルはさまざまな色で表されます。
- クラスラベル-アイリス-セトサ:青色
- クラスラベル-アイリス-versicolor:赤
- クラスラベル-アイリス-バージニカ-グリーン
これらの色は変更できます。色を変更するには、下部にあるクラスラベルをクリックすると、カラーウィンドウが表示されます。
#5) プロットで「x」で表されているインスタンスをクリックします。インスタンスの詳細が表示されます。 例えば:
- インスタンス番号: 91
- 分離長: 5.5
- 分離幅: 2.62.6
- ペタレングス: 4.4
- 花びらの幅: 1.2
- クラス: アイリス-versicolor
プロット内のいくつかのポイントは、他のポイントよりも暗く見えます。これらのポイントは、花びらの幅や花びらの長さなど、グラフにプロットされた同じクラスラベルと同じ値の属性を持つ2つ以上のインスタンスを表します。
次の図は、2つのインスタンス情報を持つポイントを表しています。
#6) X軸とY軸の属性は、グラフの視覚化の右側のパネルから変更できます。ユーザーはさまざまなプロットを表示できます。
# 7) ジッタは、プロットにランダム性を追加するために使用されます。ポイントが重なることがあります。ジッタがある場合、暗いスポットは複数のインスタンスを表します。
#8) データセットをより明確に表示し、外れ値を削除するために、ユーザーはドロップダウンからインスタンスを選択できます。 「インスタンスの選択」ドロップダウンをクリックします。 「長方形」を選択します。これにより、ユーザーは長方形をプロットすることでプロット内のポイントを選択できるようになります。
PC2015をきれいにするための最高のソフトウェア
#9) 「送信」をクリックします。選択したデータセットポイントのみが表示され、他のポイントはグラフから除外されます。
次の図は、選択した長方形のポイントを示しています。プロットは、クラスラベルが3つしかない点を表しています。ユーザーは「保存」をクリックしてデータセットを保存するか、「リセット」をクリックして別のインスタンスを選択できます。データセットは別の.ARFFファイルに保存されます。
出力:
WEKAを使用したデータの視覚化は、箱ひげ図の助けを借りて簡素化されます。ユーザーは、あらゆるレベルの粒度を表示できます。属性はX軸とy軸にプロットされ、インスタンスはX軸とY軸に対してプロットされます。一部のポイントは、暗い色のポイントで表される複数のインスタンスを表します。
結論
WEKAは、多くのデータマイニングタスクを実行するだけでなく、データセットに対して新しい方法を試すための効率的なデータマイニングツールです。 WEKAは、ニュージーランドのワイカト大学のコンピューターサイエンス学部によって開発されました。
今日の世界は、スーパーマーケットでの買い物から自宅の防犯カメラまで、データに圧倒されています。データマイニングはこの生データを使用し、それを情報に変換して予測を行います。 Aprioriアルゴリズムの助けを借りたWEKAは、データセット内の相関ルールのマイニングに役立ちます。 Aprioriは、トランザクション内のアイテムセットの発生数をカウントする頻繁なパターンマイニングアルゴリズムです。
クラスター分析は、類似した特性を表すデータのクラスターを見つけるための手法です。 WEKAは、クラスター分析を実行するための多くのアルゴリズムを提供しますが、その中からsimplekmeansが頻繁に使用されます。
WEKAでのデータの視覚化は、WEKAディレクトリ内のすべてのデータセットで実行できます。生のデータセットを表示したり、分類、クラスタリング、関連付けなどの他のアルゴリズムの結果のデータセットをWEKAを使用して視覚化することができます。
=> 独占的な機械学習シリーズについては、こちらをご覧ください