weka tutorial how download
このWEKAチュートリアルでは、Weka Machine Learningツールとは何か、その機能、およびWeka Machine Learning Softwareをダウンロード、インストール、使用する方法について説明します。
の中に 前のチュートリアル 、MLでのサポートベクターマシンと、超平面、サポートベクター、SVMのアプリケーションなどの関連概念について学びました。
機械学習は、機械が人工知能システムとして機能する科学分野です。マシンは、明示的なコーディングを必要とせずに、自分で学習できます。これは、データにアクセスし、それ自体で学習し、結果を予測する反復プロセスです。機械学習タスクを実行するには、多くのツールとスクリプトが必要です。
WEKAは、多くの機械学習活動を促進する多くのツールで構成される機械学習プラットフォームです。
=> 完全な機械学習トレーニングシリーズを読む
学習内容:
WEKAとは
Wekaは、ニュージーランドのワイカト大学の科学者/研究者によって設計および開発されたオープンソースツールです。 WEKAは知識分析のためのワイカト環境の略です。これは国際的な科学コミュニティによって開発され、無料のGNUGPLライセンスの下で配布されています。
WEKAは完全にJavaで開発されています。 JavaDatabaseConnectivityを使用してSQLデータベースとの統合を提供します。データマイニングタスクを実装するための多くの機械学習アルゴリズムを提供します。これらのアルゴリズムは、WEKAツールを使用して直接使用することも、Javaプログラミング言語を使用する他のアプリケーションで使用することもできます。
データの前処理、分類、クラスタリング、回帰分析、相関ルールの作成、特徴抽出、およびデータの視覚化のための多くのツールを提供します。これは、機械学習の新しいアルゴリズムの開発をサポートする強力なツールです。
WEKA機械学習ツールを使用する理由
WEKAを使用すると、ユーザーは機械学習アルゴリズムをすぐに利用できます。 MLスペシャリストは、これらの方法を使用して、大量のデータから有用な情報を抽出できます。ここでは、スペシャリストが新しい機械学習手法を開発して実際のデータに実装するための環境を作成できます。
WEKAは、機械学習および応用科学の研究者が学習目的で使用します。これは、多くのデータマイニングタスクを実行するための効率的なツールです。
WEKAのダウンロードとインストール
#1) からソフトウェアをダウンロードします ここに 。
アンドロイドのための最高の無料のmp3音楽ダウンローダー
コンピュータシステムの構成を確認し、このページからWEKAの安定バージョン(現在は3.8)をダウンロードします。
#二) ダウンロードが成功したら、ファイルの場所を開き、ダウンロードしたファイルをダブルクリックします。ステップアップウィザードが表示されます。 (次へ)をクリックします。
#3) 使用許諾契約の条項が開きます。それをよく読んで、「同意する」をクリックしてください。
#4) 要件に応じて、インストールするコンポーネントを選択します。コンポーネント全体をインストールすることをお勧めします。 (次へ)をクリックします。
#5) 宛先フォルダを選択し、(次へ)をクリックします。
#6) その後、インストールが開始されます。
# 7) Javaがシステムにインストールされていない場合は、最初にJavaがインストールされます。
#8) インストールが完了すると、次のウィンドウが表示されます。 (次へ)をクリックします。
#9) StartWekaチェックボックスを選択します。 (完了)をクリックします。
#10) WEKAツールとエクスプローラーウィンドウが開きます。
#十一) WEKAマニュアルはからダウンロードできます ここに。
WEKAのグラフィカルユーザーインターフェース
WEKAのGUIには5つのオプションがあります。 Explorer、Experimenter、ナレッジフロー、Workbench、およびSimpleCLI。これらのそれぞれを個別に理解しましょう。
#1)シンプルなCLI
シンプルなCLIは、コマンドラインと出力を備えたWekaShellです。 「ヘルプ」を使用すると、すべてのコマンドの概要を確認できます。 Simple CLIは、分類子、クラスター、フィルターなどのすべてのクラスへのアクセスを提供します。
簡単なCLIコマンドのいくつかは次のとおりです。
- ブレーク: 現在のスレッドを停止するには
- 出口: CLIを終了します
- 助けて() : 指定されたコマンドのヘルプを出力します
- -java weka.classifiers.trees.J48 -t c:/temp/iris.arff: WEKAクラスを呼び出すには、接頭辞としてJavaを付けます。このコマンドは、WEKAにクラスをロードし、指定されたパラメーターで実行するように指示します。このコマンドでは、J48分類子がIRISデータセットで呼び出されます。
#2)エクスプローラー
WEKA Explorerウィンドウには、前処理から始まるさまざまなタブが表示されます。最初は、前処理タブがアクティブです。最初にデータセットが前処理されてから、アルゴリズムが適用され、データセットが探索されます。
タブは次のとおりです。
- 前処理: ロードされたデータを選択して変更します。
- 分類: データを分類および回帰するデータにトレーニングおよびテストアルゴリズムを適用します。
- 集まる: データからクラスターを形成します。
- 仲間、同僚: データの相関ルールをマイニングします。
- 属性の選択: 属性選択尺度が適用されます。
- 視覚化: データの2D表現が見られます。
- ステータスバー: ウィンドウの最下部にはステータスバーが表示されます。このセクションでは、ファイルがロードされているなど、現在メッセージの形式で何が起こっているかを示します。これを右クリックして、 記憶 情報 見ることができ、また 実行 ゴミ コレクタ スペースを解放するために実行することができます。
- ログボタン: タイムスタンプとともにWekaのすべてのアクションのログを保存します。 (ログ)ボタンをクリックすると、ログが別のウィンドウに表示されます。
- WEKA鳥のアイコン: 右下隅にあるのは、同時に実行されているプロセスの数を表すWEKAバードを示しています(xで)。プロセスが実行されているとき、鳥は動き回るでしょう。
#3)実験者
WEKA実験ボタンを使用すると、ユーザーはデータセットの1つの実験でさまざまなスキームを作成、実行、および変更できます。 実験者には2種類の構成があります。 シンプルで高度。どちらの構成でも、ユーザーはローカルおよびリモートコンピューターで実験を実行できます。
- 「開く」および「新規」ボタンは、ユーザーが実行できる新しい実験ウィンドウを開きます。
- 結果: ARFF、JDFC、CSVファイルから結果宛先ファイルを設定します。
- 実験タイプ: ユーザーは、相互検証とトレーニング/テストのパーセンテージ分割のどちらかを選択できます。ユーザーは、使用するデータセットと分類子に基づいて、分類と回帰のどちらかを選択できます。
- データセット: ユーザーはここからデータセットを参照して選択できます。別のマシンで作業している場合は、相対パスチェックボックスをクリックします。サポートされているデータセットの形式は、ARFF、C4.5、CSV、libsvm、bsi、およびXRFFです。
- 反復: デフォルトの反復回数は10に設定されています。最初にデータセット、アルゴリズムが最初にデータセットとアルゴリズムを切り替えるのに役立ち、すべてのデータセットでアルゴリズムを実行できます。
- アルゴリズム: 「新しいボタン」によって新しいアルゴリズムが追加されます。ユーザーは分類子を選択できます。
- (保存)ボタンを使用して実験を保存します。
- (実行)ボタンを使用して実験を実行します。
#4)知識の流れ
ナレッジフローは、WEKAアルゴリズムのグラフィック表現を示しています。ユーザーはコンポーネントを選択し、データセットを分析するワークフローを作成できます。データは、バッチ単位または増分単位で処理できます。並列ワークフローを設計でき、それぞれが別々のスレッドで実行されます。
利用可能なさまざまなコンポーネントは データソース、データセーバー、フィルター、分類子、クラスター、評価、および視覚化。
#5)ワークベンチ
WEKAには、1つのウィンドウにすべてのGUIを含むワークベンチモジュールがあります。
WEKAエクスプローラーの機能
#1)データセット
データセットはアイテムで構成されています。オブジェクトを表します 例えば: マーケティングデータベースでは、顧客と製品を表します。データセットは属性によって記述されます。データセットには、データベース内のデータタプルが含まれています。データセットには、名義、数値、または文字列の属性があります。 Wekaでは、データセットは次のように表されます。 weka.core.Instances クラス。
5つの例によるデータセットの表現:
@データ
日当たりの良い、FALSE、85、85、いいえ
日当たりの良い、TRUE、80、90、いいえ
曇り、FALSE、83,86、はい
雨、FALSE、70,96、はい
雨、FALSE、68、80、はい
属性とは何ですか?
属性は、データオブジェクトの特性を表すデータフィールドです。 例えば、 顧客データベースでは、属性はcustomer_id、customer_email、customer_addressなどになります。属性にはさまざまなタイプがあります。
これらの可能なタイプは次のとおりです。
A)公称属性: 名前に関連し、色、天気などの事前定義された値を持つ属性。これらの属性は呼ばれます カテゴリ属性 。これらの属性には順序がなく、それらの値は列挙とも呼ばれます。
@attribute outlook {晴れ、曇り、雨}: 名目属性の宣言。
B)バイナリ属性: これらの属性は、値0と1のみを表します。これらは、2つのカテゴリーのみを持つ名目属性のタイプです。これらの属性はブールとも呼ばれます。
C)順序属性: それらの間でいくつかの順序またはランク付けを保持する属性は、順序属性です。連続する値は予測できませんが、順序のみが維持されます。 例: サイズ、グレードなど。
D)数値属性: 測定可能な量を表す属性は数値属性です。これらは実数または整数で表されます。 例: 温度、湿度。
@属性湿度実数: 数値属性の宣言
E)文字列属性: これらの属性は、二重引用符で表された文字のリストを表します。
#2)ARFFデータ形式
WEKAはデータ分析のためにARFFファイルを処理します。 ARFFは、Attribute Relation FileFormatの略です。 3つのセクションがあります。 関係、属性、およびデータ。すべてのセクションは「@」で始まります。
ARFFファイルは、名目、数値、文字列、日付、およびリレーショナルデータ属性を取ります。よく知られている機械学習データセットのいくつかは、ARFFとしてWEKAに存在します。
ARFFの形式は次のとおりです。
@関係
@属性
@データ
ARFFファイルの例は次のとおりです。
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
#3)XRFFデータ形式
XRFFは、XML属性Relation FileFormatの略です。コメント、属性、インスタンスの重みを格納できるデータを表します。拡張子は.xrff、ファイル拡張子は.xrff.gz(圧縮形式)です。 XRFFファイルはXML形式でデータを表しました。
#4)データベース接続
WEKAを使用すると、JDBCドライバーを使用してデータベースに簡単に接続できます。データベースに接続するには、JDBCドライバーが必要です。 例:
MS SQL Server (com.microsoft.jdbc.sqlserver.SQLServerDriver)
オラクル (oracle.jdbc.driver.OracleDriver)
#5)分類子
出力データを予測するために、WEKAには分類子が含まれています。学習に使用できる分類アルゴリズムは、決定木、サポートベクターマシン、インスタンスベースの分類器、ロジスティック回帰、およびベイジアンネットワークです。試行とテストを使用する要件に応じて、ユーザーはデータの分析に適したアルゴリズムを見つけることができます。分類子は、属性の特性に基づいてデータセットを分類するために使用されます。
#6)クラスタリング
WEKAは、(クラスター)タブを使用して、データセットの類似性を予測します。クラスタリングに基づいて、ユーザーは分析に役立つ属性を見つけ、他の属性を無視することができます。 WEKAでクラスタリングに使用できるアルゴリズムは、k-means、EM、Cobweb、X-means、およびFarhtestFirstです。
#7)協会
アソシエーションルールを見つけるためにWEKAで利用できる唯一のアルゴリズムはAprioriです。
#8)属性セクションの測定
WEKAは、計算目的で最適な属性選択を行うために2つのアプローチを使用します。
- 検索方法アルゴリズムの使用: ベストファースト、フォワードセレクション、ランダム、網羅的、遺伝的アルゴリズム、およびランキングアルゴリズム。
- 評価方法アルゴリズムの使用: 相関ベース、ラッパー、情報ゲイン、カイ2乗。
#9)視覚化
WEKAは、データの2D表現、回転を伴う3D視覚化、および単一属性の1D表現をサポートします。名目属性と「非表示」データポイントの「ジッター」オプションがあります。
WEKAのその他の主な機能は次のとおりです。
- これは、「Explorer」、「Experimenter」、「KnowledgeFlow」の形式のグラフィカルユーザーインターフェイスを備えたオープンソースツールです。
- プラットフォームに依存しません。
- 49のデータ前処理ツールが含まれています。
- 76の分類および回帰アルゴリズム、8つのクラスタリングアルゴリズムがWEKAに存在します
- 15個の属性選択アルゴリズムと10個の特徴選択アルゴリズムがあります。
- 相関ルールを見つけるための3つのアルゴリズムがあります。
- WEKAを使用すると、ユーザーは機械学習用のカスタムコードを開発できます。
結論
このWEKAチュートリアルでは、オープンソースのWEKA機械学習ソフトウェアの概要を説明し、ダウンロードとインストールのプロセスを段階的に説明しました。また、Wekaグラフィカルユーザーインターフェイスで使用できる5つのオプション、つまり、エクスプローラー、エクスペリメンター、ナレッジフロー、ワークベンチ、およびシンプルCLIも確認しました。
また、WEKAの機能についても例を挙げて学びました。機能には、データセット、ARFFデータ形式、データベース接続などが含まれます。
=> 独占的な機械学習シリーズについては、こちらをご覧ください