機械学習用語まとめ
はじめに
機械学習を勉強するときに出てくる用語をまとめていきます。
機械学習(Machine Learning)
-
機械学習とは、与えられたデータを学習し、未知のデータに対しても当てはまる規則やパターンを抽出したり、それらを元に未知のデータを分類したり、予測したりする手法を研究する分野のこと。
-
機械学習の応用例
画像認識、音声認識、文書分類、医療診断、迷惑メール検知、商品推薦
訓練データ
- 機械に読み込ませて、データの規則やパターンを学習させるために使用するデータのこと。
- 学習データ、教師データ、トレーニングデータとも言う。
説明変数
目的変数を説明するための変数のこと。
特徴量
目的変数
訓練データの中で予測したい変数のこと。
正解データ
教師あり学習
- 訓練データを与えて、そこに含まれるある変数を予測するためのモデルを構築する手法のこと。
- モデルに訓練データの説明変数を入力し、そのモデルからの出力が訓練データの目的変数に近くようにパラメータを調整することで学習する。
教師なし学習
訓練データそのものに着目した学習で、データに潜むパターンを見出す手法のこと。
機械学習まとめ
用語集
入門
Web開発におけるコンピュータサイエンス - 機械学習編1 - Hatena Developer Blog
「はてなサマーインターン」の講義資料。基本的な内容が書いてある。
ポケモンのデータを対象として、データ分析〜機械学習までの基本的な流れをプログラムも添えて紹介している。
手法
Choosing the right estimator - scikit-learn 0.24.2 documentation
Pythonで利用できる機械学習のライブラリscikit-learnのアルゴリズムチートシート。データの内容や機械学習を使用する目的に基づいて、どのアルゴリズムを使用するとよいのかを選ぶのに役立つ。
【目次】Python scikit-learnの機械学習アルゴリズムチートシートを全実装・解説
上記、「Choosing the right estimator — scikit-learn 0.21.3 documentation」に記載されている機械学習アルゴリズムについて実装、解説をしている。チートシートによって選定したアルゴリズムをすぐに試すことが可能。
複数のモデルを組み合わせることで精度の高いモデルを作成する手法であるアンサンブル学習について、具体例とともに紹介されている。アンサンブル学習の利点を学べる。
『Kaggle Ensembling Guide』はいいぞ【kaggle Advent Calendar 7日目】 - u++の備忘録
上記、「Kaggle Ensembling Guide | MLWave」についての紹介。
評価
validationの切り方いろいろ(sklearnの関数まとめ)【kaggle Advent Calendar 4日目】 - u++の備忘録
機械学習において、モデルの評価をするときに交差検証(cross-validation)が利用される。代表的なものとして、K-分割交差検証(K-fold cross-validation)などがあり、これによりトレーニングデータとテストデータとに分割するが、場合によっては、偏りや順序(時系列)を考慮する必要がある。
この記事ではそのような交差検証の重要さと、交差検証の分割方法について紹介されている。
Kaggle:機械学習・データサイエンスのコミュニティ
kaggle初心者はどのコンペに参加すべき?コンペの7分類を紹介 - こここブログ
kaggleのコンペティションは7つに分類されており、どの分類のコンペティションに参加するのかを選定する指針として役立つ。
Kaggleで使える!Pandasテクニック集 - Qiita
Pythonを用いるデータ分析で重宝されるライブラリPandasについて、機械学習で約立つテクニックが紹介されている。