宝のブログ

大学生が書く気まぐれ雑記ブログです。

機械学習用語まとめ

 

はじめに


機械学習を勉強するときに出てくる用語をまとめていきます。

機械学習(Machine Learning)


  • 機械学習とは、与えられたデータを学習し、未知のデータに対しても当てはまる規則やパターンを抽出したり、それらを元に未知のデータを分類したり、予測したりする手法を研究する分野のこと。

  • 機械学習の応用例

    画像認識音声認識文書分類医療診断迷惑メール検知商品推薦

  • 機械学習には大きく、教師あり学習教師なし学習に分けられる。(他に、強化学習、半教師学習なども考える場合もある)

  • 教師あり学習には訓練データに目的変数や説明変数があるが、教師なし学習にはない。

訓練データ


  • 機械に読み込ませて、データの規則やパターンを学習させるために使用するデータのこと。
  • 学習データ、教師データ、トレーニングデータとも言う。

説明変数


目的変数を説明するための変数のこと。

特徴量

目的変数


訓練データの中で予測したい変数のこと。

正解データ

教師あり学習


  • 訓練データを与えて、そこに含まれるある変数を予測するためのモデルを構築する手法のこと。
  • モデルに訓練データの説明変数を入力し、そのモデルからの出力が訓練データの目的変数に近くようにパラメータを調整することで学習する。

教師なし学習


訓練データそのものに着目した学習で、データに潜むパターンを見出す手法のこと。

 

 

 

 

機械学習まとめ

用語集

機械学習の用語集 - Qiita

入門

機械学習をざっくりと理解する - Qiita

Web開発におけるコンピュータサイエンス - 機械学習編1 - Hatena Developer Blog

はてなサマーインターン」の講義資料。基本的な内容が書いてある。

ポケモンデータ解析.py - Qiita

ポケモンのデータを対象として、データ分析〜機械学習までの基本的な流れをプログラムも添えて紹介している。

手法

Choosing the right estimator - scikit-learn 0.24.2 documentation

Pythonで利用できる機械学習のライブラリscikit-learnアルゴリズムチートシート。データの内容や機械学習を使用する目的に基づいて、どのアルゴリズムを使用するとよいのかを選ぶのに役立つ。

【目次】Python scikit-learnの機械学習アルゴリズムチートシートを全実装・解説

上記、「Choosing the right estimator — scikit-learn 0.21.3 documentation」に記載されている機械学習アルゴリズムについて実装、解説をしている。チートシートによって選定したアルゴリズムをすぐに試すことが可能。

Kaggle Ensembling Guide

複数のモデルを組み合わせることで精度の高いモデルを作成する手法であるアンサンブル学習について、具体例とともに紹介されている。アンサンブル学習の利点を学べる。

『Kaggle Ensembling Guide』はいいぞ【kaggle Advent Calendar 7日目】 - u++の備忘録

上記、「Kaggle Ensembling Guide | MLWave」についての紹介。

評価

validationの切り方いろいろ(sklearnの関数まとめ)【kaggle Advent Calendar 4日目】 - u++の備忘録

機械学習において、モデルの評価をするときに交差検証(cross-validation)が利用される。代表的なものとして、K-分割交差検証(K-fold cross-validation)などがあり、これによりトレーニングデータとテストデータとに分割するが、場合によっては、偏りや順序(時系列)を考慮する必要がある。

この記事ではそのような交差検証の重要さと、交差検証の分割方法について紹介されている。

Kaggle:機械学習・データサイエンスのコミュニティ

kaggle初心者はどのコンペに参加すべき?コンペの7分類を紹介 - こここブログ

kaggleコンペティションは7つに分類されており、どの分類のコンペティションに参加するのかを選定する指針として役立つ。

Kaggleで使える!Pandasテクニック集 - Qiita

Pythonを用いるデータ分析で重宝されるライブラリPandasについて、機械学習で約立つテクニックが紹介されている。

参考

機械学習の参考リンク集 - Qiita