機械学習まとめ
用語集
入門
Web開発におけるコンピュータサイエンス - 機械学習編1 - Hatena Developer Blog
「はてなサマーインターン」の講義資料。基本的な内容が書いてある。
ポケモンのデータを対象として、データ分析〜機械学習までの基本的な流れをプログラムも添えて紹介している。
手法
Choosing the right estimator - scikit-learn 0.24.2 documentation
Pythonで利用できる機械学習のライブラリscikit-learnのアルゴリズムチートシート。データの内容や機械学習を使用する目的に基づいて、どのアルゴリズムを使用するとよいのかを選ぶのに役立つ。
【目次】Python scikit-learnの機械学習アルゴリズムチートシートを全実装・解説
上記、「Choosing the right estimator — scikit-learn 0.21.3 documentation」に記載されている機械学習アルゴリズムについて実装、解説をしている。チートシートによって選定したアルゴリズムをすぐに試すことが可能。
複数のモデルを組み合わせることで精度の高いモデルを作成する手法であるアンサンブル学習について、具体例とともに紹介されている。アンサンブル学習の利点を学べる。
『Kaggle Ensembling Guide』はいいぞ【kaggle Advent Calendar 7日目】 - u++の備忘録
上記、「Kaggle Ensembling Guide | MLWave」についての紹介。
評価
validationの切り方いろいろ(sklearnの関数まとめ)【kaggle Advent Calendar 4日目】 - u++の備忘録
機械学習において、モデルの評価をするときに交差検証(cross-validation)が利用される。代表的なものとして、K-分割交差検証(K-fold cross-validation)などがあり、これによりトレーニングデータとテストデータとに分割するが、場合によっては、偏りや順序(時系列)を考慮する必要がある。
この記事ではそのような交差検証の重要さと、交差検証の分割方法について紹介されている。
Kaggle:機械学習・データサイエンスのコミュニティ
kaggle初心者はどのコンペに参加すべき?コンペの7分類を紹介 - こここブログ
kaggleのコンペティションは7つに分類されており、どの分類のコンペティションに参加するのかを選定する指針として役立つ。
Kaggleで使える!Pandasテクニック集 - Qiita
Pythonを用いるデータ分析で重宝されるライブラリPandasについて、機械学習で約立つテクニックが紹介されている。