宝のブログ

大学生が書く気まぐれ雑記ブログです。

機械学習まとめ

用語集

機械学習の用語集 - Qiita

入門

機械学習をざっくりと理解する - Qiita

Web開発におけるコンピュータサイエンス - 機械学習編1 - Hatena Developer Blog

はてなサマーインターン」の講義資料。基本的な内容が書いてある。

ポケモンデータ解析.py - Qiita

ポケモンのデータを対象として、データ分析〜機械学習までの基本的な流れをプログラムも添えて紹介している。

手法

Choosing the right estimator - scikit-learn 0.24.2 documentation

Pythonで利用できる機械学習のライブラリscikit-learnアルゴリズムチートシート。データの内容や機械学習を使用する目的に基づいて、どのアルゴリズムを使用するとよいのかを選ぶのに役立つ。

【目次】Python scikit-learnの機械学習アルゴリズムチートシートを全実装・解説

上記、「Choosing the right estimator — scikit-learn 0.21.3 documentation」に記載されている機械学習アルゴリズムについて実装、解説をしている。チートシートによって選定したアルゴリズムをすぐに試すことが可能。

Kaggle Ensembling Guide

複数のモデルを組み合わせることで精度の高いモデルを作成する手法であるアンサンブル学習について、具体例とともに紹介されている。アンサンブル学習の利点を学べる。

『Kaggle Ensembling Guide』はいいぞ【kaggle Advent Calendar 7日目】 - u++の備忘録

上記、「Kaggle Ensembling Guide | MLWave」についての紹介。

評価

validationの切り方いろいろ(sklearnの関数まとめ)【kaggle Advent Calendar 4日目】 - u++の備忘録

機械学習において、モデルの評価をするときに交差検証(cross-validation)が利用される。代表的なものとして、K-分割交差検証(K-fold cross-validation)などがあり、これによりトレーニングデータとテストデータとに分割するが、場合によっては、偏りや順序(時系列)を考慮する必要がある。

この記事ではそのような交差検証の重要さと、交差検証の分割方法について紹介されている。

Kaggle:機械学習・データサイエンスのコミュニティ

kaggle初心者はどのコンペに参加すべき?コンペの7分類を紹介 - こここブログ

kaggleコンペティションは7つに分類されており、どの分類のコンペティションに参加するのかを選定する指針として役立つ。

Kaggleで使える!Pandasテクニック集 - Qiita

Pythonを用いるデータ分析で重宝されるライブラリPandasについて、機械学習で約立つテクニックが紹介されている。

参考

機械学習の参考リンク集 - Qiita