Re: あなたのお気に入りの資料（機械学習関連） - DataRobot Community

ShinichiroOhno · ‎03-03-2020

というスレッドを作ってみました。

個人的に、machine-learning@Stanford(Coursera) の影響で、Andrew Ng氏の大ファンということで、cs229@Stanford のテキストである下記資料が大好きです。

http://cs229.stanford.edu/materials/ML-advice.pdf

この資料ですが、

機械学習の難しい技術を解説！といった資料ではなく、
underfitting/overfittingでお困りのあなたへのアドバイス

といった雰囲気で書かれているのがとても良いです。
（困っている私に対するAndrew先生からのお手紙にも思えますw）

皆さんも、インターネット上で公開されている資料でお気に入りはあるでしょうか？
シェアできると嬉しいです。

ShinichiroOhno · ‎03-03-2020

Overfitting／Underfittingをどう診断するか？
複数ステージから構成される　機械学習システム　を系としてどのように診断するか。

こういったスライドがとても勉強になります。

Kei · ‎03-03-2020

スレッドありがとうございます。

王道ですが、Gareth James先生の"An Introduction to Statistical Learning with Applications in R" (http://faculty.marshall.usc.edu/gareth-james/ISL/)をここで挙げさせていただきます。

機械学習の基礎を学ぶために適した資料であるのはもちろんのこと、特に決定木の章が個人的にはオススメポイントです。

決定木からBagging、Boostingの説明の粒度と流れが非常に綺麗だと思います。

英語が読め、決定木をこれから勉強される方には是非おすすめしたい資料です。

A_Morita · ‎03-04-2020

同僚に教えてもらったサイトです。

初心者の私にはまだ難しかったですが、数学的な説明がまとまっていて良さそうでした。

せっかくですのでシェアします。

https://speakerdeck.com/brainpadpr/basics-of-analysis-modeling

Miogawa · ‎03-04-2020

Kaggleテクニックがシンプルに結構網羅的にまとまっているこちらのはてなブログは精度をあげるときの土台として良いと思います。

https://naotaka1128.hatenadiary.jp/entry/kaggle-compe-tips

参考文献に弊社データサイエンティストが実は。。。

ShinichiroOhno · ‎03-04-2020

@Kei

ありがとうございます。
後ほど決定木の章読ませていただこうと思います。

こちらも名著なのですが、共著者のTrevor Hastie先生が書かれたThe Elements of Statistical Learning のGradient Boostingの解説がとてもわかり易いなと昔思った事があったのですが、、

その図がPDF Book上で発見できず。。

下図なのですが、Ensambleが残差をうまく取り込み適合性を増してく様子がわかりやすく、好きな図です。

ShinichiroOhno · ‎03-04-2020

@A_Morita

これ私も気になっていました！
とても良い資料ですよね、シェアありがとうございます。

ShinichiroOhno · ‎03-04-2020

@Miogawa

共有ありがとうございます！

精度で追い詰められたときに是非参考にしたいです。

＃参考文献にいらっしゃいますねｗ

Kei · ‎03-04-2020

@ShinichiroOhno -san

ありがとうございます！実際にどうやって予測誤差を低減されていくかがわかりやすいですね！

自分でGradient Boostを説明する機会に、是非使用させていただきます！

ShinichiroOhno · ‎03-04-2020

@Kei

8.Tree-Based Methodsですが、

始まりからして、素晴らしいですね。

In this chapter, we describe tree-based methods for regression and classification. These involve stratifying or segmenting the predictor space into a number of simple regions.

決定木は、木（二分木や樹形図）のイメージでお伝えするのは簡単ですが、実際には

２次元以上の高次元では、樹形図のイメージよりは、領域をいくつかの小領域にセグメント化するイメージ
その背景から、決定境界がギザギザし滑らかでない。（という特性を認識することが重要だと思います）

そして

二分木（樹形図）のイメージでは、その決定境界のギザギザ感がイメージしずらい

そういった意味で、冒頭から、stratifying or segmenting と言い切っているあたり、さすが名著です。
これから読むのが楽しみです。

Kei · ‎03-04-2020

早速ありがとうございます。各手法を紹介しながら、その手法の問題点を正直に挙げて、それを解決するための手法をその後に滑らかに紹介しているので、本当に読みやすかったです！

Miogawa · ‎03-04-2020

@ShinichiroOhno

The Elements of Statistical Learning は昔まだDataRobot日本メンバーが十人にも満たない時に夜に読み会をしていたのが懐かしいです。DataRobotの製品思想にも多く反映されていたりするので、読むことによってよりDataRobotの基礎が吸収できたりします。

古い動画ですが、こちらの弊社CEOのJeremyが喋っている動画でも出てきます。

https://www.youtube.com/watch?v=2iaOSny5EeU

お気に入り資料紹介からは少し離れてしまいましたが。

ShinichiroOhno · ‎03-04-2020

@Miogawa

辞書的に使うことはありますが、、

これ。全部、読んだんですね。純粋に凄いです。

ページ数も凄いので。。

Isao · ‎03-09-2020

画像系が多いですが、最近このサイトを知って気に入ってよく見ています。

非常にビジュアル的に分かりやすい説明をしてくれていたり、アルゴリズムのデモがサイト上で見れたりして楽しいです。

https://distill.pub/

ShinichiroOhno · ‎03-10-2020

ビジュアル的にわかりやすいといえば、

機械学習の勉強をはじめたころ、正則化付き線形回帰で特徴量選択（変数削除）に使えるのは、
L1、L2どっちだっけ？的なときに、上述の

The Elements of Statistical Learning(ESL,Hastie)

の下記の絵をみて、なるほど、こう理解すればいいのか。腹落ちした記憶があります。

β1、β2の範囲を、

円で束縛すると、係数間のバランスを考慮しようとする。0に潰れない。（L2ノルムの正則化）
ひし形の場合、重要な係数以外は、0となる。（L1ノルムの正則化）
Errorの等高線と、束縛範囲の重なり方がとうなるか

そういった意味でこの絵は、正則化付き線形回帰の理解を助けてくれた
とても良い図で、 @A_Morita さんおすすめの資料にもこの図の説明があり素晴らしいです。

そして、これを理解するとElasticNetが理解できる。

数式をイリジ回す頭の良さもありますが、
多くの人の理解を助ける可視化やグラフを書ける人が、本当に賢い人なんでしょうね。
（大学の数学を、小学生に教えられる人が、本当に頭のいい人。的な）

Miogawa · ‎03-20-2020

個人的には視覚的にわかりやすいチートシート好きなのでこちらを共有

ファーストモデリングがいきなりDataRobotだとここらへんを気にすることあまりないのですが、人のスクラッチのモデルレビューしている時はチェックしています。

元URL

https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02

こちらにそれぞれのエンコーディングがわかりやすく解説されています。（こういう知識はインターネットでプロトコルの違いを知ってますよ的な状態になりそうですが。。。）

お気に入りの公開資料（機械学習関連）

お気に入りの公開資料（機械学習関連）

教師なし学習クラスタリングのクラスターの割り当てについて

デプロイ済画像分類モデル: Python予測APIスクリプトと画像ファイルパスについて

「指標R2」と「評価＞残差＞精度パラメータのR2」との違いについて

APIでのターゲット設定とオートパイロットの実行

RocCurveクラスでMCC最大化閾値を取得する方法