キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 

お気に入りの公開資料(機械学習関連)

ShinichiroOhno
リニアアクチュエータ

というスレッドを作ってみました。

個人的に、machine-learning@Stanford(Coursera) の影響で、Andrew Ng氏の大ファンということで、cs229@Stanford のテキストである下記資料が大好きです。

この資料ですが、

  • 機械学習の難しい技術を解説!といった資料ではなく、
  • underfitting/overfittingでお困りのあなたへのアドバイス

といった雰囲気で書かれているのがとても良いです。
(困っている私に対するAndrew先生からのお手紙にも思えますw)

皆さんも、インターネット上で公開されている資料でお気に入りはあるでしょうか?
シェアできると嬉しいです。

15件の返信15
ShinichiroOhno
リニアアクチュエータ
  • Overfitting/Underfittingをどう診断するか?
  • 複数ステージから構成される 機械学習システム を系としてどのように診断するか。

こういったスライドがとても勉強になります。

ShinichiroOhno_0-1583236958211.pngShinichiroOhno_1-1583236984026.png

Kei
データサイエンティスト
データサイエンティスト

スレッドありがとうございます。

 

王道ですが、Gareth James先生の"An Introduction to Statistical Learning with Applications in R" (http://faculty.marshall.usc.edu/gareth-james/ISL/)をここで挙げさせていただきます。

 

機械学習の基礎を学ぶために適した資料であるのはもちろんのこと、特に決定木の章が個人的にはオススメポイントです。

決定木からBagging、Boostingの説明の粒度と流れが非常に綺麗だと思います。

 

英語が読め、決定木をこれから勉強される方には是非おすすめしたい資料です。

A_Morita
イメージセンサー

同僚に教えてもらったサイトです。

初心者の私にはまだ難しかったですが、数学的な説明がまとまっていて良さそうでした。

せっかくですのでシェアします。

https://speakerdeck.com/brainpadpr/basics-of-analysis-modeling

Miogawa
データサイエンティスト
データサイエンティスト

Kaggleテクニックがシンプルに結構網羅的にまとまっているこちらのはてなブログは精度をあげるときの土台として良いと思います。

https://naotaka1128.hatenadiary.jp/entry/kaggle-compe-tips

参考文献に弊社データサイエンティストが実は。。。

 

ShinichiroOhno
リニアアクチュエータ

@Kei 

ありがとうございます。
後ほど決定木の章読ませていただこうと思います。

こちらも名著なのですが、共著者のTrevor Hastie先生が書かれたThe Elements of Statistical Learning のGradient Boostingの解説がとてもわかり易いなと昔思った事があったのですが、、

その図がPDF Book上で発見できず。。

下図なのですが、Ensambleが残差をうまく取り込み適合性を増してく様子がわかりやすく、好きな図です。

 

EnsembleLearning_75_0

ShinichiroOhno
リニアアクチュエータ

@A_Morita 

これ私も気になっていました!
とても良い資料ですよね、シェアありがとうございます。

0 件の賞賛
ShinichiroOhno
リニアアクチュエータ

@Miogawa 

共有ありがとうございます!

精度で追い詰められたときに是非参考にしたいです。

#参考文献にいらっしゃいますねw

0 件の賞賛
Kei
データサイエンティスト
データサイエンティスト

@ShinichiroOhno -san

ありがとうございます!実際にどうやって予測誤差を低減されていくかがわかりやすいですね!

自分でGradient Boostを説明する機会に、是非使用させていただきます!

ShinichiroOhno
リニアアクチュエータ

@Kei 

8.Tree-Based Methodsですが、

始まりからして、素晴らしいですね。

In this chapter, we describe tree-based methods for regression and classification. These involve stratifying or segmenting the predictor space into a number of simple regions.

決定木は、木(二分木や樹形図)のイメージでお伝えするのは簡単ですが、実際には

  • 2次元以上の高次元では、樹形図のイメージよりは、領域をいくつかの小領域にセグメント化するイメージ
  • その背景から、決定境界がギザギザし滑らかでない。(という特性を認識することが重要だと思います)

 そして

  • 二分木(樹形図)のイメージでは、その決定境界のギザギザ感がイメージしずらい

そういった意味で、冒頭から、stratifying or segmenting と言い切っているあたり、さすが名著です。
これから読むのが楽しみです。

image.png

 

Kei
データサイエンティスト
データサイエンティスト

早速ありがとうございます。各手法を紹介しながら、その手法の問題点を正直に挙げて、それを解決するための手法をその後に滑らかに紹介しているので、本当に読みやすかったです!

Miogawa
データサイエンティスト
データサイエンティスト

@ShinichiroOhno 

The Elements of Statistical Learning は昔まだDataRobot日本メンバーが十人にも満たない時に夜に読み会をしていたのが懐かしいです。DataRobotの製品思想にも多く反映されていたりするので、読むことによってよりDataRobotの基礎が吸収できたりします。

古い動画ですが、こちらの弊社CEOのJeremyが喋っている動画でも出てきます。

https://www.youtube.com/watch?v=2iaOSny5EeU

お気に入り資料紹介からは少し離れてしまいましたが。

ShinichiroOhno
リニアアクチュエータ

@Miogawa 

辞書的に使うことはありますが、、

これ。全部、読んだんですね。純粋に凄いです。

ページ数も凄いので。。

 

0 件の賞賛
Isao
データサイエンティスト
データサイエンティスト

画像系が多いですが、最近このサイトを知って気に入ってよく見ています。

非常にビジュアル的に分かりやすい説明をしてくれていたり、アルゴリズムのデモがサイト上で見れたりして楽しいです。

https://distill.pub/

ShinichiroOhno
リニアアクチュエータ

ビジュアル的にわかりやすいといえば、

機械学習の勉強をはじめたころ、正則化付き線形回帰で特徴量選択(変数削除)に使えるのは、
L1、L2どっちだっけ?的なときに、上述の

The Elements of Statistical Learning(ESL,Hastie) 

の下記の絵をみて、なるほど、こう理解すればいいのか。腹落ちした記憶があります。

L1vsL2.png

 

β1、β2の範囲を、

  • 円で束縛すると、係数間のバランスを考慮しようとする。0に潰れない。(L2ノルムの正則化)
  • ひし形の場合、重要な係数以外は、0となる。(L1ノルムの正則化)
  • Errorの等高線と、束縛範囲の重なり方がとうなるか

そういった意味でこの絵は、正則化付き線形回帰の理解を助けてくれた
とても良い図で、 @A_Morita さんおすすめの資料にもこの図の説明があり素晴らしいです。

そして、これを理解するとElasticNetが理解できる。

elastic.png

数式をイリジ回す頭の良さもありますが、
多くの人の理解を助ける可視化やグラフを書ける人が、本当に賢い人なんでしょうね。
(大学の数学を、小学生に教えられる人が、本当に頭のいい人。的な)

Miogawa
データサイエンティスト
データサイエンティスト

個人的には視覚的にわかりやすいチートシート好きなのでこちらを共有

ファーストモデリングがいきなりDataRobotだとここらへんを気にすることあまりないのですが、人のスクラッチのモデルレビューしている時はチェックしています。

Miogawa_0-1584705805783.png

元URL

https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02

こちらにそれぞれのエンコーディングがわかりやすく解説されています。(こういう知識はインターネットでプロトコルの違いを知ってますよ的な状態になりそうですが。。。)