キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

テキスト型の特徴量の学習・予測時の仕様について

Giyu_Tom
NiCdバッテリー

テキスト型の特徴量の学習・予測時の仕様について

テキスト型の特徴量の学習・予測時の仕様について何点か確認したいです。
①学習時に存在しない単語を含むテキストデータ(氏名データ。非常に短いテキスト。)が登場した場合どのように予測されるのか。
②予測データに未知の単語が現れた際、単語の類似度等で判断していないのか。
 ※DRでは単語の類似度(Word2vecなど)のようなものは扱っていない認識ですがあっていますか?
③学習時のパラメータで次元数の上限を持っているため、そもそも学習時のすべての単語を扱っているわけではないのでは?
 ※前処理(Matrix of word-grams occurrence)のパラメータのMAX_FEATURESが"20000"なので、単語の上限数としても2万個までしか扱っていないのかなと思ってます。
 上限が2万個の場合は、単語の登場頻度の上位2万まででしょうか?また、学習時に上位2万に満たない単語たちはその他として扱われるのでしょうか。

 

よろしくお願いいたします!

0 件の賞賛
1件の返信1
Kei
データサイエンティスト
データサイエンティスト

色々調べていただいた上で、深いご質問ありがとうございます!

下記、箇条書きで恐れ入りますが回答いたします。

① 学習時に存在する単語は処理されます。学習時に存在しない単語は基本的にベクトル化する際に(どこにも値が入らないので)要素が全て0のベクトルとして取り扱われます。もし回帰モデルであれば、切片だけが出力されるイメージとなります。

② word2vecは扱っていませんが、Fasttextを使っているblueprintがあります。Fasttextはword2vecと行っていることは大体同じです。単語のsub-wordがtraining datasetに含まれていれば、それはきちんと扱ってくれることとなります。(“imagine”が”training datasetにあり、imagination”がtest datasetにある場合、近いvectorとして扱ってくれるようになります)

③ Auto-Tuned Word N-Gram Text Modeler using token countsの上限は10000になるなど、制限は異なりますが、おっしゃる通り、上限はございます。単語の選定方法は頻度順です。

扱わない単語についてですが、イメージとしてmax_featureの単語の要素でベクトルを作ることになるので、その他で取り扱うというより完全に無視となってしまいます。

 

回答になっておりましたら幸いです