キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

【DataRobot・データ型】カテゴリorテキストで判定される基準

Y_kzm
イメージセンサー

【DataRobot・データ型】カテゴリorテキストで判定される基準

DRにデータインポートした後、データタブの中での内容です。
表記上はカテゴリ特徴量であるものの、ユニーク数が多いためテキスト特徴量と判定される場合があるかと思いますが、その判定基準は具体的にどのようなものなのでしょうか。

 

0 件の賞賛
3件の返信3
Shogo Nagano
データサイエンティスト
データサイエンティスト

@Y_kzm -san,
ご質問いただきありがとうございます!詳細な判定基準は以下のドキュメントの通りとなります。

ドキュメント:テキスト特徴量とカテゴリー特徴量の比較

 

テキストとカテゴリを手動で切り替えることも可能です。詳細は下記のドキュメントをご参照ください。

ドキュメント:特徴量の型変換

 

ご質問のお答えになっていますでしょうか?疑問点や追加のご質問などございましたらお気軽にお尋ねください!

Y_kzm
イメージセンサー

@Shogo Nagano さん早速ご回答ありがとうございます。

 

ドキュメント拝見いたしました。正しく理解したいために教えていただきたいですが、ドキュメント内の以下の基準は

対象とする特徴量において「ユニーク数の件数が全行数の30%より大きい」あるいは「ユニーク数の件数が1000件より大きい」ということでしょうか。

========

(Number of unique lines / total number of lines > 0.3)またはnumber of unique lines > 1000

========

 

よろしくお願いいたします。

0 件の賞賛
Shogo Nagano
データサイエンティスト
データサイエンティスト

@Y_kzm -san, 
ご質問いただきありがとうございます。ご認識の通りです!

 

なお、念のために補足させていただきますと、ドキュメント記載の4つのチェック項目のうち少なくとも3つを達成するとテキストと分類されます。

そのため、「平均的な行の長さが4文字以上である。」、「10%以上の行に7文字以上の文字がある。」、「最長の行に12文字以上の文字がある。」が成立している場合は、「(Number of unique lines / total number of lines > 0.3)またはnumber of unique lines > 1000」が成立していなくてもテキストと判定されます。