DRにデータインポートした後、データタブの中での内容です。
表記上はカテゴリ特徴量であるものの、ユニーク数が多いためテキスト特徴量と判定される場合があるかと思いますが、その判定基準は具体的にどのようなものなのでしょうか。
解決済! 解決策の投稿を見る。
@Y_kzm -san,
ご質問いただきありがとうございます!詳細な判定基準は以下のドキュメントの通りとなります。
テキストとカテゴリを手動で切り替えることも可能です。詳細は下記のドキュメントをご参照ください。
ご質問のお答えになっていますでしょうか?疑問点や追加のご質問などございましたらお気軽にお尋ねください!
@Shogo Nagano さん早速ご回答ありがとうございます。
ドキュメント拝見いたしました。正しく理解したいために教えていただきたいですが、ドキュメント内の以下の基準は
対象とする特徴量において「ユニーク数の件数が全行数の30%より大きい」あるいは「ユニーク数の件数が1000件より大きい」ということでしょうか。
========
(Number of unique lines / total number of lines > 0.3)またはnumber of unique lines > 1000
========
よろしくお願いいたします。
@Y_kzm -san,
ご質問いただきありがとうございます。ご認識の通りです!
なお、念のために補足させていただきますと、ドキュメント記載の4つのチェック項目のうち少なくとも3つを達成するとテキストと分類されます。
そのため、「平均的な行の長さが4文字以上である。」、「10%以上の行に7文字以上の文字がある。」、「最長の行に12文字以上の文字がある。」が成立している場合は、「(Number of unique lines / total number of lines > 0.3)またはnumber of unique lines > 1000」が成立していなくてもテキストと判定されます。