解決済み: ワードクラウドが上手く単語で表示されません（文字で切られている） - DataRobot Community

LiveALive · ‎08-04-2022

お世話になります。最近作ったプロジェクトでワードクラウドを確認したところ、上手く単語で表示されませんでした。文字単位（？）で表示されているように思います。

このページにあったサンプルデータでもやってみたら、スクショのようになりました。単語もありますが、やはり文字単位のように思います。

単語でワードクラウドを確認する方法はありますか？

YusukeK · ‎08-04-2022

ワードクラウドについてご質問ありがとうございます！

ワードクラウドが文字単位で表示されるのは、ブループリントにおけるテキスト処理が文字単位となっているためです。例えば下のスクショでは、テキスト処理に「Matrix of char-grams occurences using tf-idf」とあるように文字単位で処理がなされます。

この処理を「高度なチューニング」で単語単位に変えて新たなモデルを作成し、そのワードクラウドを見ることができます。簡単な手順を示します。

テキスト前処理の入った任意のモデルをリーダーボードから選択
「評価」→「高度なチューニング」のテキスト処理部分（例えばMatrix of char-grams occurrences using tfidf）で「analyzer」を「word」に、「tokenizer」を「mecab」にパラメータ更新して「チューニングを開始」を実行
すると新しいモデルの作成が開始され、リーダーボードに現れます。
作成完了すると、そのモデルのワードクラウドを「解釈」→「ワードクラウド」から見ることができます。
また、このモデルのモデルID（Mxxというモデル名の下についているタグ）を覚えておいていただき、上部メニュー「モデル」→「インサイト」→「ワードクラウド」と画面遷移したのちに、「モデル」の中からMxxを選ぶことでも、そのモデルのワードクラウドを確認することができます

（※ Auto-Tuned Char N-Gram Text Modeler using token occurrences and tfidfなど、上記とは別のテキスト処理の場合もありますが、同様に実行できます）
（※ ちなみにmecabは日本語用の形態素解析エンジンです）
（※ もし高度なチューニングで該当部分がそもそも表示されない場合にはまたご連絡ください）

ご参考までにスクショも添付いたします。ご参考になれば幸いです。

analyzerをcharからwordに変更