お世話になります。最近作ったプロジェクトでワードクラウドを確認したところ、上手く単語で表示されませんでした。文字単位(?)で表示されているように思います。
このページにあったサンプルデータでもやってみたら、スクショのようになりました。単語もありますが、やはり文字単位のように思います。
単語でワードクラウドを確認する方法はありますか?
解決済! 解決策の投稿を見る。
ワードクラウドについてご質問ありがとうございます!
ワードクラウドが文字単位で表示されるのは、ブループリントにおけるテキスト処理が文字単位となっているためです。例えば下のスクショでは、テキスト処理に「Matrix of char-grams occurences using tf-idf」とあるように文字単位で処理がなされます。
この処理を「高度なチューニング」で単語単位に変えて新たなモデルを作成し、そのワードクラウドを見ることができます。簡単な手順を示します。
(※ Auto-Tuned Char N-Gram Text Modeler using token occurrences and tfidfなど、上記とは別のテキスト処理の場合もありますが、同様に実行できます)
(※ ちなみにmecabは日本語用の形態素解析エンジンです)
(※ もし高度なチューニングで該当部分がそもそも表示されない場合にはまたご連絡ください)
ご参考までにスクショも添付いたします。ご参考になれば幸いです。
analyzerをcharからwordに変更
tokenizerをmecabに変更
チューニング後の新たなモデルのテキスト処理が「... word-grams ...」になっていることが確認できる
ワードクラウドが単語単位となりました
ご返信が遅くなり、申し訳ありません。私の手元でも実施してみたところ、同様のワードクラウドを得ることができました。
これをもって解決済みとさせていただきました。ご対応いただきありがとうございました。