キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

ワードクラウドが上手く単語で表示されません(文字で切られている)

LiveALive
青色LED

ワードクラウドが上手く単語で表示されません(文字で切られている)

お世話になります。最近作ったプロジェクトでワードクラウドを確認したところ、上手く単語で表示されませんでした。文字単位(?)で表示されているように思います。

このページにあったサンプルデータでもやってみたら、スクショのようになりました。単語もありますが、やはり文字単位のように思います。

単語でワードクラウドを確認する方法はありますか?

スクリーンショット 2022-08-04 20.21.02.png

0 件の賞賛
1件の返信1
YusukeK
データサイエンティスト
データサイエンティスト

ワードクラウドについてご質問ありがとうございます!

ワードクラウドが文字単位で表示されるのは、ブループリントにおけるテキスト処理が文字単位となっているためです。例えば下のスクショでは、テキスト処理に「Matrix of char-grams occurences using tf-idf」とあるように文字単位で処理がなされます。スクリーンショット 2022-08-04 22.22.11.png

 

この処理を「高度なチューニング」で単語単位に変えて新たなモデルを作成し、そのワードクラウドを見ることができます。簡単な手順を示します。

 

  1. テキスト前処理の入った任意のモデルをリーダーボードから選択
  2. 「評価」→「高度なチューニング」のテキスト処理部分(例えばMatrix of char-grams occurrences using tfidf)で「analyzer」を「word」に、「tokenizer」を「mecab」にパラメータ更新して「チューニングを開始」を実行
  3. すると新しいモデルの作成が開始され、リーダーボードに現れます。
  4. 作成完了すると、そのモデルのワードクラウドを「解釈」→「ワードクラウド」から見ることができます。
  5. また、このモデルのモデルID(Mxxというモデル名の下についているタグ)を覚えておいていただき、上部メニュー「モデル」→「インサイト」→「ワードクラウド」と画面遷移したのちに、「モデル」の中からMxxを選ぶことでも、そのモデルのワードクラウドを確認することができます

(※ Auto-Tuned Char N-Gram Text Modeler using token occurrences and tfidfなど、上記とは別のテキスト処理の場合もありますが、同様に実行できます)
(※ ちなみにmecabは日本語用の形態素解析エンジンです)
(※ もし高度なチューニングで該当部分がそもそも表示されない場合にはまたご連絡ください)

 

ご参考までにスクショも添付いたします。ご参考になれば幸いです。

 

analyzerをcharからwordに変更

スクリーンショット 2022-08-04 22.46.02.png

tokenizerをmecabに変更

スクリーンショット 2022-08-04 22.46.38.png

チューニング後の新たなモデルのテキスト処理が「... word-grams ...」になっていることが確認できる

スクリーンショット 2022-08-04 22.49.34.png

ワードクラウドが単語単位となりました

スクリーンショット 2022-08-04 22.51.30.png