6-1.モデルインサイト

インサイト(Insights)メニューには、モデルの詳細をグラフィカルに表示する機能がいくつかあります。いくつかは、モデル非依存で、どのモデルまたはどのデータにも適用可能なものもあれば、選択した特定のモデルに適用される詳細な表現であるものもあります。

特徴量の有用性(木型アルゴリズム)では、木型のモデルに特有の手法を使用して、モデル内の変数重要度のランキングを示します。
ホットスポットでは、一連のルールとして予測性能を示します - ルールは、重要な特徴のサブセットの特徴値の組み合わせです。
各特徴量の効果では、既存の特徴と派生した特徴の大きさの影響度を係数で示します。
Word Cloudでは、ターゲット変数に関連するテキストの関連性を可視化します。
異常検知では、異常度が高い行のスコアリングによってソートされた異常値に関するサマリーテーブルを提供します。
テキストマイニングでは、各特徴量の効果と同様に、単語や短いフレーズの関連性を係数で視覚化します。

Screen Shot 2020-03-27 at 6.28.54 PM.png
図 1. インサイトメニュー

では、それぞれについて詳しくみていきましょう。

特徴量の有用性(木型アルゴリズム)

特徴量の有用性(木型アルゴリズム)は、ターゲットを予測するための最も重要な特徴量と比較した、特定のモデルで使用されるすべての主要な変数のソートされた相対的重要度を示します。ランダムフォレストに基づくモデルにおいて重要度は、不純度や情報ゲインに基づくエントロピーまたはジニ計算を使用して導き出すことができます。

図2のドロップダウンリストには、プロジェクト内の木型のモデルが表示されており、それぞれを選択して表示することができます。これは、モデルを素早く比較するのに役立ちます。同じモデルでも、異なる特徴量リストで特徴量の重要度がどのように変化するかを比較することは有用となります。一般的に、モデルを理解するには特徴量の有用性を使用することをお勧めしますが、木型アルゴリズムで使用することができる特徴量の有用性を使用するとさらにインサイトが得られる場合があります。

例えば、縮小されたデータセットで重要であると認識された特徴量は、全てのデータセットで認識された特徴量とは大きく異なるかもしれません。あるいは、DataRobotが構築する数十のモデルのうち、ある特徴量が1つのモデルでしか高い重要度として表れない場合、それはそれほど重要ではないかもしれません。そのような場合は、特徴量セットから除外することで、モデル構築と予測を最適化することができます。


Screen Shot 2020-03-27 at 6.29.19 PM.png
図2.木型のモデル

ホットスポット

この調査ツールでは、ターゲット方向(ホットスポット)に高い予測性能を示すシンプルなルールとターゲットと反対方向(コールドスポット)に高い予測性能を示すシンプルなルールを示します。これらのルールは優れた予測性能を持つことが多く、ビジネスルールとして簡単に変換して実装することができます。

ホットスポットは、ルールフィットの分類または回帰モデルを使用している場合に利用でき、少なくとも1つの数値特徴量があり、合計で10万個以下の特徴量である必要があります。

図3では、スポットのサイズはルールに従う観測数を示し、色はルールによって定義されたグループのターゲットの平均値と全体の母集団の平均値との間の差を示しています。

Screen Shot 2020-03-27 at 6.29.36 PM.png
図3. ホットスポットとコールドスポット・大きさと色

各特徴量の効果

各特徴量の効果は、モデル内の特徴量(派生特徴量を含む)の関連性を示します。各特徴量の効果チャートは、予測結果における各変数の影響を示します。特筆すべきは、このチャートは適用可能な線形モデルから異なる定数スプラインを介して変数を表示し、比較するのに便利です。これは、モデル間で特徴量の重要度の相対順位が大きく変動しないことを保証するのに便利です。あるモデルでは特徴量が非常に重要であるとみなされているが、別のモデルではあまり重要ではない場合、データセットとモデルの両方をダブルチェックすることが大切になります。

各特徴量の効果は、下部のドロップダウンメニューで、係数値でソートしたり、特徴量名でアルファベット順にソートしたりすることができます。

Screen Shot 2020-03-27 at 6.29.49 PM.png
図4.各特徴量の効果

ワードクラウド

このツールは、最も関連性の高い単語や短いフレーズを単語群形式で表示します。単語のサイズはデータセット内での頻度を示し、色はターゲット変数との関係を示します。

テキスト型特徴量は、ターゲット変数との関係を強く示す単語を含むことができます。ワードクラウドを使用し、簡単にドロップダウンリストでテキストベースのモデルを表示して比較することができますが、リーダーボードで特定のモデルの「解釈」から確認することも可能です。

Screen Shot 2020-03-27 at 6.30.22 PM.png
図 5. ワードクラウド

異常検知

異常検知は、外れ値検出や特異点検出とも呼ばれ、データセットの異常を検知する教師なしの手法です。教師あり学習と同様に、異常検知は過去のデータで動作しますが、予測を行う際にターゲットを考慮しないという点で教師なしです。DataRobotは、単にターゲットを無視することで異常モデルを構築します。

しかしDataRobotはターゲットを入力するので、正確な非異常モデルを構築することも可能となります。(異常検知については、後の記事で詳細を説明します)

Screen Shot 2020-03-27 at 6.30.41 PM.png

図 6. 異常検出

テキストマイニング

最後に、テキストマイニングチャートでは、テキストとして検出された特徴量の中で最も関連性の高い単語や短いフレーズが表示されます。各特徴量の効果と同様に、ページ下部のドロップダウンリストを使用して、係数値でソートしたり、特徴量名でアルファベット順にソートしたりすることができます。

Screen Shot 2020-03-27 at 6.30.55 PM.png図7. テキストマイニング

 

バージョン履歴
最終更新日:
‎05-24-2020 07:19 PM
更新者: