特徴量のインパクト

キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 

特徴量のインパクト

特徴量のインパクト

 

最新の情報は、製品マニュアルをご確認ください。閲覧するには、DataRobotにログインする必要があります。

(この記事の最終更新日:2020年4月7日)



データセットの特徴量(列)のインパクトの理解を促進するために、特徴量のインパクトタブには、有用性でランク付けされたインパクトが表示されます。この情報を使用して、モデルのファインチューニングを行うことができます。有用性に関する情報はトレーニングデータにのみ依存するので、カスタム特徴量セットを作成する際の特徴量選択方法として使用できます(検定およびホールドアウトパーティションからデータが漏洩することを回避できます)。(DataRobotでの特徴量のインパクトの計算方法については、以下を参照してください。)

YuyaYamamoto_0-1586225279574.png

 

特徴量のインパクトおよび予測の説明タブは、計算結果を共有します(予測の説明は特徴量のインパクトの計算に依存します)。どちらかのタブで計算したインパクトは、もう一方のタブでも結果を表示できます。

特徴量のインパクトダウンロードタブ、APIタブ、および特徴量ごとの作用タブから計算することもできます。

すべてのモデルタイプで使用できる特徴量のインパクトはオンデマンド特徴量なので、結果を使用するには計算を行う必要があります。モデルに対する特徴量のインパクトをDataRobotに計算させると、その情報はプロジェクトと共に保存されます(プロジェクトを開くたびに計算し直す必要はありません)。これは多クラスモデルでも使用可能で、独自の機能を提供します。

特徴量のインパクトスコアを理解する

特徴量のインパクトを理解する方法の1つは、次のようなものです。任意列に対する特徴量のインパクトは、DataRobotがその列をランダムにシャッフルして(他の列は変更せずに)予測をした場合、モデルのパフォーマンスがどれだけ悪化するかの指標です。DataRobotは、スコアを正規化し、最重要列の値が1になるようにします。この手法は、Permutation Importance(置換重要性)と呼ばれることがあります。

特徴量のインパクトスコアを評価する際は、以下の点に注意してください。

  • 特徴量のインパクトは、モデルのトレーニングデータの最大2500行を使用して計算されます。
  • 時折、データに含まれるランダムノイズが原因で、負の特徴量のインパクトスコアを含む特徴量がある場合があります。極度にアンバランスなデータでは、大部分が負の値となる場合があります。
  • プロジェクト指標は計算で使用されるので、プロジェクト指標の選択によっては、 特徴量のインパクトの結果に大きな影響が生じることがあります。AUCなど、一部の指標はモデル出力において小さい変更に対する真陽性率が低いので、特徴量の変化がモデルの精度にどれだけ影響するかを評価するには最適ではありません。
  • いくつかの条件の下では、モデリングに使用するアルゴリズムの関数が原因で特徴量のインパクトの結果が変わることがあります。これは、例えば、類似する強力な信号が多く存在するデータの場合(同じケースと行に対して同じ予測値が提供される場合)などに発生します。そのような場合、L1ペナルティを使用するアルゴリズム(いくつかの線形モデルなど)の場合、インパクトは1つの信号に集中しますし、木の場合は相関する複数の信号にわたって均一に分散されます。

特徴量のインパクトは、データページの有用性とは異なることに注意してください。データページの有用性列内に表示される緑色のバーは、1つの特徴量が単独でターゲット特徴量との間にどのような相関性を有しているかを測定します。これに対し、特徴量のインパクトは、ある特徴量がモデルのコンテキスト内でどの程度有用であるかを測定します。すなわち、その特徴量が削除された場合、モデルの精度が(トレーニングデータをベースに)どの程度低下するかを測定します。

特徴量のインパクトチャートにアクセスする

特徴量のインパクトチャートを表示するには、リーダーボード上のモデルを展開し、解釈 > 特徴量のインパクトタブを選択します。

次の説明は、いくつかの追加設定がある時系列モデルに関するものです。

  1. 特徴量のインパクトを計算をクリックします。DataRobotは、右ウインドウワーカー使用量パネルに計算状況を表示します。さらに、計算ボックスが状況インジケータに置き換えられ、そこに計算済み特徴量をパーセンテージで表示されます。
  2. DataRobotが計算を完了すると、特徴量のインパクトグラフに、モデルの特徴量のうち重要性の高い最高30件を有用性の高い方から順に挙げたチャートが表示されます。チャートは、Y軸上に特徴量名、X軸に予測可能な有用性(影響)を列挙します。
    YuyaYamamoto_1-1586225279687.png

     


    モデルとサンプルサイズに応じて、出力で冗長な特徴量がレポートされることがあります(YuyaYamamoto_9-1586225279640.pngアイコンで示されます)。冗長情報を使用して、これらの特徴量を除外する特殊な特徴量セットを容易に作成できます。
    YuyaYamamoto_3-1586225279479.png

     

  3. 初期設定では、チャートは影響(有用性)を基に特徴量を表示しますが、アルファベット順に並べ替えることもできます。ソート条件ドロップダウンをクリックして、特徴量名を選択します。
  4. エクスポートボタンをクリックし、モデルの最も有用性の高い特徴量のうち最高1000件を含んだCSVファイルをダウンロードします。
時系列を含む特徴量のインパクト

時系列モデルでは、プロットを再スケール(デフォルトで有効)し、ズームしてインパクトの低い結果を表示できます。この機能を使用すると、最も高い特徴量のインパクトが他の特徴量に比べて顕著に高い場合、低い特徴量の値を表示しないようにすることができます。

YuyaYamamoto_4-1586225279645.png

 

さらに、派生した特徴量を元の特徴量でグループ化オプションが有効な場合(デフォルト)、チャートには元の親特徴量から派生したすべての特徴量が単一のエントリとして表示されます。特徴量の上にマウスを置くと、元の特徴量および派生した特徴量の集計されたインパクト(派生した特徴量のインパクトの合計)を示すツールチップがポップアップ表示されます。

YuyaYamamoto_5-1586225279628.png

 

多クラスモデルでの特徴量のインパクト

多クラスモデルの場合、特徴量のインパクトを計算して、特徴量が全般的にモデルでどれだけ有用なのかに加えて、個々のクラスでどれだけ有用なのかを見つけることができます。これは、クラスごとに特徴量のインパクトをどのようにトレーニングするかを決定する際に便利です。

特徴量のインパクトを計算した後、チャートに追加のクラスを選択ドロップダウンが表示されます。

YuyaYamamoto_6-1586225279682.png

 

集約オプションを使用すると、その他のモデルと同様に特徴量のインパクトが表示されます。これには、モデルの最も有用な特徴量が最も有用性の高いものから順に最大30個表示されます。1つのクラスを選択すると、その特徴量のインパクトスコアが新しいチャートに表示されます。

YuyaYamamoto_7-1586225279579.png

 

エクスポートボタンをクリックすると、集約または1つのクラスの最も有用な特徴量を含むチャートのイメージおよびCSVファイルがダウンロードされます。各クラスおよび集約の特徴量のインパクトスコアとチャートを含むZIPファイルをダウンロードすることもできます。

新規特徴量セットを作成するには

モデルに対する特徴量のインパクトを計算したら、そのモデルで上位のインパクトを持つ特徴量に基づいて、あるいは冗長な特徴量を除外して、複数の特徴量セットを作成することができます。(特徴量セットに関する詳細情報はこちら。)新しい特徴量セットを使用してモデルを再実行すると、より正確な結果を得られる可能性があります。なお、縮小されたセットがモデルのパフォーマンスを改善しない場合でも、特徴量が少ないモデルは動作が速いことから利点があるといえます。特徴量のインパクトページから新規特徴量セットを作成するには:

  1. 特徴量のインパクトの計算が完了した後、特徴量セットを作成をクリックします。
    YuyaYamamoto_8-1586225279593.png

     

  2. セットに含める特徴量の数を入力します。これらは影響に関するトップX特徴量です(アルファベット順にソートされているか否かを問わず)。30を超える数の特徴量を選べます。30を超える数の特徴量を見るには、CSVをエクスポートし、そのファイルから得ようとする特徴量の数を決定します。
  3. (オプション)冗長な特徴量を除外を選択して、冗長な特徴量を除外したセットを構築します。これらの特徴量には、冗長(YuyaYamamoto_9-1586225279640.png)アイコンが表示されます。
  4. フィールドに入力した後、特徴量セットを作成をクリックしてセットを作成します。新規特徴量セットを作成した時点で、全ての特徴量セットドロップダウンメニューで利用可能になり、特徴量セットタブ(データページ)に表示できます。
冗長な特徴量の除外

モデルの特徴量のインパクトを実行すると、トレーニングサンプルのサブセット(最大2500行)が評価され、ターゲットに対するそのインパクトが計算されます。2つの特徴量のインパクトが類似する場合、DataRobotでは、その2つの特徴量のインパクトが相関するものとして認識され、低い特徴量のインパクトの特徴量が冗長として識別されます(YuyaYamamoto_9-1586225279640.png)。モデルタイプとサンプルサイズは特徴量のインパクトスコアに影響するので、冗長な特徴量の識別はモデルとサンプルサイズごとに異なります。

冗長な特徴量が識別された後、冗長な特徴量を除外した新しい特徴量セットを作成できます。オプションとして、ユーザー指定のトップNの特徴量を含む新しい特徴量セットを作成することもできます。冗長な特徴量を除外する場合、特徴量のインパクトの再計算が行われます。その結果、特徴量のランキングが変わり、トップ特徴量の順序が変わることがあります。新しいランキングが作成されても、チャート表示は更新されません。

特徴量のインパクトの計算方法

データの列およびモデルのコンテキスト内でのそのインパクトの理解を推進するために、DataRobotでは特徴量のインパクトインサイトが提供されます。以下の処理の後にモデルのドロップイントレーニング精度が測定されます。

  1. トレーニングレコードのサンプルで予測を作成する
  2. トレーニングデータを変更する(列をシャッフルする)
  3. 新しい(シャッフルされた)トレーニングデータで予測を作成し、モデルにおける特徴量の影響(モデルに対する有用性)を特定する
  4. 各特徴量に対して手順2と3を繰り返す



バージョン履歴
最終更新:
‎04-07-2020 07:06 PM
更新者:
寄稿者: