予測の説明

キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
Qiitaクリスマスアドベントカレンダー実施中

予測の説明

最新の情報は、製品マニュアルをご確認ください。閲覧するには、DataRobotにログインする必要があります。

(この記事の最終更新日:2020年4月7日)

 

予測の説明

モデルを構築した後、予測の説明を使用して、DataRobotで個々の予測が生成された説明(「モデルで再入院の確率が94.2%とされた理由は何か」およびその他の)を理解することができます。予測の説明は、予測に対する効果特徴量の数量的インジケータを提供するので、特定のモデルで特定の予測が作成された理由を知ることができます。

予測の説明は予測が作成された理由に関する数量的なインジケータを提供しますが、計算では予測が計算された方法は完全に説明されません。詳細については、係数タブから前処理情報と係数を使用します。

モデルで特徴量のインパクト/予測の説明が有効化されていることが示されている場合、モデルの計算された予測の説明には、次のいずれかからアクセスできます。

  • モデルのリーダーボードの 予測の説明タブ
  • 予測API

トレーニングデータの​予測の説明のプレビューでは、最大6つの予測(DataRobotによって決定)および各予測の最大10のリーズンが表示されます。

予測の説明および特徴量のインパクトタブは、計算結果を共有します。どちらかのタブで計算したインパクトは、もう一方のタブでも結果を表示できます。

hirookazaki_0-1586226366032.png

 

予測の説明の生成

モデルの予測の説明を表示するには、最初に特徴量のインパクトを計算する必要があります。この処理は、予測の説明タブまたは特徴量のインパクトタブから行うことができます。特徴量のインパクトの計算の出力は特徴量のインパクトタブにだけ表示されますが、予測の説明の計算にも使用されます。計算処理が完了すると、予測の説明の結果が表示されます。

hirookazaki_1-1586226366034.png

結果のページには、以下に詳細を示す次の要素が表示されます。

要素

説明

計算入力(1)

各予測の説明の数を設定し、低範囲および高範囲を選択に適用するかどうかを切り替えます。

しきい値の変更(2)

予測の選択の低および高検定スコアを設定します。

予測の説明のプレビュー(3)

入力およびしきい値設定に基づいて、検定データからの説明のプレビューを表示します。

計算して&ダウンロードボタン(4)

選択した条件を使用して予測および完全な予測セットの説明の計算を開始します。新しいデータセットのアップロードまたは結果のダウンロードを行うことができます。

 

予測の説明タブの使用

以下の手順は、アップロードしたデータセットを予測の説明タブを使用する方法の概要を示します。追加のデータセットをアップロードして説明の計算を行うすることもできます。

  1. 選択したモデルの予測の説明をクリックします。
  2. モデルに対して特徴量のインパクトがまだ計算されていない場合は、特徴量のインパクトを計算ボタンをクリックします。

hirookazaki_2-1586226366030.png

 

計算が完了するとデフォルト値(下記参照)を使用してプレビューが表示されます。

  1. 予測の説明のプレビューを調査します。
  2. 必要に応じて、計算入力しきい値を変更してプレビューを更新します。
  3. 新しい値を使用して計算処理を行い、結果をダウンロードします。

同じモデルを使用して、すべてのデータセット(トレーニング、検定、テスト、予測)にデフォルトまたはユーザー指定のベースラインしきい値が適用されます。ベースラインを変更した場合、プレビューを更新して、更新したデータセットの予想の説明を再計算する必要があります。

特定の適用要件については、マニュアルの検討事項のセクションを参照してください。

予測の説明のプレビューを変更する

DataRobotでは、トレーニングデータ(検定セットなど)の最大6つの予測に対して最大10の予測の説明のプレビューが計算されます。

予測の説明タブのデフォルト設定を以下に示します。

要素

デフォルト値

メモ

予測の説明の数

3

説明の数を1~10の間で設定します。

予測の数

6(最大)

表示されるプレビュー予測の数は、指定範囲に含まれるデータポイントの数に依存します。例えば、指定範囲に4つのデータポイントしかない場合、プレビューには4つの行しか表示されません。

低予測切り替え

ON

NA

高予測切り替え

ON

NA

予測しきい値の範囲

予測分布の上下10%

ドラッグして変更します。

予測および説明のプレビューではトレーニングデータが自動的に使用可能になります。予測データセットをアップロードすると、予測の完全なセットの予測の説明が計算されます。

計算入力およびしきい値を変更すると、プレビューを更新するよう求めるメッセージが表示されます。

hirookazaki_3-1586226366011.png

 

更新をクリックして、新しい設定でプレビューを再表示します。以前の設定に戻すには、​変更を取り消すをクリックします。プレビューを更新すると、ハイライトされた範囲内の最大6つの予測のパラメーターで予測の新しいセットが生成されます。

計算入力を変更する

予測の説明を計算する場合、設定できる3つの入力があります。

  • 低予測しきい値、付きのONまたはOFF
  • 高予測しきい値、付きのONまたはOFF
  • 各予測の予測の数。

予測の説明の数を変更するには、1から10の間の数値を入力(またはボックスの矢印を使用)して設定します。高低のボタンを切り替え、スライダーを使用して予測の説明を表示する範囲を設定します。入力値を変更するとプレビューを更新するよう求めるメッセージが表示されます。

hirookazaki_4-1586226366016.png

しきい値を変更したとき(および変更内容を保存するとき)は、後進をクリックする必要があります。

しきい値を変更する

しきい値によって、DataRobotで予測が取得される予測分布の範囲が決定されます。しきい値を変更するには、低または高しきい値のバーを目的の位置までドラッグしてプレビューを更新します。

低および高しきい値フィルタを適用して計算の速度を上げることができます。少なくとも1つのフィルタを指定すると、選択した外れ値行の予測の説明だけが計算されます。予測値(回帰プロジェクトの場合)または陽性分類になる可能性(分類プロジェクトの場合)が低しきい値よりも低い場合、または高しきい値よりも高い場合、行は外れ値とみなされます。両方のフィルタをオフにすると、すべての行の予測の説明が計算されます。

エクスポージャーが(回帰プロジェクトで)設定されている場合、分布には、調整済み予測(エクスポージャーを除数として割られた予測など)の分布が示されます。同様に、分散グラフのラベルは、検定予測/エクスポージャーに変更され、プレビューテーブルの予測列の名前は予測/エクスポージャーに変更されます。

予測の説明の出力を解釈する

分布は、検定データからの近似です。プレビューは検定データで計算されます。各予測に対して番号が付いた説明の一覧が表示されます。説明の番号は、設定に基づきます。各説明は、データセットの特徴量およびそれに対応する値で、説明の強度に関する定量的なインジケーターが表示されます。 インジケーターは、強(+++)、中(++)、または弱(+)の陽性の影響と陰性(-)の影響力を示します。説明のスコアが些末で、影響力がほとんどない場合またはまったくない場合、出力にはグレーアウトされた3つの記号(+++または---)が表示されます。これは、影響力が微弱であり方向性があることを示します。

hirookazaki_5-1586226366051.png

 

上記の例から、「患者が再入院する確率がモデルで87.5%とされた理由」を知ることができます。説明は、欠損している入院のタイプ、4回の来院、および特定の退院処分の全てにおいて(positive)予測に強力なpositive効果があることを説明します。

予測の説明に関する補足:

  • データポイントが非常に小さい場合、説明では丸められた同じ値が一覧表示されます。
  • 予測の作成で「欠損値」が重要な場合(強力なインジケーター)、説明の状態に「欠損」と表示されることがあります。
  • 一般的に、予測の上位の説明の方向は出力と同じですが、特徴量の間の相互効果または相関によって、negative予測に対して説明が強いpositive効果を示すことあります。
  • ID列の数値は、インポートしたデータセットの行番号IDです。
  • 高確率予測でnegativeの影響の説明が表示されることがあります(または、逆に低スコア予測は高いpositive効果を含む特徴量を示します)。その場合、予測の説明は、特徴量の値が異なっている際に予測の確率が更に高くなる可能性を示しています。
    例えば、血圧は正常で、腰を骨折した107歳の女性の再入院のリスクを予測するとします。この女性の再入院の確率は間違いなく高くなりますが、血圧は正常なので、(全体的なリスクスコアは非常に高いものの)リスクスコアは低くなります。血圧の予測の説明は、特徴量が異なる場合、予測の確率が高くなることを示しています。

予測を計算してダウンロードする

DataRobotでは、検定データから最大6つの予測の説明のプレビューが自動的に表示されます。プレビューは内部ディスプレイに表示されます。しかし、ソースデータはさまざまな方法で変更できます。計算してダウンロードボタンを使用して、新しいデータセットをアップロードし、新しい予測の説明を生成することができます。

hirookazaki_13-1586226480618.png

 

 

要素

説明

現在のパラメーター(1)

最新のプレビューの生成に使用したパラメーターが表示されます。

アップロード済みデータセット(2)

予測に使用できるすべてのアップロード済みデータセットが表示されます。各エントリには、計算ステータスが含まれます。

新しいデータセットのアップロードおよび列の追加(3)

これらの操作をサポートするために、予測を作成タブに移動します。

計算機(4)

対応するデータセットの各行に対して、現在のパラメーターを使用した説明の計算を示します。

ダウンロード(5)

予測の説明のダウンロードを開始します。このボタンは、DataRobotで予測が作成され、予測が計算されるまで有効になりません。

 

データセットのアップロード

指定したしきい値で目的の予測の種類と範囲が返されることを確認したら、予測データセットをアップロードします。以下の手順を実行します。

  1. 計算してダウンロードボタンをクリックして、現在のパラメーター設定を確認します。

  2. 新しいデータセットをアップロードをクリックします。予測を作成タブに移動します。ここでは、アップロードするデータセットを参照、インポート、またはドラッグできます。

  3. データセットをインポートします。インポートが完了したら、解釈 > 予測の説明タブを再度クリックします。

  4. 計算してダウンロードをクリックして、新しいデータセットがアップロード済みデータセットリストに表示されていることを確認します。

列の追加

予測結果に列を追加する必要がある場合があります。追加は、必要になる追加の後処理作業を最小化する場合などに便利なツールです。デフォルトでは、ターゲット特徴量は説明の出力に含まれないので、ターゲット特徴量を追加するのは一般的な操作です。

追加操作はその他の操作から独立しているので、予測の説明ワークフローの任意のポイント(新しいデータセットのアップロード前または後、あるいは計算の実行中)で追加できます。ダウンロードを開始すると、出力に追加した列が追加されます。

特徴量を追加するには、予測を作成タブに切り替えるか、新しいデータセットをアップロードをクリックして該当するタブを表示します(追加できるのはモデルを構築したときに存在した列だけです)。手順5から始まる手順に従います。

トレーニングデータの説明の計算

デフォルトでは、インサイトには検定データが反映されますが、プロジェクトのトレーニングデータ内のすべてのデータポイントの予測および説明を表示できます。そのためには、計算してダウンロードドロップダウンの「トレーニングデータ」という名前のデータセットの横にある計算ボタンをクリックします。(このデータセットは、すべてのモデルのドロップダウンで自動的に使用可能になります。)また、(トレーニングデータと同じ形式で)新しいデータセットをアップロードして、新しいデータセットレコードで予測およびその説明を計算することもできます。

予測の説明の生成とダウンロード

アップロードしたデータセットから予測の説明を生成できます。しかし、最初にプレビューの6つの予測だけでなく、全ての予測の説明を計算する必要があります。データセット名の下のメッセージがステータスを示します。

hirookazaki_10-1586226366050.png

 

以下の点に注意してください。

  • データセットの全ての予測の説明はまだ計算されていません。1k_diabetes-pred.csv 計算を開始する計算機ボタンが有効になります。

  • 完全な予測計算が完了し、データセットの説明を計算しました。Training dataダウンロードボタンが有効になります。

データセットをアップロードした後に予測を計算してダウンロードするには

  1. データセットのすべての予測の説明が計算されていない場合は、データセットの右側にある計算機ボタンをクリックします。全てのトレーニングデータの説明が計算されます。計算が完了すると、メッセージが表示され、ダウンロードボタンがアクティブになります。


    hirookazaki_11-1586226366061.png

     

  2. ダウンロードボタンをクリックして、すべてのデータセット予測および対応するリーズンをCSV形式でエクスポートします。データのアセンブル処理が行われている間、アセンブリのステータスが表示されます。アセンブルが完了すると、ファイルが自動的にダウンロードされるか、ダウンロード先を指定するよう求めるプロンプトが表示されます。
    選択範囲外の予測もデータに含まれますが、説明は含まれません。

  3. 設定を更新した場合(しきい値または予測の説明の数を変更した場合)、更新ボタンをクリックしてから、計算機をクリックして予測の説明を再計算する必要があります。


    hirookazaki_12-1586226366043.png


    最新バージョンの説明だけがデータセット用に保存されます。パラメーター設定を比較するには、設定の予測の説明CSVをダウンロードして、新しい設定で再度実行します。

さらに詳しい情報

予測の説明を使用する適切な環境については、マニュアルをご確認ください。



バージョン履歴
改訂番号
2/2
最終更新:
‎04-08-2020 01:03 AM
更新者: