特徴量ごとの作用

キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 

特徴量ごとの作用

特徴量ごとの作用

 

最新の情報は、製品マニュアルをご確認ください。閲覧するには、DataRobotにログインする必要があります。

(この記事の最終更新日:2020年4月7日)



機械学習手法の多くは非常に複雑であることから、モデルを直接解釈することが難しいことがあります。特徴量ごとの予実および特徴量ごとの作用のインサイトは、特徴量ごとのモデルの詳細を示します。

特徴量ごとの予実特徴量ごとの作用の両方には同じようなインサイトが表示されます。特徴量ごとの予実では、特徴量の有用性スコアに基づいて特徴量がランク付けされますが、特徴量ごとの作用では、特徴量のインパクトスコアに基づいて特徴量がランク付けされます。

インサイトの違いについては、特徴量ごとの予実特徴量ごとの作用の説明を参照してください。また、値の表示およびソースの解釈に関する情報については、以下を参照してください。以下の点に注意してください。

  • 両方の表示は、数値およびカテゴリ特徴量に対して計算されます。テキストのみのデータセットまたはモデルタイプでは、これらのタブはグレーアウトで表示されます。
  • いずれの表示でも多クラスプロジェクトはサポートされません。
  • 調査する各モデルの特徴量ごとの予実および特徴量ごとの作用の計算を実行する必要があります。
  • モデル(特徴量の数および、特徴量の値の数)によっては、モデルの全特徴量が利用可能な状態になるのに何分かかることがあります。

特徴量ごとの予実を理解する

特徴量ごとの予実を計算する際、特徴量はモデルに依存しない有用性の順にソートされます。したがって、ソート基準はEDA2で計算される優位性上位の比較である有用性スコアです(データページに表示されます)。これは、「この対象特徴量に対して、モデルが優れている所と優れていない所はどこか」という質問に答えるものです。特徴量ごとの予実を計算するをクリックすると、優先順位を付ける有用性スコアを使用して特徴量ごとの予実の計算が実行されます。高いスコア—(関心がより高いと思われる特徴量)—から順に結果を表示することによって、すべての特徴量が完了するのを待たずにチャート結果をすばやく表示できます。

YuyaYamamoto_9-1586227110064.png

 

有用性スコアはモデリング前の計算なので、選択したターゲットに基づいて、データセット内で個々の特徴量が有用な可能性の推定です。モデルにおいて、特徴量の信号が別の特徴量によって同様にキャプチャされている場合などでは、有用性スコアが高い特徴量の影響は予想通りでないことがあります。

特定の特徴量の各値をクリックし、モデルの予測値と実測ターゲット値を比較することによって、入力の関数としてモデルの予実を評価できます。

特徴量ごとの予実は、モデルが体系的に予測ミスしているデータの部分があるかどうかを識別するために役立ちます。インサイトで特定の特徴量の予測値と実測値の間に大きな差異が示される場合、その不一致を説明するために追加のデータが必要なことが示唆されている可能性があります。

特徴量ごとの作用を理解する

特徴量ごとの作用は、モデルの予測の各特徴量の値の変化による影響を示します。特徴量ごとの作用では、各特徴量とターゲットの間の関係性がモデルでどのように「理解」されているかを示すグラフが表示されます。特徴量は、特徴量のインパクトでソートされます。インサイトは、他のすべての特徴量が変化せずに維持された状態で1つの特徴量の値の変化によってモデルの予測にどのような影響が生じるかを示す部分依存の観点から表示されます。したがって、「特徴量ごとの作用は何か、またこのモデルで、この特徴量はどのように使用されているか?」に対する回答が示されます。モデルの評価方法を並べて比較すると:

  • 特徴量ごとの予実は、各特徴量の観点からモデルの全体的な予実を評価する場合に役立ちます。
  • 特徴量のインパクトは、特定のモデルの各特徴量の相対的なインパクトを示します。
  • 特徴量ごとの作用(部分依存を含む)は、各特徴量の値の変化によってモデル予測がどのように変化するかを示します。

特徴量ごとの作用を計算するをクリックすると、最初に(プロジェクトに対してまだ計算されていない場合)特徴量のインパクトが計算され、その後にモデルの特徴量ごとの作用の計算が実行されます。

YuyaYamamoto_10-1586227110174.png

 

表示オプションの使用

表示に含まれる要素を次の表に示します。

コンポーネント

説明

特徴量セット(1)

特徴量の有用性スコア(特徴量ごとの予実)または特徴量のインパクト(特徴量ごとの作用)スコアに基づいて、モデルに対してゼロ以上の影響を及ぼす上位の特徴量のリスト。

スコア(2)

特徴量ごとの予実

ターゲット特徴量の予測の特徴量の有用性の視覚的インジケーター。これは、データページの有用性列に表示される値です。

スコア(2)

特徴量ごとの作用

ターゲット特徴量との関連性。これは特徴量のインパクトに表示される値です。

ターゲット範囲(3)

ターゲットの値範囲。Y軸の値はスケーリングオプションで調整できます。

特徴量値(4)

選択された特徴量の個々の値。

特徴量値のツールチップ(5)

特徴量のビニングされた値のサマリー情報。

特徴量値の数(6)

選択した特徴量に関して、選択したパーティション分割の特徴量分布。

表示コントロール(7)

チャートにプロットされるデータ(部分依存、予測値、実測値)の表示を制御するフィルタ。

並べ替え(8)

データの並べ替えとエクスポートに使用するコントロール。

ビン(9)

対象となる特徴量タイプにおいて、特徴量値の数の表示のビンの大きさを設定します。

データ選択(10)

1)予測値と実測値の基準、および2)部分依存の比較に使用するサンプルとしてどのパーティション分割を使用するかを制御するコントロール。OTVプロジェクトのオプションは若干異なります。

その他のオプション(11)

欠損値を表示するかどうかを制御し、Y軸のスケールを変更します。

DataRobotでの値の計算方法、表示を使用する際のヒントの説明、およびエクスポージャーと加重による出力の変化の詳細については、以下のセクションを参照してください。

特徴量のリスト

グラフの左側に、特徴量の有用性特徴量ごとの予実)または特徴量のインパクト特徴量ごとの作用)スコアを基準に並べ替えられた上位500の予測因子がリストされます。矢印キーまたはスクロールバーを使用して特徴量をスクロールするか、検索フィールドを使用して名前で検索します。任意の特徴量について全てのサンプル列が空欄の場合、その特徴量はそのリストでは利用できません。リストで1つの特徴量を選択すると、その特徴量の結果を反映して表示が更新されます。

DataRobot v4.2以前で計算されたチャートでは、部分依存計算が(欠損値や不正が原因で)1000行のサンプルを使用していない場合、警告記号を表示します。特徴量に関する情報が信頼できるものであるかどうかを判断するには、シンボルの上にマウスを置いて、仕様されたデータのパーセンテージを表示します。

特徴量ごとの作用スコア

セット内の各特徴量には、その特徴量の特徴量のインパクトスコアがあります。特徴量のインパクトでは、上位500の各特徴量に対して、ターゲット予測に対する1つの特徴量の有用性が測定されます。特徴量のインパクトは、(その他の列を変更せずに)1つの特徴量の選択行をシャッフルする前と後の予測の差分を計算することによって推定されます。DataRobotは、スコアを正規化し、最重要列の値が1(100%)になるようにします。0%のスコアは、計算された関係性がないことを示します。

ターゲット範囲(Y軸)

Y軸は、ターゲット特徴量の値範囲を表します。二値分類問題と回帰問題の場合、これは0と1の間の値です。二値分類以外のプロジェクトの場合、軸には最小から最大の値が表示されます。スケーリング特徴量を使用してY軸を変更し、表示のフォーカスを絞り込むことができます。

特徴量値(X軸)

X軸には、特徴量セットで選択された特徴量に対して見つかった値が表示されます。選択した並べ替え順によって値の表示方法が制御されます。

数値特徴量の場合

数値特徴量のロジックは、予測値/実測値を表示しているか、部分依存を表示しているかに応じて異なります。

予測値/実測値のロジック

  • 選択したパーティション分割内の値の数が20よりも多い場合、分割内の分布に基づいて値がビニングされ、各ビンの予測値と実測値がプロットされます。
  • 値の数が20以下の場合、選択した分割内に存在する上位の値の予測値/実測値がプロットされます。

部分依存のロジック

  • データセット全体の特徴量の値の数が99よりも多い場合、データセット全体の特徴量の分布のパーセンタイルの部分依存が計算されます。
  • 値の数が99以下の場合、データセット内のすべての値(外れ値を除く)の部分依存が計算されます。

チャート固有のロジック

  • 特徴量ごとの予実: 予測値/実測値の計算を行うために値がビニングされます。X軸には、欠損特徴量値(特徴量の1つの値としてのNaN)を含むすべての行を含む==Missing==ビンが表示されることがあります。
  • 特徴量の係数: 部分依存の特徴量値は、データセット全体にわたる特徴量の分布のパーセンタイルから派生されます。X軸には、欠損値の作業を含む==Missing==ビンが表示されることがあります。部分依存の計算には、データセットを通して特徴量が欠損していない場合でも「欠損値」が常に含まれます。特徴量が欠損していたと仮定した場合に平均予測がどのようになるかが表示されます—(「仮定」なので特徴量が実際に欠損している必要はありません)。

カテゴリ特徴量の場合

カテゴリの場合、X軸には、選択したパーティション分割の予測値、実測値、および部分依存に対して最も頻繁に出現する20個の値が表示されます。測定済みの20のカテゴリには以下が含まれます(該当する場合)。

  • =All Other=: カテゴリ特徴量の場合、最も頻繁に出現する20個の値以外のすべての値を含む単一のビン。=All Other=に対しては、部分依存は計算されません。
  • ==Missing==: 欠損値を含むすべての行(特徴量の1つの値がNaN)を含む単一のビン。
  • ==Other Unseen==: トレーニングセットに存在しないすべての値を含む単一のビン。=Other Unseen=に対しては、部分依存は計算されません。詳細については、以下の説明を参照してください。

YuyaYamamoto_11-1586227110166.png

 

特徴量値ツールチップ

各ビンに対して、特徴量の計算済み値と行数を表示するには、表示領域でビンの上にマウスを置きます。次のようなツールチップが表示されます。

YuyaYamamoto_12-1586227110059.png

 

このツールチップが示す内容を以下に示します。

特徴量number diagnosesにおいて値が7の場合、部分的な依存関係の平均は0.366で、予測平均が0.381であったこと、および実測値の平均が0.3であったことが示されます。これらの平均は、データセットの20個の行から計算されました(診断数は7)。

特徴量値の数

X軸の下の棒グラフは、選択された特徴量の各値の頻度を示す視覚的なインジケータを提供します。グラフの棒は、その上にリストされた特徴量値にマッピングされているので、並べ替えを行うと棒の表示が変更されます。これは、頻出値チャート(データ)ページに表示されるものと同じ情報です。対象となる特徴量タイプに対して、ビンドロップダウンを使用して、ビンの数を設定(ビニングを決定)できます。

表示コントロール

表示の上部にある凡例には、プロットされたデータの表示を制御するチェックボックスがあります。実測値は白抜きのオレンジの円で表され、予測値は青いバツで表されます。部分依存のポイントは黄色い塗りつぶし円で表されます。この方法により、ポイントは相互の表示をブロックすることなく表示されます。表示の特定の要素にフォーカスするには、該当するボックスを選択または選択解除します。値のDataRobotでの計算および表示方法については、以下のセクションを参照してください。

ビンの数の設定

ビン設定では、表示のビンの大きさを設定できます。このオプションは、選択した特徴量が数値特徴量または連続特徴量である場合にのみ使用できます。カテゴリ特徴量や少ない一意の値を含む数値特徴量では使用できません。特徴量値のツールチップを使用してビンの統計を表示できます。

表示するパーティション分割の選択

データ選択ドロップダウン(トレーニング、検定、およびホールドアウト(ロック解除されている場合))で予測値、実測値、および部分依存値に使用するパーティション分割を設定できます。明白ではない場合もありますが、トレーニングデータセットの結果を調査する理由があります。

YuyaYamamoto_13-1586227110201.png

 

パーティション分割を選択すると、その選択は、コントロールが選択されているかどうかに関係なく、3つのすべてのコントロールに適用されます。しかし、部分依存の計算を同じパーティション分割に対して実行すると、データの別の範囲が使用されます。

データ選択オプションは、時間認識プロジェクトを調査しているかどうかに応じて異なります。

非時間認識プロジェクトの場合: トレーニングまたは検定セットを選択できるすべてのケースで、ホールドアウトのロックが解除されている場合、ホールドアウトパーティションを選択することもできます。

時間認識プロジェクトの場合: 時間認識プロジェクトの場合、トレーニング、検定、およびホールドアウト(使用可能な場合)、および特定のバックテストを選択できます。詳細については、「時間認識のデータ選択」の設定を参照してください。

その他のオプション

特徴量ごとの予実および特徴量の効果は、有用性のさまざまな領域にフォーカスするためにチャートを再表示するためのツールを提供します。

 このオプションは、データセットに欠損値がある場合、チャートのアクセスがスケーラブルな場合、またはプロジェクトが二値分類の場合にのみ使用できます。

歯車アイコンをクリックしてオプションを表示します。

YuyaYamamoto_14-1586227110194.png

 

オプションを有効にするには、以下のボックスを選択または選択解除します。

  • 欠測値を表示する: 欠損値の影響を表示または非表示にします。このオプションは、数値的特徴量でのみ利用可能です。欠損値に対応するビンには、=Missing=というラベルが付けられます。
  • Y軸の自動拡張: 実測値、予測値、および部分依存値のプロットに使用するY軸の範囲をリセットします。このオプションを選択すると(デフォルト設定)、軸にはターゲット特徴量の最高値から最低値までが表示されます。このオプションを選択しない場合、該当する範囲全体(二値プロジェクトの場合は0から1)が表示されます。
  • ログX軸: 複数の異なるX軸表現の間を切り替えます。このオプションは、値がゼロよりも大きい高カーディナリティ数値特徴量で使用できます。

並べ替えとエクスポート

並べ替えドロップダウンは、プロットデータの並べ替えオプションを提供します。分類特徴量の場合、アルファベット順、頻度、または影響のサイズ(部分依存)を基準に並べ替えることができます。数値による特徴量については、並び順は常に数値によります。エクスポートボタンを使用すると、モデルの詳細に関連付けられたグラフおよびデータをエクスポートすることができます。

詳しい情報…

このセクションでは、以下の内容について説明します。

平均値の計算を理解する

表示の予測値および実測値では、平均値がプロットされています。以下の例を使用して計算を説明します。

下記のデータセットでは、特徴量Aは2種類の値(1または2)をとります。

特徴量A

特徴量B

ターゲット

1.

2.

4

2.

4.

4.

1.

2.

5.

2.

4

8

1.

4.

1.

2.

2.

2.

この架空のデータセットでは、X軸に2つの値(1および2)が表示されます。目標値A = 1の場合、DataRobotは平均を4 + 6 + 1 / 3として計算します。A = 2のときは、平均は5 + 8 + 2 / 3 です。したがって、グラフ上の実測値の点と予測値の点は、集計された各特徴量値に対するターゲット値の平均を示します。

以下に具体例を示します。

  • 数値特徴量の場合、特徴量ドメインに基づいてビンが生成されます。たとえば、範囲が1の特徴量の場合、ビン(ユーザーが数を選択します)は、その範囲に基づきます。Age16-10
  • カテゴリ特徴量の場合、Genderたとえば上位の一意な値に基づいてビンが生成されます(この場合はおそらく—MFN/Aの3つのビン)。

次に、各ビンの予測値の平均および各ビンの実測値の平均が計算されます。

表示を解釈する 

特徴量ごとの作用および特徴量ごとの予実では、カテゴリ特徴量はポイントとして表現されます。数値特徴量は接続されたポイントとして表現されます。これは、カテゴリ特徴量には線形の関係がない一方で、各数値は相互に対する関係で表現できるからです。破線は、プロットするための十分な値がないことを示します。

 高度なオプション タブに表示されるエクスポージャーパラメーター特徴量を使用する場合、​それぞれの線の計算方法は異なります

以下の特徴量ごとの作用の表示を考えてみます(計算は特徴量ごとの予実と同じです)。

YuyaYamamoto_15-1586227110196.png

 

白抜きのオレンジの円は、選択した特徴量における集計number_diagnoses 特徴量の平均ターゲット値を表します。言い換えると、ターゲットが 再入院で、選択した特徴量がnumber_diagnosesのとき、2つの診断を受けた患者が再入院する確率は、平均で約23%です。3つの診断を受けた患者が再入院する確率は、平均で約35%です。

青い×点は、選択された特徴量に関し、特定の値に対する平均予測値を表します。グラフから、DataRobotが予測特徴量値を平均化し、number_diagnosesが2のとき、再入院の確率を25%と計算したことが分かります。実測ラインと予測ラインと比較することで、モデル予測が観測されたデータと異なる箇所を特定できます。これは通常、その箇所のサイズが小さいときに起こります。それらの場合、例えば、一部のモデルは、全体平均により近い予測をするかもしれません。

黄色い部分依存線 は、他のすべての予測特徴量の平均効果を考慮した後の、対象変数上の特徴量の周辺効果を示しています。これは、対象の特徴量以外の全ての変数を一定に維持した場合、その特徴量の値がどのように予測に影響を及ぼすのかを示します。当該の特徴量の値は、考えられる各値に再割り当てが行われ、各設定でそのサンプルに対する平均予測を計算します。(上記の単純な例では、DataRobotは、全1000列が値1を使用する際と、全1000列が値2を使用する際にも、平均結果を計算します。)これらの値は、各特徴量の値がどのようにターゲットに影響を及ぼすかを判断するのに役立ちます。黄色いラインの形状は、選択された特徴量とターゲットの間の周辺関係性のモデルビューを「説明」しています。詳細については、部分依存の計算の説明を参照してください。

表示の使用に関するヒント:

  • モデルの精度を評価するには、部分依存ボックスの選択を解除します。この設定では、モデルの予測値に対する実測値を示す視覚的インジケーターが表示されます。
  • 部分依存を理解するには、実測値と予測値のボックスの選択を解除します。並べ替え順を影響のサイズに設定します。部分依存ラインを注意深く見てみましょう。有用な特徴量の影響を分離すると、ビジネスのシナリオにおける結果の最適化に非常に役に立つことがあります。
  • 特定レベルのサンプルに十分な観測値が存在しない場合、部分依存の演算が特定特徴量値に対して欠損している可能性があります。
  • 実線ではなく破線の予測値(青)および実測値(オレンジ)は、チャートのポイントに作成されたビンに行がないことを示します。
  • 数値特徴量では、値の数が18よりも多い場合、データセット全体にわたる特徴量の分布のパーセンタイルから派生した値を用いて部分依存が計算されます。その結果、値はマウスオーバーのツールチップに表示されません。

サブセットの表示としてトレーニングデータを使用する理由

特徴量ごとの予実または特徴量ごとの作用を表示することには、いくつかのメリットがあります。まず、トレーニングされたモデルがトレーニングに使用されたデータをどれだけ学習しているかを判断するために役立ちます。また、モデルパフォーマンスで既出のデータと初出のデータの間の差分を比較できます。つまり、トレーニング結果を表示すると、既知の値でモデルをチェックできます。トレーニングセットの予測値と実測値の比較結果が弱い場合、データに対してモデルが適切に選択されていない可能性があります。

部分依存を考慮する場合、トレーニングデータを使用すると、値はトレーニングサンプルに基づいて計算され、可能な限り最大の特徴量ドメインと比較できます。その結果、(その他の特徴量からの限界効果を削除することによって)単一の特徴量とデータの範囲全体にわたるターゲットの間の関係性をチェックすることができます。たとえば、1月から6月までをカバーする検定セットで12月の部分依存を表示する場合を考えます。その月のデータが検定にない場合、12月の部分依存を表示することはできません。しかし、データ選択サブセットをトレーニングに設定することにより、効果を表示することができます。

DataRobotでの部分依存の計算方法

予測値/実測値および部分依存の計算方法は、連続データの場合大きく異なります。たとえば、予測値/実測値の計算(1-40]、(40-50]...では、平均を計算するために十分な数になるようデータがビニングされます。値は、選択されたパーティション分割の特徴量の分布に基づいてビニングされます。

一方、部分依存では、データセット全体にわたる特徴量の分布のパーセンタイルである単一の値(1、5、10、20、40、42、45...)が使用されます。1000行のサンプルが使用され、曲線のスケールが決定されます。予測値/実測値とのスケールの互換性を維持するために、1000のサンプルは選択された分割のデータから抽出されます。言い換えれば、部分依存は、データセット全体からの値の最大可能な範囲に対して計算されますが、データ選択分割設定に基づいてスケールされます。

例えば、「年」という特徴量を考えてみます。部分依存の場合、データ内のすべての年に基づく値が計算されます。予測値/実測値の場合、計算は選択した分割内の年に基づきます。データセットの日付範囲が2001-01-01から2010-01-01である場合、部分依存の計算にこの範囲が使用されます。対照的に、予測値および実測値の計算では、該当する選択済み分割/バックテストからのデータだけが含まれます。この違いは、選択した分割の3つのすべてのコントロール表示を表示すると確認できます。

YuyaYamamoto_16-1586227110195.png

 

時間認識プロジェクトのデータ選択

時間認識プロジェクトを操作する場合、バックテストが原因でデータ選択ドロップダウンの動作は若干異なります。目的のモデルの特徴量ごとの予実または特徴量ごとの作用タブを選択します。タブの値をまだ計算していない場合、バックテスト1(検定)の計算を行うよう求めるプロンプトが表示されます。

計算が完了すると、以下のデータ選択設定と共にインサイトが表示されます。

YuyaYamamoto_17-1586227110067.png

 

バックテストの計算

バックテスト名をクリックしたときの結果は、バックテストがモデルに対して実行されているかどうかに応じて異なります。スコアリングが最も高いモデルに対してバックテストが自動的に計算されます。スコアリングが低いモデルでは、リーダーボードで実行を選択してバックテストを開始する必要があります。

YuyaYamamoto_18-1586227110198.png

 

以下の例では、バックテストが実装されていない場合と実行されている場合を比較します。

YuyaYamamoto_19-1586227110199.png

 

計算が完了した後、表示する各バックテストおよびホールドアウト(該当する場合)に対して特徴量ごとの予実または特徴量ごとの作用の計算を実行する必要があります まだ計算されていないバックテストをドロップダウンでクリックすると、計算を開始するボタンが表示されます。

表示のパーティション分割の選択

バックテストの計算が完了したら、データ選択コントロールを使用して、表示するバックテストおよびパーティションを選択します。使用可能なパーティション分割は、バックテストに応じて異なります。

以下にオプションを示します。

  • 番号付きバックテストの場合:計算済みの各バックテストの検定およびトレーニング
  • ホールドアウト分割の場合:ホールドアウトおよびトレーニング

下向きの矢印をクリックしてダイアログを開き、パーティションを選択します。

YuyaYamamoto_20-1586227110082.png

 

または、左右の矢印をクリックして現在選択されているパーティション(検定またはトレーニング)およびホールドアウトのオプションをナビゲートします。まだ計算されていないオプションにナビゲートすると、計算を開始するボタンが表示されます。

YuyaYamamoto_21-1586227110189.png

 

ビニングおよび上位の値を理解する

デフォルトでは、トレーニングデータセットを使用して特徴量ごとの予実および特徴量ごとの作用にリストされる上位の特徴量が計算されます。カテゴリ特徴量値の場合は、X軸の個々のポイントとして表示されますが、別のデータソースを選択するとそのセグメント化に影響します。セグメント化を理解するには、以下の図およびセグメントを説明する表を考えてみます。

YuyaYamamoto_22-1586227110200.png

 

チャートの表示

チャートのラベル

説明

上位Nの値

<feature_value>

選択された特徴量の値の数(最大20個まで)。10個以上の値を含む特徴量については、以下のに示すように、結果がさらにフィルタされます。

その他の値

==All Other==

最も頻繁に出現する上位N個の値以外のすべての値を含む単一のビン。

欠損値

==Missing==

欠損値を含むすべてのレコード(特徴量の1つの値がNaN)を含む単一のビン。

初出の値

<feature_value> (Unseen)

トレーニングセットで"既出"ではないが、検定およびホールドアウトの上位N個として対象となるカテゴリ特徴量値。

初出の値

==Other Unseen==

トレーニングセットで"既出"ではないが、検定およびホールドアウトの上位N個として対象とならないカテゴリ特徴量値。

上位N個を説明するシンプルな例:

カテゴリ特徴量(Population)を含むデータセットおよび100の世界人口を例に説明します。DataRobotでは、上位N個は次のように計算されます。

  1. 人口ごとに国がランク付けされます。
  2. 人口が最も多い上位20の国が選択されます。
  3. 値が10個以上ある場合、累積頻度が95%よりも多くなるように結果がさらにフィルタされます。したがって、累積人口が世界人口の95%に達する国がX軸に表示されます。

初出を説明するシンプルな例:

カテゴリ特徴量Lettersを含むデータセットを考えてみます。Lettersの値の完全なリストは、A、B、C、D、E、F、G、Hです。フィルタされた後、上位N個が3つの値に等しいことが決定されます。特徴量はカテゴリなので、Missingビンはありません。

分割/セット

見つかった値

上位3の値

X軸の値

トレーニングセット

A、B、C、D

A、B、C

A、B、C、=All Other=

検定セット

B、C、F、G+

B、C、F*

B、C、F(初出)、=All Other=Other Unseen+

ホールドアウトセット

C、E、F、H+

C、E*、F*

C、E(初出)、F(初出)、=All Other=Other Unseen+

* 上位3個に含まれていてもトレーニングセットに存在しない新規値(Unseenとしてフラグが設定されます)

+ トレーニングまたは上位3位に存在しない新規値(Other Unseenとしてフラグが設定されます)

エクスポージャーによる出力の変化

YuyaYamamoto_23-1586227110197.png

 

YuyaYamamoto_24-1586227110168.png

 

プロジェクトのモデルを構築するときにエクスポージャーパラメーターを使用した場合、特徴量ごとの予実および特徴量ごとの作用タブには、エクスポージャーに合わせて調整されたグラフが表示されます。この場合の詳細を以下に示します。

  • オレンジの線は、特定の値に関して、エクスポージャーの合計で除算されたターゲットの合計を示します。ラベルとツールチップには、実測値の合計/エクスポージャーの合計と表示され、モデルの構築中にエクスポージャーが使用されたことを示します。
  • 青い線は、エクスポージャーの合計で除算した予測の合計を示し、凡例には予測の合計/エクスポージャーの合計と表示されます。
  • 黄色い 部分依存 で示された若干の影響は、1000行のサンプルのエクスポージャーの合計を除数として割られた数となります。この調整は、保険契約の年間コストと予測の間の関係を理解する場合などに便利です。ラベルツールチップにはエクスポージャーによって調整された平均部分依存性が表示されます。

加重による出力の変化

プロジェクトに加重 パラメーターを設定すると、上記の平均および合計の計算で加重が適用されます。

 

 

バージョン履歴
最終更新:
‎04-07-2020 07:07 PM
更新者:
寄稿者: