3-1.特徴量セット

特徴量セットは、DataRobotがモデルを構築するために使用する特徴量のサブセットを制御します。

データをアップロードした後、DataRobotはデフォルトでいくつかの特徴量セットを作成します。

図1. デフォルトのDataRobotの特徴量のセット.png

図1. デフォルトのDataRobotの特徴量のセット

元の特徴量は、アップロードされたときにデータセットに存在するすべての特徴のリストです。さらに、DataRobotはモデリングにおいて有益ではないと思われる特徴を自動で識別します。

特徴量の中には、値が少なすぎるために情報にならないと判断されるものがあります。例えば、1つの値しか持たないカテゴリ型特徴量や過度に重複する値を含む特徴量などです。その他の情報にならない特徴量の要因としては、参照ID(すべての値が一意である行の識別子など)である特徴量、空の値を含む特徴量、ターゲットから派生しておりターゲットとの相関性が高い特徴量、またはターゲットリーケージがある特徴量などがあります(ターゲットリーケージについては、他の動画で詳しく説明しています)。

図2. DataRobotは非情報的な特徴量を識別する.png
図2. DataRobotは非情報的な特徴量を自動で識別する

DataRobotがデフォルトで作成する他の特徴量セットは、"有用な特徴量"と呼ばれています。これは、アップロードされた元の特徴量のサブセットで、非情報的な特徴量を削除したものです。またDataRobotは、日付タイプ(例えば、曜日や月の日など)に関連した特徴量を作成するなど、いくつかの特徴量の作成も行います。

 

特徴量セットの作成

 

特徴量セットを作成するには、まず特徴量名の左側にあるチェックボックスを使って特徴量を手動で選択します。そして「特徴量セットを作成」を選択し、新しい特徴量セットに "マイリスト1 "のような名前を付けます。

図3. 新しい特徴量セットの作成.png
図3. 新しい特徴量セットの作成

 

特徴量セットは、「メニュー」からも選択することができます。表示されたメニューの中には、デフォルトのものからカスタムのものまですべての特徴量セットがあります。また、カテゴリ型変数のみを選択したり、数値型変数のみを選択したりするなど、特定の変数タイプの特徴量を選択するための便利な機能もあります。

図4. メニューの下に表示されるすべての特徴量セット.png

図4. メニューの下に表示されるすべての特徴量セット

特徴量セットの管理は、「特徴量セット」タブから行います。これは、特徴量セット名と説明、そのリストを使用して作成されたモデルの数、作成日時などの追加情報を含む、作成されたすべての特徴量セットを表示します。また、特徴量セット内の特徴量を提示したり、リストの名前と説明を編集したり、特定の特徴量セットを使用してオートパイロットを再実行したりする機能も提供します。

図5. 特徴量セットパネル_original.png

図5. 特徴量セットパネル

DataRobotが生成した特徴量セットとユーザーが作成した特徴量セットの両方を使用して、オートパイロットを実行することができます。

図6. 選択された特徴量セットでのオートパイロットの再実行_original.png
図6. 選択された特徴量セットでのオートパイロットの再実行

モデルが構築された後、「データ」タブには、2つの新しいデフォルトの特徴量セットが表示されます。DataRobotで削減した特徴量は特定のモデルに基づいているもので、最高精度のノンブレンダーモデルからの上位特徴量のサブセットであります。有用性上位の選抜は、ターゲット変数との相関が高い特徴量を含んでいます(相関は、有用性列の緑色のバーで示されています)。

図7. 有用性の欄は、対象とする特徴の相関度合いを示している.png
図7. 有用性列は、ターゲットと対象とする特徴量の相関度合いを示している

「モデル」タブの「リーダーボード」の特徴量セット&サンプルサイズは、モデルのトレーニングに使用された特徴量セットを表示します。特定のモデルの特徴セットを変更して、異なる選択された特徴セットでモデルを再実行することができます。

図8. モデルの学習に使用した特徴セットを示す.png
図8. モデルの学習に使用した特徴量セットを示す

また、指定されたモデルの「解釈」タブ の「特徴量のインパクト」タブに移動して、特徴量のサブセットから特徴量セットを作成することもできます。新しい特徴量セットで使用する、ターゲットと関係性のある上位の特徴量をいくつか選択できます。そして「データ」タブと同様に、特徴量セットを作成することができます。このリストは、新しい特徴量セットを使用して特定のモデルを再実行したり、このリスト(または選択した特定の特徴量セット)を使用してオートパイロットプロセス全体を再実行したりするために使用できます。デフォルトの特徴量セットとカスタム特徴量セットがすべて表示されます。

図9.いくつかのインパクト上位の特徴量で構成された新しい特徴量セットの作成_original.png
図9.いくつかのインパクト上位の特徴量で構成された新しい特徴量セットの作成

同様に、特徴量セットはプロジェクト全体で利用できるので、「データ」タブの「カスタム特徴量セット」で新しい特徴量セットを見つけることができます。

図10.プロジェクト全体で利用可能なカスタム特徴量セット.png
図10.プロジェクト全体で利用可能なカスタム特徴量セット

図11.オートパイロットはカスタム特徴量セットで実行可能.png
図11.オートパイロットはカスタム特徴量セットで実行可能

バージョン履歴
最終更新日:
‎05-17-2020 07:42 PM
更新者: