この記事では、特徴量の有用性、ターゲットリーケージ、および特徴量の関連性について説明します。これらはすべて、このターゲットベースのインサイトのビデオに示されているように、ターゲットを選択してスタートボタンを押した後に計算されます。
特徴量の有用性
特徴量の有用性は、図1に示すように、データタブでハイライトされている列で、特徴とターゲットの関係を示しています。特徴の重要度は相関関係に類似しており、条件付き期待値の交互計算と呼ばれるアルゴリズムを使用して計算されます。

図1.特徴量の有用性
DataRobotは、図2に示すように、目標と特徴量の関係をオレンジ色の線で示しています。この図では、DataRobotは、入院回数が4~6人の場合、再入院の可能性が約80%であることを示しています。

図2. 入院回数と再入院の可能性との関係
図3に示すように、文字列を持つ特徴量において、その重要性を確認できます。文字の大きさは単語の頻度を表し、色は対象との関係性の強さを表しています。この例では、赤の単語の方が青の単語よりも読売の可能性が高いことがわかります。

図3. テキスト特徴量におけるワードクラウド
リーケージの検出
赤または黄色のインジケータが表示された場合、図4に示すように、DataRobotはこのフィーチャをターゲットリーケージとして識別しています。DataRobotはその後、特徴量のリストからその特徴量を削除します。これにより、ターゲットリーケージが削除された有益な特徴量リストを利用できます。この自動削除は、DataRobotがターゲットリーケージを識別するだけでなく、それに対処するためのガードレール機能の1つです。

図4. リーケージの検出
特徴量の関連性
特徴量の関連性マトリクスは、図5に示すように、数値情報とカテゴリ情報の関連性を示しています。色は関連性の強さを示しています。ここでの異なる色は、DataRobotが検出した特徴の異なるクラスタまたはグループを表しており、お互いに多少の関連性を持っています。これをソートするだけでなく、異なる特徴リストでこの分析を実行することも可能です。

図 5. 特徴量の関連性マトリクス
特徴量の関連性マトリクスでは、図 6 に示すように、任意の 2 つのフィーチャ間の関係を見ることもできます。

図6. 特徴量ペアごとの関係
詳細情報
DataRobotユーザー:機能の詳細、リーケージ検出、特徴量の関連性については、アプリ内のドキュメントを検索してください。