この記事では、ブループリント、コンプライアンス、リフトチャート、ROC曲線、予測分布グラフ、累積リフトと累積ゲインチャートなど、DataRobotモデルの評価手法について説明します。これらはすべて、Autopilotが終了した後に計算されます。なお、今回の例でもReadmissionsのデータセットを用いています。
ブループリント
モデルのブループリントは、リーダーボードで興味のあるモデルをクリックすると見ることができます。
図1: Logistic Regressionのブループリント
ブループリントは、DataRobotがそのモデルを構築するために内部で何をしているかを視覚的に表現したものです。図1では、Logistic Regression(ロジスティック回帰)モデルの設計図を示しています。各ノードは、DataRobotがモデルを生成するために必要な手法や、タスクの概念を表しています。この例では、数値データとカテゴリカルデータそれぞれの型に合った変換が行われ、その後、Logistic Regressionモデルが訓練されます。
ブループリントの各セクションをクリックすると、それぞれについての参考文献や論文を見ることができます。例えば、One Hot Encodingを選択し、DataRobot Model Docsをクリックすると詳細を見ることができます。
図2: One-Hot Encodingのノードをクリック
図3: One-Hot EncodingのDataRobotドキュメンテーション
もちろん、より複雑でロバストなモデルであっても、ブループリントを確認できます。
図4. XGBoostモデルのブループリント
コンプライアンス
「コンプライアンス」をクリックすると、モデルのコンプライアンスに関するドキュメントがあります。
図5. コンプライアンス
DataRobotでは、モデル開発に関連する多くの重要なコンプライアンスタスクを自動化しています。これにより、短い開発期間で厳しい基準がある業界に対応できます。モデルごとに個別のドキュメントを生成し、モデルの効果的なリスクマネジメントで構成された包括的なガイダンスを提供することができます。
レポートの生成ボタンをクリックしてしばらく待つと、レポートが生成されます。
リフトチャート
リフトチャートを探すには、まずリーダーボードで興味のあるモデルをクリックしてください。
図6. リーダーボード
次に「評価」をクリックします。
図7. リフトチャート
すると始めにリフトチャートが画面に表示されます。このチャートでは、まずモデルの予測値を低いものから高いものへとソートし、それらをビンにグループ化します。各ビンにおいて青色は予測値の平均を、オレンジは実測値の平均を表しています。
青色とオレンジ色のチャートが「一致している」ほど、モデルが実測値に近い予測を行っていることを意味しますので、良いリフトチャートであると言えます。
チャートの下部には、複数のオプションがあります。リフトチャートが作成されたデータのサブセットを変更したり、ビンの数を変更したり、各ビンの正確な予測値と実際の値を見るためのオプションを与えるドリルダウンを有効にすることができます。
ROC曲線
モデルの性能を調べるには、ROC曲線タブをクリックします。
図8. ROC曲線タブ
ROC曲線タブでは、モデルの性能を評価するための様々な手法を確認することができます。
一般的な評価指標
左上には、いくつかの一般的な評価指標の絶対値が表示されています。
図9. 一般的な評価指標
図 9. 一般的な評価指標
この例では、このモデルは真陽性率(リコール)が78%で、かつ陽性的中率(プレシジョン)が51%であることを示しています。
右上には、混同行列があります。
図10. 混同行列
行方向を見てみると、上段には実際に再入院しなかった患者数、下段には実際に再入院した患者数が示されています。一方、列方向を見てみると、左列は再入院しないと予測した患者数、右列には再入院すると予測した患者数が示されています。
ROC曲線
ROC曲線タブの左下には、ROC曲線のプロットがあります。
図11. ROC曲線
ROC曲線では、アーチ状の緑の曲線が、Y軸と、上部に投影したX軸の両方に近接するほど性能のよいモデルです。AUCスコアは、この曲線の下の面積にあたります。ベースラインモデル(完全にランダムな予測)のAUCスコアは0.5となるのに対し、右下に表示された現在のモデルのAUCスコアは0.708です。
予測分布
中央には、予測分布のプロットがあります。
図12. 予測分布
予測分布プロットは、予測値に基づいた実測値の分布を可視化しています。横軸に予測値(再入院する確率)を取った際に、緑が実際に再入院した患者の分布、紫が実際に再入院しなかった患者の分布です。また、閾値以上の予測値はすべて再入院するであろう患者に、閾値以下の予測値は再入院しないであろう患者に分類されます。この例でのオレンジの閾値はデフォルトの0.341が指定されており、これはF1スコアを最大化する値です。
紫と緑のグラフができるだけ重ならない予測分布となるのが理想的です。
累積ゲイン
累積ゲインは右下の累積チャートで、チャートタイプに累積ゲインを指定すると確認できます。
図13. 累積ゲイン
累積ゲインは、再入院する確率の高い上位x%の患者に着目し、Y軸の真陽性率(リコール)がどのように変化しているかを示しています。
累積リフト
累積リフトは、累積チャートのチャートタイプで累積リフトを選択すると確認できます。
図14. 累積リフト
累積リフトは、予測モデルの有効性を表す尺度です。予測モデルを使用して得られた結果と、使用せずにランダムの予測で得られた結果の比率として計算されます。今回の例では、再入院する確率に基づいて上位x%の患者に着目した場合、ベースラインよりもn倍優れたモデルが得られていることを示しています。
その他
DataRobotのライセンスをお持ちの方は、画面上部のDataRobotドキュメンテーションを開き、リフトチャートやROC曲線などを検索すると、それらの詳細な説明を確認できます。
図15. DataRobotドキュメンテーションを開く
図16. DataRobotドキュメンテーション