4.モデリングオプション

DataRobotにデータをアップロードし、EDA1が完了したら、データを探索し、プロジェクトをセットアップしてモデルの構築を開始する準備ができました。データを探索するには、ページの下部にある精査(とデータセット名)というラベルの付いたリンクをクリックするか、下にスクロールしてください。

図1. データの探索図1. データの探索

アップロードされたデータセット内のすべての特徴量のリストが表示されます。DataRobotがデータタイプを自動的に識別して提示します。DataRobotは以下のデータタイプをサポートしています: 数値、カテゴリカル、日付、パーセンテージ、通貨、長さ、フリーテキスト。数値データについては、最小値、最大値、平均値、中央値、標準偏差、ユニークな値や欠損値の数など、いくつかのサマリー統計が表示されます。

図2. データセット内のすべての特徴のリスト図2. データセット内のすべての特徴のリスト

任意の特徴量をクリックすると、その特徴量内のデータのヒストグラムがビンの粒度の選択可能なレベルで表示され、さらに探索することができます。データは、最も頻繁に使用される値の形で表示されたり、表として表示されたりします。DataRobotが自動的に割り当てたデータタイプを変更することができます。

図3. 選択された特徴のデータのヒストグラム図3. 選択された特徴のデータのヒストグラム

各機能名の左側には、マウスを重ねると表示されるチェックボックスがあります。これにより、特徴を選択して特徴リストを作成することができます(これらについては、他の資料で詳しく説明しています)。

データセットがアップロードされると、次に進むために、DataRobotはターゲットを知る必要があります(つまり、何を予測しますか)。

選択すると、ターゲットのヒストグラムが表示されます。予測対象の特徴量のデータタイプを考えると、DataRobotはデータサイエンスの問題のタイプを分類か回帰かで認識します。適切な日時特徴データが利用可能な場合は、DataRobotの時系列オプションが選択可能になります。

図4. ここで対象となる機能を指定する図4. ここで対象となる機能を指定する

また、ターゲットを選択すると、ページの下部にあるリンクから [高度なオプション] が表示されます。これにより、モデリングに使用する最適化メトリック、異なるパーティショニング・スキーム、ダウンサンプリングなど、さまざまな設定を行うことができます。これらの設定については他の資料で詳しく説明しますが、デフォルトの設定は、経験の浅いデータサイエンティスト、エンジニア、アナリストなどが、追加の理解や設定なしに優れたモデルを構築できるようにするためのガードレールを提供していることに注意することが重要です。しかし、DataRobotは、これらの設定を指定したいユーザーのために、細かい粒度のコントロールも提供しています。

図6. モデリング構成の詳細オプション図6. モデリング構成の詳細オプション

ページの上部に戻ると、「開始」ボタンが表示されます。これをクリックすると、モデリングプロセスが開始されます。スタートボタンの下には、モデリングモードフィーチャリスト、および最適化メトリックが表示されます。

  • モデリング・モードは、モデルの構築方法を示しており、オートパイロット、クイック、およびマニュアルのオプションがあります。これは、DataRobotがモデルを構築するために使用するプロセスとワークフローを指定します。
  • フィーチャーリストは、DataRobotがモデルを訓練するために使用するフィーチャーのセットを指し示します。
  • 最適化メトリックは、モデルが訓練される(または最適化される)手段であり、例えば、LogLoss、RMSEなどです。

図7. 選択したオプションでモデル構築を開始図7. 選択したオプションでモデル構築を開始

 開始ボタンをクリックすると、DataRobotはモデルトレーニングを開始します。存在する特徴のタイプ(例:テキスト特徴、カテゴリカル、日付など)、ターゲットのタイプ、プロジェクトのタイプを持つデータセットが与えられると、DataRobotはトレーニングするモデルのサブセットを選択し、スコアを付け、ランク付けし、さらに評価と理解分析のためにこれらのモデルをリーダーボード上に表示します。

図8. ビルドしたモデルのリーダーボード図8. ビルドしたモデルのリーダーボード

DataRobotは、高速処理を提供するために、一連のラウンドでモデルをトレーニングします。各ラウンドの後、DataRobotは最高のパフォーマンスを発揮するモデルのみを選択して次のラウンドに進みます。連続する各ラウンドでは、より大量のトレーニングデータを使用し、全部のトレーニングデータを使用して最高のモデルを構築していきます。

 

モデリングオプションの注意点・Tips:

  • クイックモードは通常のオートパイロットの4分の1程度の時間で完了しますので、素早く分析を行いたい場合におすすめです。
  • DataRobotをオートパイロットで実行は、最適化の指標をDataRobotに選ばせるようにすると間違いがありません(特に手動で変更しなければ、ターゲットにあったものを自動的に選択してくれます)。
バージョン履歴
最終更新日:
‎05-17-2020 07:52 PM
更新者: