AIラーニングガイド

キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
「大変動下での機械学習モデルへの対処」技術編ウェビナー5/27(水)開催 登録

AIラーニングガイド

DataRobotユーザーのためのインタラクティブなレッスン
データサイエンス学習パスは、皆さんがDataRobotプラットフォームについて学べるように設計されています。自分のペースで進められる動画で体系立てて学習できます。

ナレッジベースの記事

この記事では、DataRobotにおける自動特徴量エンジニアリングのテクニックのいくつかを説明します。モデリングの最初のステップは、データが1つのテーブルにすべて揃っていることを確認することです。これが完了すると、DataRobotは自動特徴量エンジニアリングを実行することができます。 DataRobotは、データタイプに基づいてデータセット内の特徴量に変更を加えます。 数値特徴量についてはDataRobotは自動的に欠損値を補完し、さらに補完されたことを示すフラグを作成します。DataRobotは、リジット、標準化、二乗、対数変換などの様々なスケーリング変換も行います。また、数値特徴量間の比や差に基づいて特徴量を作成します。 日付特徴量については、DataRobotは、元の日付フィールドに基づいて、曜日、月の日などの追加特徴の生成を開始します。 カテゴリ特徴量については、DataRobotは、One-hotエンコーディング、Ordinalエンコーディング、信頼性評価やターゲット・エンコーディングのような高度なテクニックなど、複数の異なるテクニックを試します。 テキスト特徴量については、DataRobotは多様な技術を試します。一般的な手法は、TF-IDF (term-frequency, inverse document frequency)を使用することです。他のテキストアプローチには、ngrams、文字グラム、またはword2vecやfasttextのような単語埋め込み技術を使用することが含まれます。テキストの列が複数ある場合、DataRobotはそれらの間の余弦類似度を見る特徴量を生成します。DataRobotのテキスト処理は、英語、日本語、フランス語、スペイン語、中国語、ポルトガル語などの一般的な言語を含む多くの言語で動作します。 添付ファイル 機械学習用のデータを準備するためのDataRobotのツールのいくつかの詳細については、この記事に添付されているPPTXファイルを参照してください。
記事全体を表示
DataRobotにデータをアップロードし、EDA1が完了したら、データを探索し、プロジェクトをセットアップしてモデルの構築を開始する準備ができました。データを探索するには、ページの下部にある精査(とデータセット名)というラベルの付いたリンクをクリックするか、下にスクロールしてください。   図1. データの探索 アップロードされたデータセット内のすべての特徴量のリストが表示されます。DataRobotがデータタイプを自動的に識別して提示します。DataRobotは以下のデータタイプをサポートしています: 数値、カテゴリカル、日付、パーセンテージ、通貨、長さ、フリーテキスト。数値データについては、最小値、最大値、平均値、中央値、標準偏差、ユニークな値や欠損値の数など、いくつかのサマリー統計が表示されます。 図2. データセット内のすべての特徴のリスト 任意の特徴量をクリックすると、その特徴量内のデータのヒストグラムがビンの粒度の選択可能なレベルで表示され、さらに探索することができます。データは、最も頻繁に使用される値の形で表示されたり、表として表示されたりします。DataRobotが自動的に割り当てたデータタイプを変更することができます。 図3. 選択された特徴のデータのヒストグラム 各機能名の左側には、マウスを重ねると表示されるチェックボックスがあります。これにより、特徴を選択して特徴リストを作成することができます(これらについては、他の資料で詳しく説明しています)。 データセットがアップロードされると、次に進むために、DataRobotはターゲットを知る必要があります(つまり、何を予測しますか)。 選択すると、ターゲットのヒストグラムが表示されます。予測対象の特徴量のデータタイプを考えると、DataRobotはデータサイエンスの問題のタイプを分類か回帰かで認識します。適切な日時特徴データが利用可能な場合は、DataRobotの時系列オプションが選択可能になります。 図4. ここで対象となる機能を指定する また、ターゲットを選択すると、ページの下部にあるリンクから [高度なオプション] が表示されます。これにより、モデリングに使用する最適化メトリック、異なるパーティショニング・スキーム、ダウンサンプリングなど、さまざまな設定を行うことができます。これらの設定については他の資料で詳しく説明しますが、デフォルトの設定は、経験の浅いデータサイエンティスト、エンジニア、アナリストなどが、追加の理解や設定なしに優れたモデルを構築できるようにするためのガードレールを提供していることに注意することが重要です。しかし、DataRobotは、これらの設定を指定したいユーザーのために、細かい粒度のコントロールも提供しています。 図6. モデリング構成の詳細オプション ページの上部に戻ると、「開始」ボタンが表示されます。これをクリックすると、モデリングプロセスが開始されます。スタートボタンの下には、モデリングモード、フィーチャリスト、および最適化メトリックが表示されます。 モデリング・モードは、モデルの構築方法を示しており、オートパイロット、クイック、およびマニュアルのオプションがあります。これは、DataRobotがモデルを構築するために使用するプロセスとワークフローを指定します。 フィーチャーリストは、DataRobotがモデルを訓練するために使用するフィーチャーのセットを指し示します。 最適化メトリックは、モデルが訓練される(または最適化される)手段であり、例えば、LogLoss、RMSEなどです。 図7. 選択したオプションでモデル構築を開始  開始ボタンをクリックすると、DataRobotはモデルトレーニングを開始します。存在する特徴のタイプ(例:テキスト特徴、カテゴリカル、日付など)、ターゲットのタイプ、プロジェクトのタイプを持つデータセットが与えられると、DataRobotはトレーニングするモデルのサブセットを選択し、スコアを付け、ランク付けし、さらに評価と理解分析のためにこれらのモデルをリーダーボード上に表示します。 図8. ビルドしたモデルのリーダーボード DataRobotは、高速処理を提供するために、一連のラウンドでモデルをトレーニングします。各ラウンドの後、DataRobotは最高のパフォーマンスを発揮するモデルのみを選択して次のラウンドに進みます。連続する各ラウンドでは、より大量のトレーニングデータを使用し、全部のトレーニングデータを使用して最高のモデルを構築していきます。   モデリングオプションの注意点・Tips: クイックモードは通常のオートパイロットの4分の1程度の時間で完了しますので、素早く分析を行いたい場合におすすめです。 DataRobotをオートパイロットで実行は、最適化の指標をDataRobotに選ばせるようにすると間違いがありません(特に手動で変更しなければ、ターゲットにあったものを自動的に選択してくれます)。
記事全体を表示
プロジェクトを実行し、データから多くのモデルを構築したら、トップメニューの「モデル」をクリックして、リーダーボードからそれぞれのモデルを評価することができます。 図1. モデル まずは「モデル」の右側に表示されている数字に注目してください。これは、このプロジェクトで構築されたモデルの数を示しています。 「モデル」をクリックすると、リーダーボードが開きます。モデルが選択したパフォーマンス指標の順にリストアップされています。例えば、二値分類の場合、デフォルトの指標はloglossです。 モデルのいずれかをクリックすると、詳細な情報を展開することができます。すると、以下のツールが表示されます:評価、解釈、説明、予測、コンプライアンス。 評価 ー モデルのパフォーマンス情報を提供します。 解釈 ー モデルの構成情報を提供します。 説明 ー モデルのブループリントを説明します。ブループリントはさまざまな前処理、パイプラインと機械学習アルゴリズムを組み合わせたものです。フローは左からスタートして、アップロード時データインジェストから、様々な前処理ステップ(場合によっては他のアルゴリズムを経由することも)を経て、最終的な機械学習アルゴリズムに至るまでの流れである(図2のアルゴリズムはeXtreme Gradient Boosted Trees Classifierです)。最後に完成したモデルは予測に使われます 予測 ー 予測リクエストの発行と結果を取得する方法を複数提供します。 コンプライアンス ー 透明性を提供するため、DataRobotが構築したここのモデルの各ステップと設定を記述した詳細なドキュメントを生成します。 図2. モデルを理解し評価するためのツール   このメニューから1つ上のレベルに戻ると、グレーでハイライトされたさまざまな項目が表示されます(図3)。 図 3. モデルのタグ これらのタグは、リーダーボード上のモデルを絞り込むためのいくつかの方法を提供します。タグによって提供される情報は機械学習アルゴリズムのタイプに依存し、モデルとブループリントの番号、係数が利用可能かどうか、スコアリングコードなどが含まれます。(各タグについては、DataRobotアプリ内のドキュメントで詳しく説明されています)。 タグをクリックすると、リーダーボード内そのタグが付与されたモデルを絞り込むことができます。 リーダーボードは3つの主要なカラムセクションで構成されています。 モデル名と説明 ー モデルの名前とブループリントの各ステップの概要を説明するテキストが表示されます。 特徴量セットとサンプルサイズ ー 学習で使用された特徴量セットとデータ数を示します。例えば特徴量セットは有用な特徴量と100%のデータで学習した。特徴量セットとサンプルサイズをクリックして変更して、別の組み合わせで再学習することができます。 指標 <指標名>  ー 検証、交差検定(実行した場合)とホールドアウトのスコアを確認できます。指標名をクリックすることで、ドロップダウンから他の指標に変更することができます。 図4. モデルのリーダーボード情報 図5に示すようにモデルアルゴリズムの名前の横にアイコンが表示されています。 図5. モデルアイコン 各アイコンは、モデルの構築に使用されたオープンソースの言語および/またはライブラリを示しています。例えば、Python、R、X Boost、DMTK、Tensorflowなどです。また、DataRobotのアイコンもありますが、これは我々が様々なライブラリを組合せし、チューニングして実装したものです。 リーダーボードのテーブルとメインメニューの間には、オレンジ色のテキストで書かれた別の項目のセットがあります。 図6 モデルの閲覧や新しいタイプのモデルを作成するためのツール メニューには、モデルをアンサンブルに組合せるためのさまざまなオプションが用意されています。アンサンブルは、さまざまな方法で複数モデルの予測結果を一の結果に統合する手法です。 モデルを検索する、あるいはモデルを絞り込むためのツールもあります。新しいモデルを追加を使用して、リポジトリからモデルを追加して学習し、リーダーボードに追加することができます。エクスポートでは、リーダーボードの内容をダウンロード可能なファイルに作成し、出力します。 その上には、リーダーボード、学習曲線、速度 対 精度、モデル比較を含む別のメニューがあります。ここではリーダーボードについて説明していますが、その他の項目については他の資料で説明しています。 図7. リーダーボードツール リーダーボードの評価の注意点・Tips: リーダーボード上位のモデルでは交差検定も実施してみましょう。データ量が多い場合は、自動的には計算されません。 また、交差検定と検定のブレが大きくないかを確認し、大きな差がある場合には常に交差検定の値を信用し、どうして差が出るのか考察してみましょう。
記事全体を表示
お知らせ
DataRobotコミュニティにようこそ!

AIとMLに関するあらゆることについて探求し、学び、コミュニティの仲間と交流しましょう。

クラスルーム形式のトレーニングをご希望の方は DataRobot University へどうぞ
トップ寄稿者