データ準備 ここから始めよう

キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

データ準備 ここから始めよう

DataRobot Data Prep (Paxata)へようこそ!

DataRobotは、AIのためのデータ準備を誰でも簡単に行えるようにするDataRobot Data Prep (Paxata)を提供しています。必ずしも自動化できるとは限らない、業務知識や人間の判断が必要となるデータのクリーニングや特徴量エンジニアリングを、スプレッドシート形式の使いやすいインターフェースで素早く行うことができます。

スクリーンショット 2020-05-26 12.16.14.png

 

この学習パスでは、初めてDataRobot Data Prepを使う方向けに製品構成のご紹介をするとともに、製品の基本的な使い方を学んでいただけます。本記事の末尾に添付されているファイル(LC_Paxata_JP_LearuningGuide.zip)をダウンロードして、実際の操作を体験してみましょう。

Prep 1. 製品の基本構成

このセクションでは、Data Prepの中で登場するライブラリ、プロジェクト、プロジェクトフローといった主要なページをご紹介するとともに、それぞれのページで利用可能な機能の全体像をご紹介することで、Data Prepの基本的な構成を理解いただけます。

Prep 2-1. プロジェクトの作成

Data Prepでのデータ準備作業はプロジェクトを作成することから始まります。このセクションではプロジェクト作成の基本的な操作をご紹介します。

Prep 2-2. データのクリーニング

データ準備の最初のステップは、問題のあるデータを把握してきれいにすることです。いわば、守りのデータ準備と言えるでしょう。このセクションでは、基本的なデータクリーニング操作を数種類ご紹介しまします。

  • 異常値を除去する
  • 名寄せを行う
  • 特徴量の型を変換する
  • カラムを分割する

Prep 2-3. 新しい特徴量の作成

データ準備の次のステップは、AIモデルに有用と考えられるデータ(特徴量)を新たに追加していくことです。いわば、攻めのデータ準備と言えるでしょう。このセクションでは、新しい特徴量を作成する基本的な方法を2種類ご紹介します。

  • 合成変数を追加する
  • 複数テーブルをマージする

Prep 2-4. ライブラリの公開とエクスポート

データ準備作業が終わったら、そのデータをDataRobotをはじめとする次のステージへ連携することが必要です。このセクションでは、準備済みデータをDataRobotのAIカタログにエクスポートする方法などをご紹介します。

Prep 2-5.作成済み準備ステップの新しいデータへの適用

Data Prepが単なるスプレッドシートと大きく違うことの一つは、データ準備のステップをデータから切り離して新しいデータに適用できることで、一度作ったステップを簡単に再利用できることです。このセクションではその手順をご覧いただきます。

Prep 2-6. 予測の実行

Data PrepではDataRobotから予測結果を取得して書き戻すこともでき、ある予測結果を元に次の予測をおこなう場合などに便利です。ここではその手順をご紹介します。

ラベル(1)
バージョン履歴
最終更新日:
‎07-24-2020 03:37 PM
更新者:
寄稿者