DataRobot Data Prep (Paxata)へようこそ!
DataRobotは、AIのためのデータ準備を誰でも簡単に行えるようにするDataRobot Data Prep (Paxata)を提供しています。必ずしも自動化できるとは限らない、業務知識や人間の判断が必要となるデータのクリーニングや特徴量エンジニアリングを、スプレッドシート形式の使いやすいインターフェースで素早く行うことができます。
この学習パスでは、初めてDataRobot Data Prepを使う方向けに製品構成のご紹介をするとともに、製品の基本的な使い方を学んでいただけます。本記事の末尾に添付されているファイル(LC_Paxata_JP_LearuningGuide.zip)をダウンロードして、実際の操作を体験してみましょう。
このセクションでは、Data Prepの中で登場するライブラリ、プロジェクト、プロジェクトフローといった主要なページをご紹介するとともに、それぞれのページで利用可能な機能の全体像をご紹介することで、Data Prepの基本的な構成を理解いただけます。
Data Prepでのデータ準備作業はプロジェクトを作成することから始まります。このセクションではプロジェクト作成の基本的な操作をご紹介します。
データ準備の最初のステップは、問題のあるデータを把握してきれいにすることです。いわば、守りのデータ準備と言えるでしょう。このセクションでは、基本的なデータクリーニング操作を数種類ご紹介しまします。
- 異常値を除去する
- 名寄せを行う
- 特徴量の型を変換する
- カラムを分割する
データ準備の次のステップは、AIモデルに有用と考えられるデータ(特徴量)を新たに追加していくことです。いわば、攻めのデータ準備と言えるでしょう。このセクションでは、新しい特徴量を作成する基本的な方法を2種類ご紹介します。
データ準備作業が終わったら、そのデータをDataRobotをはじめとする次のステージへ連携することが必要です。このセクションでは、準備済みデータをDataRobotのAIカタログにエクスポートする方法などをご紹介します。
Data Prepが単なるスプレッドシートと大きく違うことの一つは、データ準備のステップをデータから切り離して新しいデータに適用できることで、一度作ったステップを簡単に再利用できることです。このセクションではその手順をご覧いただきます。
Data PrepではDataRobotから予測結果を取得して書き戻すこともでき、ある予測結果を元に次の予測をおこなう場合などに便利です。ここではその手順をご紹介します。