データ準備ここから始めよう

DataRobot Data Prep (Paxata)へようこそ！

DataRobotは、AIのためのデータ準備を誰でも簡単に行えるようにするDataRobot Data Prep (Paxata)を提供しています。必ずしも自動化できるとは限らない、業務知識や人間の判断が必要となるデータのクリーニングや特徴量エンジニアリングを、スプレッドシート形式の使いやすいインターフェースで素早く行うことができます。

この学習パスでは、初めてDataRobot Data Prepを使う方向けに製品構成のご紹介をするとともに、製品の基本的な使い方を学んでいただけます。本記事の末尾に添付されているファイル(LC_Paxata_JP_LearuningGuide.zip)をダウンロードして、実際の操作を体験してみましょう。

Prep 1. 製品の基本構成

このセクションでは、Data Prepの中で登場するライブラリ、プロジェクト、プロジェクトフローといった主要なページをご紹介するとともに、それぞれのページで利用可能な機能の全体像をご紹介することで、Data Prepの基本的な構成を理解いただけます。

Prep 2-1. プロジェクトの作成

Data Prepでのデータ準備作業はプロジェクトを作成することから始まります。このセクションではプロジェクト作成の基本的な操作をご紹介します。

Prep 2-2. データのクリーニング

データ準備の最初のステップは、問題のあるデータを把握してきれいにすることです。いわば、守りのデータ準備と言えるでしょう。このセクションでは、基本的なデータクリーニング操作を数種類ご紹介しまします。

異常値を除去する
名寄せを行う
特徴量の型を変換する
カラムを分割する

Prep 2-3. 新しい特徴量の作成

データ準備の次のステップは、AIモデルに有用と考えられるデータ(特徴量)を新たに追加していくことです。いわば、攻めのデータ準備と言えるでしょう。このセクションでは、新しい特徴量を作成する基本的な方法を2種類ご紹介します。

合成変数を追加する
複数テーブルをマージする

データ準備ここから始めよう

データ準備ここから始めよう

Prep 1. 製品の基本構成

Prep 2-1. プロジェクトの作成

Prep 2-2. データのクリーニング

Prep 2-3. 新しい特徴量の作成

Prep 2-4. ライブラリの公開とエクスポート

Prep 2-5.作成済み準備ステップの新しいデータへの適用

Prep 2-6. 予測の実行

データ準備

データ準備 ここから始めよう

データ準備 ここから始めよう

データ準備ここから始めよう

データ準備ここから始めよう