2-2.DataRobotにおける自動化された特徴量エンジニアリング

キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

2-2.DataRobotにおける自動化された特徴量エンジニアリング

この記事では、DataRobotにおける自動特徴量エンジニアリングのテクニックのいくつかを説明します。モデリングの最初のステップは、データが1つのテーブルにすべて揃っていることを確認することです。これが完了すると、DataRobotは自動特徴量エンジニアリングを実行することができます。

DataRobotは、データタイプに基づいてデータセット内の特徴量に変更を加えます。

  • 数値特徴量についてはDataRobotは自動的に欠損値を補完し、さらに補完されたことを示すフラグを作成します。DataRobotは、リジット、標準化、二乗、対数変換などの様々なスケーリング変換も行います。また、数値特徴量間の比や差に基づいて特徴量を作成します。
  • 日付特徴量については、DataRobotは、元の日付フィールドに基づいて、曜日、月の日などの追加特徴の生成を開始します。
  • カテゴリ特徴量については、DataRobotは、One-hotエンコーディング、Ordinalエンコーディング、信頼性評価やターゲット・エンコーディングのような高度なテクニックなど、複数の異なるテクニックを試します。
  • テキスト特徴量については、DataRobotは多様な技術を試します。一般的な手法は、TF-IDF (term-frequency, inverse document frequency)を使用することです。他のテキストアプローチには、ngrams、文字グラム、またはword2vecやfasttextのような単語埋め込み技術を使用することが含まれます。テキストの列が複数ある場合、DataRobotはそれらの間の余弦類似度を見る特徴量を生成します。DataRobotのテキスト処理は、英語、日本語、フランス語、スペイン語、中国語、ポルトガル語などの一般的な言語を含む多くの言語で動作します。

添付ファイル

機械学習用のデータを準備するためのDataRobotのツールのいくつかの詳細については、この記事に添付されているPPTXファイルを参照してください。

バージョン履歴
最終更新日:
‎04-13-2020 02:37 AM
更新者: