Prep2-2.データのクリーニング

キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
DataRobot コミュニティ

Prep2-2.データのクリーニング

データ準備の最初のステップは、問題のあるデータを把握してきれいにすることです。いわば、守りのデータ準備と言えるでしょう。このセクションでは、基本的なデータクリーニング操作を数種類ご紹介しまします。

異常値を除去する

異常値をグラフィカルに確認しながら簡単に除去することができます

スクリーンショット 2020-07-09 17.14.02.png

スクリーンショット 2020-07-09 17.24.09.png


名寄せを行う

Data Prepでの名寄せ作業は大変簡単です。名寄せを行いたいカラムのカラムメニューから「cluster + edit」を選択しましょう。あとは、Data Prepが自動的に名寄せ対象の行をグルーピングし、変換後の文字列を提案してくれます。

スクリーンショット 2020-07-09 22.47.45.png

 名寄せアルゴリズムについて

metaphone: 

  • 表音上似ているものをまとめる。
  • 耳で聞いて似ているものをまとめるイメージ
  • 手入力でスペルミスが生じる場合などに好適

fingerprint

  • 句読点、大文字小文字、語順などを除いて似たものをまとめる
  • よく使われるケースとしては、人名の照合など
    • "Adèle Smith" and "SMITH, ADELE"

n-gram

  • 機械学習で使うn-gramと同じ
  • 日本語でも一定機能する


特徴量の型を変換する

例えば日付などは、意外とバラバラのフォーマットで入力されており、多くの製品が日付型の自動読み取りに対応しているとはいえ、それでも認識できないケースは多々あるものです。そうしたデータの型に関するクリーニングも簡単に行えます。

スクリーンショット 2020-07-09 17.27.35.png



カラムを分割する

文字列の中から一部分を取り出して新たなフィールドとしたい、というケースは少なくありません。ここではURLの末尾からローンIDを分割して取り出す例を見てみましょう。

スクリーンショット 2020-07-09 17.31.27.png

ラベル(1)
バージョン履歴
最終更新日:
‎07-24-2020 03:32 PM
更新者:
寄稿者