データ準備の最初のステップは、問題のあるデータを把握してきれいにすることです。いわば、守りのデータ準備と言えるでしょう。このセクションでは、基本的なデータクリーニング操作を数種類ご紹介しまします。
異常値を除去する
異常値をグラフィカルに確認しながら簡単に除去することができます
名寄せを行う
Data Prepでの名寄せ作業は大変簡単です。名寄せを行いたいカラムのカラムメニューから「cluster + edit」を選択しましょう。あとは、Data Prepが自動的に名寄せ対象の行をグルーピングし、変換後の文字列を提案してくれます。
名寄せアルゴリズムについて
metaphone:
- 表音上似ているものをまとめる。
- 耳で聞いて似ているものをまとめるイメージ
- 手入力でスペルミスが生じる場合などに好適
fingerprint
- 句読点、大文字小文字、語順などを除いて似たものをまとめる
- よく使われるケースとしては、人名の照合など
- "Adèle Smith" and "SMITH, ADELE"
n-gram
- 機械学習で使うn-gramと同じ
- 日本語でも一定機能する
特徴量の型を変換する
例えば日付などは、意外とバラバラのフォーマットで入力されており、多くの製品が日付型の自動読み取りに対応しているとはいえ、それでも認識できないケースは多々あるものです。そうしたデータの型に関するクリーニングも簡単に行えます。
カラムを分割する
文字列の中から一部分を取り出して新たなフィールドとしたい、というケースは少なくありません。ここではURLの末尾からローンIDを分割して取り出す例を見てみましょう。