Prep2-2.データのクリーニング

データ準備の最初のステップは、問題のあるデータを把握してきれいにすることです。いわば、守りのデータ準備と言えるでしょう。このセクションでは、基本的なデータクリーニング操作を数種類ご紹介しまします。

異常値をグラフィカルに確認しながら簡単に除去することができます

Data Prepでの名寄せ作業は大変簡単です。名寄せを行いたいカラムのカラムメニューから「cluster + edit」を選択しましょう。あとは、Data Prepが自動的に名寄せ対象の行をグルーピングし、変換後の文字列を提案してくれます。

名寄せアルゴリズムについて

metaphone:

fingerprint

n-gram

例えば日付などは、意外とバラバラのフォーマットで入力されており、多くの製品が日付型の自動読み取りに対応しているとはいえ、それでも認識できないケースは多々あるものです。そうしたデータの型に関するクリーニングも簡単に行えます。

文字列の中から一部分を取り出して新たなフィールドとしたい、というケースは少なくありません。ここではURLの末尾からローンIDを分割して取り出す例を見てみましょう。