
近年ECサイトの発達や、社員管理ツールのクラウド化などによりデータクレンジングに注目が集まっています。
いったいデータクレンジングとは何なのでしょうか。
本記事では、データクレンジングの基本を詳しくまとめていきます。
データクレンジングとは?
データクレンジングとは、破損・不正確・無関係なデータを特定して解決する手法のことです。別名で、データスクラビングとも呼ばれます。データベースの各種データを整理・標準化し、スムーズに活用できるように重複などを削除・調整し、一貫性や信憑性・品質を高める事が主な目的です。
例えば、「株式会社」と「(株)」は通常別データとして処理されますが、データクレンジングではこれらのデータを一定の基準で訂正・統一していきます。
訂正対象としては、下記の項目などが挙げられます。このようなエラーや矛盾を含むデータのことを「ダーティデータ」と呼ばれます。
- 全角・半角の違い⇒例)1,1
- 入力ミス例)効果,高価
- 人名の異体字⇒例)高と髙
- スペースの有無⇒例)AB,A B
- 電話番号入力時のハイフンの有無⇒例)090-1111-1111,09011111111
- 欠損値⇒例)入力必須項目が空欄
データクレンジングのメリット

データクレンジングのメリットとして、下記の3点が挙げられます。
①顧客情報を単一化、開発費と保守費のコスト削減
②生産性向上による社員の業務満足度の維持
③顧客の徹底分析と顧客関係管理(CRM)による競争優位
顧客情報を単一化し、開発費と保守費のコスト削減
企業がデータクレンジングをおこなう目的として、自社の顧客データの形式を整理することが挙げられます。
データクレンジングによって顧客管理の作業が短縮され、データ管理費用のコスト削減に繋がります。
また、定期的なデータクレンジングが必要な、顧客データを分析したマーケティングの場面でもこのメリットが挙げられます。分析の際にデータの形式が異なると、作業量が増加してしまうことや不正確な分析結果が出てしまう可能性も高くなり、余計に時間を使ってしまうことも。このような事態を防ぐために、データクレンジングが必要になってくるのです。
生産性アップによる社員の業務満足度向上
データクレンジングは外部データのみでなく、社内データでも活用できます。
例えば、社員の生産性や業務への満足度をアンケート調査して、そのデータが社員の離職とどのような相関があるのか、分析するとしましょう。自由記載項目等の回答がバラバラなアンケート結果でも、データクレンジングをすることで、社内での問題点を正確に抽出することが可能です。
このデータを利用して分析することで、社員の想いを的確にキャッチして満足度向上の施策を練ることができるでしょう。
顧客の徹底分析と顧客関係管理(CRM)による競争優位
例えば、ECサイト運営する際にデータクレンジングをおこなうことで、重複データや住所の不備を無くすことができます。これによって正確な顧客情報を管理できるようになり、顧客に合った提案・営業が行えるようになります。顧客視点に立つことで、競争に有利な環境を作り上げることにも繋がります。
データクレンジングの進め方

データクレンジングを行う際にはデータクレンジングツールを活用するのがおすすめです。
データクレンジングは一見簡単な作業のようにみえますが、たいていその量は膨大で、人手で行うには手間がかかってしまいます。また、人的ミスにより別のダーティデータがうまれるとデータクレンジングを行う意味がなくなってしまうため、ツールを用いて自動化することが望ましいでしょう。
それではデータクレンジングの具体的な手順をご紹介します。
データフィールドを特定する
まずはじめに、「データフィールドの特定」をおこないます。
データフィールドとは「データを使う場所」のことです。
どの場面でデータを使うのか確認して、統一するデータ形式などを決めていきます。
データの収集と取り込みをおこなう
1で特定したWordやExcel、XML、ログファイルなどバラバラのデータ形式を取り込みます。
データを取り込む際も、あらかじめ「どの範囲でデータを取り込むのか」決めておきます。
取り込むデータの範囲が異なると、余計なデータまでクレンジング対象になるので注意が必要です。
データクレンジングの実施
次に、取り込んだデータ(Word,pdf等のデータ)を、データクレンジングツールを活用して整理していきます。データ形式を統一して、マーケティングや資料作成などの際に利用しやすいようにしましょう。
データクレンジングのポイント
データクレンジングは1度の整理で完了ではなく、クレンジングしたデータが再び乱れないように調整を重ねる必要があります。例えば、「株式会社」と「㈱」が混在している会社名をクレンジングによって「㈱」で統一したとしましょう。処理したにもかかわらず、データ入力を新たにする際に、別の人が「株式会社」と入力してしまってはクレンジングで統一処理をした意味がありません。
データを入力する際のルールを作り・周囲へ浸透させていく事も大切ですが、人がおこなう作業にはミスも発生するため、定期的にデータクレンジングをおこなうことがポイントです。
データクレンジングツール5選
- Talend Data Preparation
Talend Data Preparationは、機械学習を基盤としたスマートガイドが強みです。
データ使用の最速化を実現し、異常のあるデータを簡単に見つけることができます。
現在、無償トライアルを実施しているので、実際に使い勝手を確認してから、本契約をすることが可能です。 - Tableau Prep
Tableau Prepは「Tableau Prep Builder」と「Tableau Prep Conductor」の2つに分かれています。Tableau Prep Builderでは、データベースの行、列、全体の3つのプロセスを同時に画面表示できます。
異常データの表示、修正箇所の反映など、クレンジング結果をすぐに見ることが可能です。
Tableau Prep Conductorではデータフローの進捗共有、スケジュール設定等、全体のフロー管理を効率化できるツールです。分析で最新のデータを利用できるよう、調整することができます。 - Cloud Dataprep
Cloud Dataprepは、様々なデータ形式の取り込み・統一、また異常データのスピーディーな検知に優れたツールになります。データ変換の予測、提案までしてくれるので、データ分析の人手が足りない企業に特におすすめです。プログラミングが苦手な方や、初めての方でも、自身でコードを書く必要がなく、数回のクリックで処理をおこなうことが可能です。 - Forcas
Forcasはデータベースを分析して成約の可能性が高い顧客を特定する、いわゆるABM(Account Based Marketing)をサポートするクラウドサービスです。Forcasのクラウドに顧客データを取り込むことで、自動的にデータクレンジングを行ってくれます。
データクレンジングだけではなく、いくつものシナリオに合わせたターゲット顧客リストを作成することも可能なため、データクレンジングをしつつ営業戦略を企画したい場合におすすめできるツールです。 - Dataprep by Trifacta
Dataprep by TrifactaはGoogleとTrifactaが共同開発したデータクレンジングツールです。サーバーレスで提供されているため、規模に関係なく活用でき、自社でインフラ設備を整える必要もありません。
シンプルなUIでできており、難しいコーディングの必要がなく、データを取り込むことで自動的に最適な変換操作を迅速に予測し提案してくれます。また、BigQuery、Cloud Storage、Microsoft Excel、Google スプレッドシートの標準接続に加えて、Salesforce、Oracle、Microsoft SQL Server、MySQL、PostgreSQL などの数百のデータソースを使用してセルフサービス分析を強化することも魅力的です。

データクレンジングでデータを有効活用
データクレンジングについて、実際におこなう具体的な過程やポイント、注意点などを多岐にわたり説明しました。近年ではデジタルトランスフォーメーションが注目され、データを活用する企業が増えてきました。これに伴い、データクレンジングに対するニーズも高まっている状況です。
データ活用の目的から必要な作業を洗い出し、サービスやツールを上手く活用していきましょう。