データマイニングを実践する6ステップ

次に、データマイニングを実践するステップを6つに分けて紹介します。


データマイニングを実践する6ステップ



  • STEP1.目的を決める

  • STEP2.データクレンジングの体制や、ツールを検討する

  • STEP3.データウェアハウス(DWH)を整備する

  • STEP4.データを収集する

  • STEP5.データを加工し、整理する(データクレンジング)

  • STEP6.データを分析・結果を検証する



STEP1.目的を決める

まずは何のためにデータマイニングを実践するのか、データを何に役立てたいのか、データマイニングの目的を決めましょう。目的を決めることで、どんなデータを集めるべきなのかが見えてきます。

たとえばクロスセルを増やすのが目的なら、一緒に購買されることが多いのはどんな商品なのか、どんな層がセット購入しているのかなどの知識が役立ちます。この場合、POSレジの販売データや会員データ、CRM/SFAの購買履歴などのデータを集めるといいでしょう。

STEP2.データクレンジングの体制や、ツールを検討する

データを収集する前にその準備を整えます。データクレンジングの体制を整えたり、データの収集・クレンジングに必要なツールを検討したりしましょう。

データクレンジングとは未入力や誤入力、重複などの不備を修正し、データの正確性を高めることです。データマイニングのプロセスが正しくとも、分析・洞察の基となるデータに誤りがあれば、誤った知見しか得られません。

マーケティング戦略の策定や経営判断に膨大なデータを活用することが一般的になった現代において、データクレンジングは重要です。データクレンジングの基準や工程を明確にしたり、そのための人員を確保したり、体制を整えましょう。

STEP3.データウェアハウス(DWH)を整備する

データを整理しながら蓄積していくために、データウェアハウス(DWH)を整備しましょう。DWHは社内のシステムやクラウドサービスなどを横断してデータを集め、時系列で蓄積するツールです。

代表的なDWHとして「AWS」が挙げられます。Amazonが提供するクラウドサービスの総称で、AWSのデータは同社の「AWS Glue DataBrew」でデータクレンジングできます。

STEP4.データを収集する

どんなデータを収集すべきかが明確になり、データを蓄積・整理するための体制と設備を整えたら、いよいよデータ収集です。

組織内のデータは通常、複数のデータベースに保管されています。ここまで解説してきたステップを踏んでいれば、社内のシステムや社外のデータベースに保管されたデータがDWHに集約されるようになっているはずです。DWHからデータマイニングに必要なデータを抽出しましょう。

STEP5.データを加工し、整理する(データクレンジング)

データマイニングに必要なデータがそろったら、これらを加工・整理しましょう。いわゆるデータクレンジングの段階で、データの形式をそろえたり、重複や誤データの削除などを行います。

余計なデータも削除しましょう。たとえば顧客の性別・年齢・年間購入金額だけが必要なら、購入履歴や職業、契約期間などの対象外のデータを削除します。

STEP6.データを分析・結果を検証する

データの加工・整理が済んだら、データを分析し、結果を検証します。ここでは分析結果が正確かどうかを判断しなければなりません。正確でない場合や求めていた知識が得られなかった場合、集めるデータや分析モデルを再構築してデータマイニングをやり直します。