データサイエンス

ForecasrFlowで銀行の定期貯金口座開設を予測! マーケティングキャンペーンの最良策を見つける!?(データ準備編)

ForecasrFlowで定期貯金のダイレクトテレマーケティングの結果の予測をします!そして、次のキャンペーンでは、どの客層をダーゲティングすればいいのかを明らかにしていきたいと思います!

今回のコンセプトは、どれだけ簡単にモデルをつくれるかです。なので、手間がかかりがちなデータ整形、特徴量の作成は行いません。

データは、kaggleの「Bank Marketing Dataset」を使いました。下記サイトからダウンロードできます。 https://www.kaggle.com/janiobachmann/bank-marketing-dataset

目次

  1. データ準備(本記事)
  2. モデル作成の準備
  3. モデル作成
  4. つくったモデルを見てみよう

データの概要

ダッシュボードしたcsvファイルを開くと以下のようになっています。17列11163行でした。 f:id:gri-blog:20210629162728p:plain

それぞれの列の意味は以下になります

Age:年齢

Job:職種

Marital:婚姻状況

Education:教育水準

Default:債務不履行の有無

Balance:年間平均残高(€)

Housing:住宅ローンの有無

Loan:個人ローンの有無

Contact:顧客へ最後に連絡した時の連絡方法

Day:最後に連絡をとった日付

Month:最後に連絡をとった月

duration:最後の連絡を時の接触の長さ(秒)

campaign:現キャンペーンで銀行が連絡した回数

pdays:前キャンペーン最終連絡日からの経過日数

previous:前キャンペーンで銀行が連絡した回数

poutcome:前回のキャンペーンの成果

deposit:定額預金申し込み有無

今回は、定期貯金口座開設したのかを知りたいので、「deposit」が正解ラベル(予測するもの)となります。残りの16行は特徴量(正解ラベルを予測する材料)となります。

データの準備

モデルを構築するには、どうしてもID(重複しない数値、文字列)が必要です。そこでIDを付けました。

(これはExcel の機能を使えば一瞬でできます。R2に1を入力し、フィルハンドルを右クリック、その後、連続データを選択して完了です) f:id:gri-blog:20210629163526p:plain

これでデータの準備は完了です!