ForecasrFlowで定期貯金のダイレクトテレマーケティングの結果の予測をします!そして、次のキャンペーンでは、どの客層をターゲティングすればいいのかを明らかにしていきたいと思います!
今回のコンセプトは、どれだけ簡単にモデルをつくれるかです。なので、手間がかかりがちなデータ整形、特徴量の作成は行いません。
データは、kaggleの「Bank Marketing Dataset」を使いました。下記サイトからダウンロードできます。 https://www.kaggle.com/janiobachmann/bank-marketing-dataset
目次
- データ準備(本記事)
- モデル作成の準備
- モデル作成
- つくったモデルを見てみよう
データの概要
ダウンロードにしたcsvファイルを開くと以下のようになっています。17列11163行でした。
それぞれの列の意味は以下になります
Age:年齢
Job:職種
Marital:婚姻状況
Education:教育水準
Default:債務不履行の有無
Balance:年間平均残高(€)
Housing:住宅ローンの有無
Loan:個人ローンの有無
Contact:顧客へ最後に連絡した時の連絡方法
Day:最後に連絡をとった日付
Month:最後に連絡をとった月
duration:最後の連絡を時の接触の長さ(秒)
campaign:現キャンペーンで銀行が連絡した回数
pdays:前キャンペーン最終連絡日からの経過日数
previous:前キャンペーンで銀行が連絡した回数
poutcome:前回のキャンペーンの成果
deposit:定額預金申し込み有無
今回は、定期貯金口座開設したのかを知りたいので、「deposit」が正解ラベル(予測するもの)となります。残りの16行は特徴量(正解ラベルを予測する材料)となります。
データの準備
モデルを構築するには、どうしてもID(重複しない数値、文字列)が必要です。そこでIDを付けました。
(これはExcelの機能を使えば一瞬でできます。R2に1を入力し、フィルハンドルを右クリック、その後、連続データを選択して完了です)
これでデータの準備は完了です!
次の記事はコチラから