From 2e2a07a39a28e78ac42bdddaad9a3337bb7d6071 Mon Sep 17 00:00:00 2001 From: jingwei Date: Mon, 16 Jul 2018 15:22:21 +0800 Subject: [PATCH] update progress on data preprocessing --- source/_posts/data-summary.md | 102 ++++++++++++++++++++++++++++++++++ 1 file changed, 102 insertions(+) create mode 100644 source/_posts/data-summary.md diff --git a/source/_posts/data-summary.md b/source/_posts/data-summary.md new file mode 100644 index 0000000..8e911c4 --- /dev/null +++ b/source/_posts/data-summary.md @@ -0,0 +1,102 @@ +--- +title: 20180716总结 +date: 2018-07-16 13:16:35 +description: 本篇介绍项目数据处理初步结果,以及后续工作计划 + +--- + +# 数据处理初步结果 + +## 数据分析之样本选取 + +通过和江苏银行的充分沟通,结合任务目标,我们选择以用户为单位构造样本。其中,样本将被划分为训练集和测试集。 +在训练集中,样本主要来源于以下几类用户的相关数据: +1. 美团客户+美团交易数据+申请过借呗/申请过车e融(正样本) +2. 江苏银行直销客户+美团交易数据+申请过借呗/申请过车e融(正样本) +3. 江苏银行直销客户+美团交易数据+短信推广过车e融且办理(正样本) +4. 江苏银行直销客户+美团交易数据+短信推广过车e融但未办理(负样本) + +在测试集中,样本主要来源于以下二类用户的相关数据: +1. 江苏银行直销客户+美团交易数据+短信推广过车e融且办理(正样本) +2. 江苏银行直销客户+美团交易数据+短信推广过车e融但未办理(负样本) + +## 数据统计概要描述 + +根据上述样本数据来源描述,在模型训练前,需对用户数据,尤其是美团交易数据进行预处理。因美团数据以‘交易’为单位,因此需从单个用户的所有交易中提取出属于该用户的特征。 + +通过分析,我们得到了初步的数据处理结果,如下所示: + +1. 属于正样本用户的全部订单数量:1,320,442,其中,订单商户信息字段为空的数量为:580,371,商户信息字段为中文的有:736,506。 + +根据商户的中文信息,我们对中文信息采取人工分类的方法进行处理。 + +其中,可进行二级分类的交易统计结果如下: +1. 美食:6,525 +2. 传媒: 59 +3. 酒店住宿:584 +4. 旅游:5,359 +5. 休闲娱乐:208 +6. 生活服务:540 +7. 时尚购物:7,269 +8. 丽人:490 +9. 运动健身:72 +10. 母婴亲子:68 +11. 宠物:2 +12. 汽车服务:552 +13. 摄影写真:13 +14. 学习培训:5 +15. 家装:102 +16. 结婚:2 +17. 医疗:118 +18. 公益:4 +19. 信息科技:7,102 +20. 经济理财:148 +21. 公共出行:129,327 + +不可再分的交易统计结果如下: +1. 点评:568,461 +2. 爱奇艺:40 +3. 百度糯米:2 +4. 银联二维码:10 +5. 去哪儿网:640 +6. 云闪付(筛选过后仍无法分类的部分):1,994 +7. 宁波市民卡:3,177 +8. 合肥城市通卡:932 +9. 北京市政交通一卡通:460 +10. 网易考拉海购:459 +11. 网易严选:220 +12. 飞牛网:181 +13. 潍坊学院:111 +14. 广州网易:106 +15. 贝贝网:71 +16. 华为应用:50 +17. 时光网:42 +18. 环球捕手:28 +19. 苹果公司:22 +20. 买单吧商户:14 +21. 微博:7 +22. 政府机关:25 +23. 东浩国际:17 + +在此,那些商户信息数据为数字串或NULL的交易并未在此统计。 + + +# 后续计划 + +## 特征处理 + +1. 根据用户基本信息,提取用户基本特征,包括年龄,性别,身份证地区,手机号归属地。 +2. 根据用户美团交易的商户分类数据,构造用户购买行为的偏好特征。 +3. 根据用户美团交易的金额数据,按照不同时间区间维度构造用户购买力特征。 +4. 尝试挖掘其他属于用户的特征 + +## 模型训练 + +1. 根据特征,构造训练和测试数据集,以稀疏矩阵形式表达。矩阵行表示用户,矩阵列表示对应的用户特征和label信息。 +2. 结合特征,构造并在测试环境部署模型,进行参数训练。 + +# 工作时间点安排 + +1. 完成特征处理工作 +2. 完成实验环境的模型学习,部署,测试 +3. 完成生产环境的模型部署,测试