forked from caochun/blog-jsbchina
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
update progress on data preprocessing
- Loading branch information
1 parent
81ead04
commit 2e2a07a
Showing
1 changed file
with
102 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,102 @@ | ||
--- | ||
title: 20180716总结 | ||
date: 2018-07-16 13:16:35 | ||
description: 本篇介绍项目数据处理初步结果,以及后续工作计划 | ||
|
||
--- | ||
|
||
# 数据处理初步结果 | ||
|
||
## 数据分析之样本选取 | ||
|
||
通过和江苏银行的充分沟通,结合任务目标,我们选择以用户为单位构造样本。其中,样本将被划分为训练集和测试集。 | ||
在训练集中,样本主要来源于以下几类用户的相关数据: | ||
1. 美团客户+美团交易数据+申请过借呗/申请过车e融(正样本) | ||
2. 江苏银行直销客户+美团交易数据+申请过借呗/申请过车e融(正样本) | ||
3. 江苏银行直销客户+美团交易数据+短信推广过车e融且办理(正样本) | ||
4. 江苏银行直销客户+美团交易数据+短信推广过车e融但未办理(负样本) | ||
|
||
在测试集中,样本主要来源于以下二类用户的相关数据: | ||
1. 江苏银行直销客户+美团交易数据+短信推广过车e融且办理(正样本) | ||
2. 江苏银行直销客户+美团交易数据+短信推广过车e融但未办理(负样本) | ||
|
||
## 数据统计概要描述 | ||
|
||
根据上述样本数据来源描述,在模型训练前,需对用户数据,尤其是美团交易数据进行预处理。因美团数据以‘交易’为单位,因此需从单个用户的所有交易中提取出属于该用户的特征。 | ||
|
||
通过分析,我们得到了初步的数据处理结果,如下所示: | ||
|
||
1. 属于正样本用户的全部订单数量:1,320,442,其中,订单商户信息字段为空的数量为:580,371,商户信息字段为中文的有:736,506。 | ||
|
||
根据商户的中文信息,我们对中文信息采取人工分类的方法进行处理。 | ||
|
||
其中,可进行二级分类的交易统计结果如下: | ||
1. 美食:6,525 | ||
2. 传媒: 59 | ||
3. 酒店住宿:584 | ||
4. 旅游:5,359 | ||
5. 休闲娱乐:208 | ||
6. 生活服务:540 | ||
7. 时尚购物:7,269 | ||
8. 丽人:490 | ||
9. 运动健身:72 | ||
10. 母婴亲子:68 | ||
11. 宠物:2 | ||
12. 汽车服务:552 | ||
13. 摄影写真:13 | ||
14. 学习培训:5 | ||
15. 家装:102 | ||
16. 结婚:2 | ||
17. 医疗:118 | ||
18. 公益:4 | ||
19. 信息科技:7,102 | ||
20. 经济理财:148 | ||
21. 公共出行:129,327 | ||
|
||
不可再分的交易统计结果如下: | ||
1. 点评:568,461 | ||
2. 爱奇艺:40 | ||
3. 百度糯米:2 | ||
4. 银联二维码:10 | ||
5. 去哪儿网:640 | ||
6. 云闪付(筛选过后仍无法分类的部分):1,994 | ||
7. 宁波市民卡:3,177 | ||
8. 合肥城市通卡:932 | ||
9. 北京市政交通一卡通:460 | ||
10. 网易考拉海购:459 | ||
11. 网易严选:220 | ||
12. 飞牛网:181 | ||
13. 潍坊学院:111 | ||
14. 广州网易:106 | ||
15. 贝贝网:71 | ||
16. 华为应用:50 | ||
17. 时光网:42 | ||
18. 环球捕手:28 | ||
19. 苹果公司:22 | ||
20. 买单吧商户:14 | ||
21. 微博:7 | ||
22. 政府机关:25 | ||
23. 东浩国际:17 | ||
|
||
在此,那些商户信息数据为数字串或NULL的交易并未在此统计。 | ||
|
||
|
||
# 后续计划 | ||
|
||
## 特征处理 | ||
|
||
1. 根据用户基本信息,提取用户基本特征,包括年龄,性别,身份证地区,手机号归属地。 | ||
2. 根据用户美团交易的商户分类数据,构造用户购买行为的偏好特征。 | ||
3. 根据用户美团交易的金额数据,按照不同时间区间维度构造用户购买力特征。 | ||
4. 尝试挖掘其他属于用户的特征 | ||
|
||
## 模型训练 | ||
|
||
1. 根据特征,构造训练和测试数据集,以稀疏矩阵形式表达。矩阵行表示用户,矩阵列表示对应的用户特征和label信息。 | ||
2. 结合特征,构造并在测试环境部署模型,进行参数训练。 | ||
|
||
# 工作时间点安排 | ||
|
||
1. 完成特征处理工作 | ||
2. 完成实验环境的模型学习,部署,测试 | ||
3. 完成生产环境的模型部署,测试 |