Skip to content

Commit

Permalink
update progress on data preprocessing
Browse files Browse the repository at this point in the history
  • Loading branch information
ParagonLight committed Jul 16, 2018
1 parent 81ead04 commit 2e2a07a
Showing 1 changed file with 102 additions and 0 deletions.
102 changes: 102 additions & 0 deletions source/_posts/data-summary.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,102 @@
---
title: 20180716总结
date: 2018-07-16 13:16:35
description: 本篇介绍项目数据处理初步结果,以及后续工作计划

---

# 数据处理初步结果

## 数据分析之样本选取

通过和江苏银行的充分沟通,结合任务目标,我们选择以用户为单位构造样本。其中,样本将被划分为训练集和测试集。
在训练集中,样本主要来源于以下几类用户的相关数据:
1. 美团客户+美团交易数据+申请过借呗/申请过车e融(正样本)
2. 江苏银行直销客户+美团交易数据+申请过借呗/申请过车e融(正样本)
3. 江苏银行直销客户+美团交易数据+短信推广过车e融且办理(正样本)
4. 江苏银行直销客户+美团交易数据+短信推广过车e融但未办理(负样本)

在测试集中,样本主要来源于以下二类用户的相关数据:
1. 江苏银行直销客户+美团交易数据+短信推广过车e融且办理(正样本)
2. 江苏银行直销客户+美团交易数据+短信推广过车e融但未办理(负样本)

## 数据统计概要描述

根据上述样本数据来源描述,在模型训练前,需对用户数据,尤其是美团交易数据进行预处理。因美团数据以‘交易’为单位,因此需从单个用户的所有交易中提取出属于该用户的特征。

通过分析,我们得到了初步的数据处理结果,如下所示:

1. 属于正样本用户的全部订单数量:1,320,442,其中,订单商户信息字段为空的数量为:580,371,商户信息字段为中文的有:736,506。

根据商户的中文信息,我们对中文信息采取人工分类的方法进行处理。

其中,可进行二级分类的交易统计结果如下:
1. 美食:6,525
2. 传媒: 59
3. 酒店住宿:584
4. 旅游:5,359
5. 休闲娱乐:208
6. 生活服务:540
7. 时尚购物:7,269
8. 丽人:490
9. 运动健身:72
10. 母婴亲子:68
11. 宠物:2
12. 汽车服务:552
13. 摄影写真:13
14. 学习培训:5
15. 家装:102
16. 结婚:2
17. 医疗:118
18. 公益:4
19. 信息科技:7,102
20. 经济理财:148
21. 公共出行:129,327

不可再分的交易统计结果如下:
1. 点评:568,461
2. 爱奇艺:40
3. 百度糯米:2
4. 银联二维码:10
5. 去哪儿网:640
6. 云闪付(筛选过后仍无法分类的部分):1,994
7. 宁波市民卡:3,177
8. 合肥城市通卡:932
9. 北京市政交通一卡通:460
10. 网易考拉海购:459
11. 网易严选:220
12. 飞牛网:181
13. 潍坊学院:111
14. 广州网易:106
15. 贝贝网:71
16. 华为应用:50
17. 时光网:42
18. 环球捕手:28
19. 苹果公司:22
20. 买单吧商户:14
21. 微博:7
22. 政府机关:25
23. 东浩国际:17

在此,那些商户信息数据为数字串或NULL的交易并未在此统计。


# 后续计划

## 特征处理

1. 根据用户基本信息,提取用户基本特征,包括年龄,性别,身份证地区,手机号归属地。
2. 根据用户美团交易的商户分类数据,构造用户购买行为的偏好特征。
3. 根据用户美团交易的金额数据,按照不同时间区间维度构造用户购买力特征。
4. 尝试挖掘其他属于用户的特征

## 模型训练

1. 根据特征,构造训练和测试数据集,以稀疏矩阵形式表达。矩阵行表示用户,矩阵列表示对应的用户特征和label信息。
2. 结合特征,构造并在测试环境部署模型,进行参数训练。

# 工作时间点安排

1. 完成特征处理工作
2. 完成实验环境的模型学习,部署,测试
3. 完成生产环境的模型部署,测试

0 comments on commit 2e2a07a

Please sign in to comment.