数据总览 & 预处理
-
训练数据
数据类型 列号范围 行数 食品餐饮 (1,13655) 13655 旅游住宿 (13656,32590) 18935 金融服务 (32591,46934) 14344 医疗服务 (46935,67246) 20312 物流快递 (67247,82025) 14779 -
测试数据
数据类型 列号范围 行数 食品餐饮 (1,5853) 5853 旅游住宿 (5854,13968) 8115 金融服务 (13969,20116) 6148 医疗服务 (20117,28822) 8706 物流快递 (28823,35157) 6335 -
评判标准 综合准确率和召回率,得到得分
模型搭建 & 优化 & 得分结果
-
数据分类(预处理)
分类与否 得分 有分类 0.8703 无分类 0.64 - jieba分词
- 三种分词模式:精确模式、全模式、搜索引擎模式。选择精确模式
- 默认启用HMM模型
-
停用词表的选择
- 中科院计算机所的停用词表
-
word2vec:字符串词向量 ==> 数值化词向量
word2vec的size(词向量的维度) 得分 100 0.8703 200 0.8747 300 0.8768 400 0.8724 - SVM(支持向量机)分类器,生成分类器模型
- 核函数的选择
- rbf,gaussian为未知情况的选择
- 线性、多项式为大概有图景时的选择
- softmax用于后续神经网络的搭建
-
惩罚系数
| 惩罚系数 | 得分| |:—:|:—:| | 0.1 | 0.8636 | |1|0.8780| |100|0.8815| |500|0.8851| |1000|待测|
- 以上为word2vec的size为300时的具体情况:
- 惩罚系数: 越高越好,越费时,过拟合的风险越大
- 用时:5个类别,每个类别两个svm模型,共十个模型。c=500时,每个模型10-20min
- 核函数的选择
- 查找并补全缺失项
- 通过现实情况,多种方案间的对比,进行人工加工
心得体会
- 数据分析的根本目的是描述或者预测,具体的应用方法和分析手段并不重要,重要的是那个结果,即输出。中间可以掺杂多种分析手段,可以混合机器和人工
- 例如,可以混合使用wps查看excel和用python批量处理数据
- 遍的理念,用于控制复杂度。根据不同的目的,对全体数据进行多遍处理,类似编译器的制作。
- 第一遍进行分词,第二遍进行词法分析,第三遍语义处理
- 本次查找并补全缺失项中。第一遍查找缺失的行,第二遍进行补充
要有针对性,想要一次性地做好全部事情的想法,是不现实的。分步骤来