阿鲲的博客主修软件工程和算法模型，极客成长中

用户评论情感极性分析（三分类）

2019-03-20

jktian

阅读：

历劫桥--项目实战

log nlp

数据总览 & 预处理
模型搭建 & 优化 & 得分结果
心得体会

数据总览 & 预处理

训练数据

数据类型	列号范围	行数
食品餐饮	（1，13655）	13655
旅游住宿	（13656，32590）	18935
金融服务	（32591，46934）	14344
医疗服务	（46935，67246）	20312
物流快递	（67247,82025）	14779

测试数据

数据类型	列号范围	行数
食品餐饮	（1，5853）	5853
旅游住宿	（5854，13968）	8115
金融服务	（13969，20116）	6148
医疗服务	（20117，28822）	8706
物流快递	（28823,35157）	6335

评判标准综合准确率和召回率，得到得分

模型搭建 & 优化 & 得分结果

数据分类（预处理）

分类与否得分

有分类 0.8703

无分类 0.64
jieba分词
- 三种分词模式：精确模式、全模式、搜索引擎模式。选择精确模式
- 默认启用HMM模型
停用词表的选择
- 中科院计算机所的停用词表

word2vec：字符串词向量 ==> 数值化词向量

word2vec的size（词向量的维度）	得分
100	0.8703
200	0.8747
300	0.8768
400	0.8724

SVM（支持向量机）分类器，生成分类器模型
1. 核函数的选择
  - rbf，gaussian为未知情况的选择
  - 线性、多项式为大概有图景时的选择
  - softmax用于后续神经网络的搭建
2. 惩罚系数
  
  | 惩罚系数 | 得分| |:—:|:—:| | 0.1 | 0.8636 | |1|0.8780| |100|0.8815| |500|0.8851| |1000|待测|
  - 以上为word2vec的size为300时的具体情况：
  - 惩罚系数: 越高越好，越费时，过拟合的风险越大
  - 用时：5个类别，每个类别两个svm模型，共十个模型。c=500时，每个模型10-20min
查找并补全缺失项

通过现实情况，多种方案间的对比，进行人工加工

心得体会

数据分析的根本目的是描述或者预测，具体的应用方法和分析手段并不重要，重要的是那个结果，即输出。中间可以掺杂多种分析手段，可以混合机器和人工
例如，可以混合使用wps查看excel和用python批量处理数据
遍的理念，用于控制复杂度。根据不同的目的，对全体数据进行多遍处理，类似编译器的制作。
1. 第一遍进行分词，第二遍进行词法分析，第三遍语义处理
2. 本次查找并补全缺失项中。第一遍查找缺失的行，第二遍进行补充
  
  要有针对性，想要一次性地做好全部事情的想法，是不现实的。分步骤来

上一篇 多功能工具包（聊天机器人）

下一篇 关于降低员工离职率的策略研究

Comments

Content

Comments