《自然语言处理学习之路》11 文本特征方法对比，词袋，TFIDF，Word2Vec，神经网络

一、数据预处理与观测 1.1 数据简介: Disasters on social media

社交媒体上有些讨论是关于灾难疾病暴乱的有些只是开玩笑或者是电影情节我们该如何让机器能分辨出这两种讨论呢?

import keras 
import nltk
import pandas as pd
import numpy as np
import re
import codecs

questions pd.read_csv( )
questions.colums [ text , choose_one , class_label ]
questions.head()

questions.describe()

数据清洗去掉无用字符,利用正则

输出

1.2数据分布情况

看数据时候倾斜分类任务之前先观测不同类别的数据是否有倾斜倾斜的话就选择上采样或者下采样

看起来数据还算是均衡的

1.3 处理流程分词训练与测试集检查与验证

分词

1.4 语料库情况

统计单词数目

统计句子长度

统计不重复的词数目

填充每个文本的长度不一样长在对于模型的输入需要是每个样本的长度都是一样长所以需要设置一个均值的长度短的就填充长的就切掉

二、文本特征构建 2.1 词袋模型 Bag of Word Counts 先构造语料库去重的所有词的文本矩阵再根据每个文本出现的词频填充没有的就是0

PCA展示Bag of Words

将维度的方法有多种PAC TSNE LDA SVD进行降低维度
利用PCA将维度降到2维度

基于不同的label画出不同的颜色

但是发现不同维度降低维度数据都混淆再一起

逻辑回归建模分类

定义评估方法的函数

混淆矩阵检查

发现unsure的数值为0 因为这个分类的数量太少了机器学习算法会朝着数据方向多的去做

进一步检查模型的关注点

逻辑回归是 x0w0 x1w1 ··· 所以我们可以查看w值的大小可以看不同分类的哪些词的权重值更大

model.coef 调取w系数构建所有词的与权重的对应关系再进行排序可视化

绘图

发现模型并没有发现哪些词比较重要那些词比较不重要因为词袋模型是基于词频的就会以频率评判重要性

三、TFIDF Bag of Words

TF-IDF

不均等对待每个词

看起来比词频的好那么一点

输出

词语的解释

这些词看起来比之前强一些了

问题
我们现在考虑的是每一个词基于频率的情况如果在新的测试环境下有些词变了呢?比如说goog和positive.有些词可能表达的意义差不多但是却长得不一样这样我们的模型就难捕捉到了。

四、Word2Vec

可以识别同一个语义的不同词可以聚类在一起

拿直接别人训练好的词向量模型进行实验 300维的向量模型

将300维度基于词的向量转换为句子向量最简单的方法取得平均 300维度的词每一个维度的值相加取得平均值表达句子向量。

问题但是取得平均后就将每一个词同等对待并没有体现出一些关键词的重要性。

word2vec是用神经网络迭代计算出来的解释性也比较差

降维

看起来就好多了

F1的值为0.777

但是word2Vec就比较难看出来那些词比较重要。

五、基于深度学习的自然语言处理 CNN和RNN

CNN本质上是做出一个图像处理输入需要是一个图像矩阵 CNN在处理的时候用一个filter 一次滑动指定数量的词提取这些词的特征。不停的向下面滑动在不停的滑动过程中综合的考虑的上下文的信息。
基于图像的方式提取上下文特征

RNN专门做自然语言处理输入一般是一个序列。每个词都是一个序列先考虑第一个词在处理第二个词的时候不仅处理第二个词还考虑第一个词的输入。

现在我们将定义一个简单的卷积神经网络

训练网络