注:由于课题更改,所以本篇博客仅为博主自己的论文分析记录。
附论文链接:https://pan.baidu.com/s/1vZA29DRJRZRUQfYbU6CRkw
提取码:z45i
提取码:z45i
目录
一、项目简介
1.项目名称
2.项目描述
3.具体任务
4.应用价值
5.主要方法
6.数据集
二、论文分析
1.INTRODUCTION
2.RELATED WORK
3.PROPOSED METHOD
3.1Knowledge Relevance importance
3.2Self-importance
3.3Graph Construction
3.4Related importance
3.5Our Ranking Model
一、项目简介
1.项目名称
Inside importance Factors of Graph-based Keyword Extraction on Chinese Short Text
基于图的中文短文本无监督关键词抽取
2.项目描述
输入中文短文本,抽取输出文中的重要词和主题词
3.具体任务
复现论文中的方法
4.应用价值
广泛应用于文本摘要、文本分类、信息检索
5.主要方法
graph-based KE
6.数据集
NLPIR微博语料库
二、论文分析
1.INTRODUCTION
(1)先前主要方法分为监督学习和无监督学习。
监督学习:侧重训练模型的各种特征和分类算法,单词的重要性取决于特征。
无监督学习:特别是基于图的方法,侧重于单词间的关系。
(2)先前方法的不足:尽管有监督学习方法在不断探索利用更多因素的特征,但很少有无监督学习模型利用他们。
(3)我们的方法是改进的基于图的无监督方法,将单词重要性分为:自重要性(self-importance)、相关重要性(related importance)、知识相关重要性(knowledge relevance importance)。其中,监督方法中使用的特征被整合为自重要性,而阻尼因子(the damping factor)被认为是自重要性的比例。
(4)我们的贡献如下:
①我们提出了一种改进的短文档关键词提取方法,其中,给定文档中单词的重要性包括:自我重要性、相关重要性和知识相关性的重要性。
② 我们研究了每个重要部分之间的关系,特别是影响不同长度数据集的阻尼因子。
③ 我们还提供了带标签的长、短中文数据集,用于关键词提取任务。
2.RELATED WORK
(1)监督算法
概述:将关键字提取视为分类任务。这些方法选择重要的词特征,然后在训练中利用这些特征构建模型数据集,大多侧重于特征和模型选择。
发展:
- KEA 算法使用具有词频-逆文档频率 (TF-IDF) 的原生 Byes 技术和第一次出现作为特征。
- Turney 添加一个新特征来改进算法的连贯性。
- Nguyen 和 Kan通过包含语言信息更新了这种方法,例如部分信息。
- 克拉皮文等利用不同的机器学习方法(SVM,随机森林)以提高科学论文的效率。
- 李等人在监督方法中分析特征并选择适合短文档的特征。
- 将背景知识、语义、单词之间的关系等引入监督方法。
- 近些年在基于深度神经网络模型的技术方面的研究。
不足:监督系统需要带有人工注释关键字的训练数据,这并不总是可行的。而且,互联网上的文件多种多样,内容可能涉及许多领域。因此,特定领域的训练模型在网络上并不总是能很好地工作。
(2)无监督算法
概述:粗略地说,无监督方法可以分为基于图和基于统计的算法。大多数短文档的关键字提取方法都是无监督的。
发展:
- KeyGraph 由 Ohsawa 等人提出,它不使用任何语言知识、语料库或训练集。它基于高频词、术语共现、图段和聚类。
- TextRank是一个基于图的模型,它应用了 Page Rank 算法,一种用于文本的随机游走技术。
- CollabRank是一种基于 TextRank 的改进算法,它将文档分成几个集群,并利用集群中的全局词关系提取关键字。
- TextPageRank (TPR) 为一个文档多次运行 TextRank,并对应于潜在狄利克雷分配 (LDA)引起的主题信息。
- TopicRank 集群可以将关键短语划分为主题,然后将它们用作图中的顶点。
- WS-Rank 将句子带入文档图中,考虑句子在词上重要性的影响。
- NE-Rank 是一种最先进的基于图的方法,用于从短文本中提取关键词,在排序方法中使用 TF-IDF 作为节点权重。
- PositionRank 将来自单词出现的所有位置的信息合并到有偏差的 PageRank 中,并将其应用于科学作品的摘要。
- DIKpE 是一种无监督的非基于图的技术,它利用了重要的特征。
不足:这些方法并没有充分利用监督方法中探索的特征,并且它们的改进是有限的。这些方法忽略了背景知识。并且,所有这些无监督的方法都没有充分考虑给定文档中单词的重要性。
3.PROPOSED METHOD
我们假设在给定的文本中,单词的重要性由知识相关重要性、自重要性(包括单词的内在特征,如TF、POS)、相关重要性组成。我们通过计算这些部分的重要性得分,然后使用附加到每个单词的值进行重要性的排序。主要过程如下:
(1)从语料库中获取单词之间的相关知识。
(2)构建文档图并计算单词每个重要性的值。
(3)运行基于图的方法并获取关键字。
3.1Knowledge Relevance importance
使用word2vec方法来计算知识相关重要性:
(1)给定词序列{},对每个词向量进行训练,使平均对数概率最大化
(2)计算余弦距离的绝对值即为知识相关重要性。
3.2Self-importance
选取三个特征:Term frequency(TF)、Part of speech(POS)、Appear in the first sentence(AIFS)。
(1)TF:短文本中用TF代替TF-IDF。
(2)POS:名词更为重要。
(3)AIFS:许多短文本中,关键词通常出现在第一句中。因此,有AIFS特征的词更重要。
自重要性的计算公式为:
3.3Graph Construction
(1)通过stopwords和POS筛选器将候选词从目标文档中提取出来。其中,英文数据集的候选词只选择名词和形容词,中文数据集选择名词、形容词、副词和动词。
(2)在文档图中,每个顶点对应一个候选词,如果两个节点有共现关系,那么存在边(vi,vj)、(vj,vi)。共现关系是指:两个节点出现在同一句子中并且它们出现位置间的距离在指定范围内,则这两个节点具有共现关系。为方便起见,节点vi对应的词为wi。
(3)顶点集V和边集(vi,vj)∈E(如果存在从vi到vj的边)构成的图即为文档图G(V,E)。显然,如果边(vi,vj)存在,则边(vj,vi)也存在。
3.4Related importance
(1)词wj对词wi的相关重要性=wj和wi在目标文本中的共现次数/wj和vj的所有共现节点vk对应的词wk在目标文本中的共现次数之和,即:
(2)边(vj,vi)的权重:
式中,γ是边权重中两个部分的比例,取值为0到1。
边权重值包含了相关重要性和知识相关重要性。
(3)标准化结果:
3.5Our Ranking Model
采用的排序模型是偏好图中高概率节点的PageRank,节点的分值由以下公式计算:
其中,α是阻尼因子,我们将α当作自重要性的权重。pi反应用户偏好。
利用该公式,通过递归计算最终分值,直到两个连续迭代的差值小于1.0e-6或迭代次数达到100次。
先写到这里,去看新换的课题论文了呜呜呜呜......



