干货！如何通过极弱监督来完成海量文本的结构化

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

大数据时代的我们每天沉浸都在海量的自然语言数据中，比如新闻、社交网络、学术论文等等。如何根据用户需求高效地、自动地消化这些海量文本数据、将其结构化，并最终能被人理解、让机器可以运算，自然而然地成为了文本挖掘和自然语言处理领域里的最大难题。我们组的研究工作主要致力于如何将这个过程中所需要的监督信号需求降到最低，与此同时能尽可能地保证质量。在本次报告中，我们将展示一系列的弱监督和无监督的文本挖掘方法。我们会重点讨论两个问题：(1) 如何在没有任何人工标注的情况下，从特定领域的海量文本中去发现新兴的、不常见的词组？(2) 如何在只有各个类的名称的情况下，从海量纯文本出发来构建一个文本分类器？

本期AI TIME PhD直播间，我们邀请到加州大学圣地亚哥分校 (UCSD) 计算机系和数据科学学院助理教授——商静波，为我们带来报告分享《如何通过极弱监督来完成海量文本的结构化》。

商静波：

现任加州大学圣地亚哥分校 (UCSD) 计算机系和数据科学学院助理教授。从上海交大ACM班和伊利诺伊大学厄巴纳香槟5分校(UIUC)获得学士和博士学位。他的研究主要致力于利用大数据驱动的方法将海量文本数据结构化，从而大量减少所需要的人工标注。其成果已被多个奖项所认可，包括2021年谷歌学者和2020年SIGKDD 博士论文奖亚军。

背景

互联网时代中，我们日常都会接触大量的数据。这些数据包括文本、图片等。对我们而言，如何消化这些数据，将他们转化为有结构的insights，最后是人们能够做出决策，机器也能进一步进行挖掘工作。

因此我们提出一个自动的模型，将这些无结构的文本转化为有结构的知识和insights。

Structuring将原始文本转化为知识的关键

不同层次的机器可操作结构

文本分类（结果可以做推荐系统等）；词组（实体、关系）挖掘——做问答；

传统方法

这些数据需要大量的人力来标注，而且不同领域的数据需要不同领域的专家来标注。因此，我们需要一个extremely weak supervision，极弱监督。

什么是极弱监督？没有这个监督信号做不了，有一点监督信号就能做的不错。不断压缩需要的人力投入。

举例：文本分类

无监督情况下文本分类没有办法实现，因为分类的标准过多。比如对于新闻来说，可以按照主题分类，也可以按照地域分类。但如果我们先获取他的分类标准，就算是在有一点监督信号的情况下实现了文本分类，即文本分类这个task下的极弱监督。我们这个project中的目标便是在不同task中完成相应的极弱监督。

UCPhrase: Unsupervised Context-aware Phrase Tagging (KDD’21)在没有监督的情况下，找到上下文中所有重要的词组在哪里。

Phrase Mining

举例：目前有很多新闻报道，没有Phrase Mining的情况下就只能手动统计各个词频，

如果有Phrase Mining：

Phrase minings是理解文本的关键。它能促进自然语言中的各种应用处理(NLP)，信息检索(IR)，文本识别。

Quality phrase mining做的较多。这是说给定一个文本，早已定下来想做什么task，比如给计算机科学paper就是想找到计算机的术语。对于海量的文本，我们给定自己感兴趣的领域是什么，希望可以针对这个领域去找到这个领域里最重要的一些词。

Phrase Mining这个领域也有一些前人的工作，但是否能有一个无监督但上下文感知的方法呢？

实验

UCPhrase (KDD’21):我们的无监督且上下文感知短语标记方法

Unsupervised→大规模的语料库

Context-Aware→利用预先训练的神经语言模型

1）寻找Core Phrases——在同一篇文章中出现了两次及以上的词

在同一篇文章中出现多次的词将会被打上标记，但这个标记不会出现在其他文本之中

Core Phrases vs. Distant Supervision（前者优点）

更多的数量和多样性

更好的语境完整性

语料库中较不常见的短语

不依赖任何现有的知识库

传统的embedding-based features又有什么问题呢？

Embedding features 是可以识别单词的——它会告诉你正在看哪个单词

易于严格记忆训练集中所有看到的短语/单词

字典匹配模型很容易达到0%的训练误差，但不能推广到看不见的短语；因为这时可能是把所有的词都背下来了，导致实际训练的词为0

我们希望feature能帮我们展示这个词在句子里的结构，而不是他的意思。

好的feature应该是：

不知道单词表面名称(因此模型不能依赖于严格的记忆)

揭示跨度在整个句子中的作用(看句子结构，而不是短语名)即更关注的应该是上下文的相关连结性

我们需要的feature是什么样的呢？Attention maps are what we want!

多少个layers，多少个attention head就有多少个Attention maps

直接从预先训练的语言模型中提取知识

句子的Attention map可以将句子的内部结构可视化

高质量的短语应该具有与普通短语不同的distinct attention patterns

当我们有feature也有label之后该如何做呢？

以RoBERTa模型为例，给定一个N-gram候选，我们将有12 * 12 * N * N的Attention map（12 layers * 12 heads）

可以看作144-channel的图像，大小为N * N，一种用于二值分类的轻量级二层CNN模型

（1）only train CNN without fine-tuning LM

（2）The attention maps from the first 3 layers of LM are effective enough

（3）Fast and efficient à only 22KB checkpoint file

evaluation Tasks评估模型的有效性，设置了3个task如下图

Task1：从整个文本中找出的phrase排序，尽量多的找出好的phrase

Task2：一篇文章中怎样生成关键词

Task3：从一句话中告诉哪个phrase值得我们去计算它的相应表现指标

Datasets——KP20k和KPTimes

使用最大的现有关键字提取数据集进行评估

只使用未标注的训练语料库进行模型学习

下面我们来看下评估结果：将所有method分为了三类，各自在之前设置的3个task上performance如下表

X-Class: 仅用Label Names便实现文本分类 (NAACL’20)

输入:一组文档+一些监督+一组目标标签

（1）同一语料库可以进行不同的分类

（2）标签集可以是分层的

目标：构建一个可以将一个标签分配给(不可见的)文档的文本分类器

对于现有监督条件下的文本分类，具有不同类别的监督形式

全监督：受监督的:训练集中的所有文档都被标注

半监督：训练集的一个子集被标注

通过弱监督实现文本分类：只想分类，不需要label

不同类型的弱监督：

Minimally Supervised（存在一些label）：

（1）K annotated documents per class

（2）Similar to few-shot learning

Seed Word-driven

（1）K seed words per class

Extremely Weak Supervision

（1）Surface texts of class names only

X-Class:文本分类中面临的挑战

同一语料库可以进行不同的分类（因为分类的标准可以是不一样的）

我们在做什么分类，如何把分类的目标结合到 Representation learning之中？

对于X-Class的概述：核心流程

同样的的文本面对不同的分类目标时所产生的representation是不一样的

再将类的名字和Doc放在一起做聚类，尽量保证每个class里面只有一个class name

那么要如何做好Representation learning呢？

Class Representations

比如，我们把所有在文章中出现过的sports这个词找出来，通过一个简单的average得到一个static representation，然后更好的扩展理解这个class，比如和sports相关的win、lose，进行扩展——得到class representation，得到几十个词来理解这个class。可以设置个词数的上限。

l document Representations

Attention机制:从简单平均到加权平均

为了验证上述方法的有效性，我们做了7个

benchmark datasets

覆盖各种领域和分类标准

有Balanced 也有unbalanced

评估结果

同时报告了micro-/macro-F1 scores

WeSTClass & ConWea在每个class上至少有3个seed word

Supervised提供了一种上界

X-class从整个结果上来看是可以做到最好的，只有在两个dataset上以1%的劣势输给了两个不同的baseline，其中ConWea还是使用seed words的。

通过可视化重新回顾了一下：

当我们有不同的class，作为Supervision，学到的representation是不一样的，用Topic还是不错的，但是location等做的还不是那么好

当标签名在输入语料库中只出现一次时：比较不同方法的performance：

用LOTClass方法性能下降的极其厉害，因为它较为依赖label name在不同文章的上下文来扩展对于class的理解；如果label name只出现一次则会损害上下文的多样性，从而伤害这个方法的有效性。而X-Class则没有太对的对这个上下文多样性的，只要这个预训练模型能针对这个label name给出比较合理的representation即可，出现一次就可以满足这个要求。

自然从上往下拓展实验：从coarse到fine grained分类方法：

总结

主要讲了一下极弱监督，讲了Phrase Mining和text Classification两个例子。

我们可以利用海量文本数据的冗余性找到一些pattern，以此来减少人力的标注成本，使得整个过程更加自动化。

提

醒

论文链接：

https://dl.acm.org/doi/abs/10.1145/3447548.3467397

https://aclanthology.org/2021.naacl-main.242/

点击“阅读原文”，即可观看本场回放

整理：林则

审核：商静波

直播预告

3月9日 14:00-17:40 NeurIPS专场六

11位华人学者带来分享

记得关注直播信息哦！

3月9日 19:30-20:30 青年科学家-23

期待马学喆老师为大家带来精彩分享～

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

2019年，清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”，希望用辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

AI TIME是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家与爱好者，打造成为全球AI交流与知识分享的聚集地。

我知道你

在看

哦

点击阅读原文查看回放！

干货！如何通过极弱监督来完成海量文本的结构化

大数据系统相关栏目本月热门文章