使用NLTK,尤其是有关信息提取的第7章。
您说您想提取含义,并且有用于语义分析的模块,但是我认为IE就是您所需要的-老实说,NLP计算机目前只能处理的领域之一。
请参阅“命名实体识别”子主题(将Manny Ramerez作为一个人,Dodgers作为一个体育组织,以及Houston
Astros作为另一个体育组织,或者其他适合您的领域的子主题)和“关系提取”子主题,第7.5和7.6节。一旦安装了NLTK,便可以插入一个NER分块器。从他们的示例中,提取一个地缘政治实体(GPE)和一个人:
>>> sent = nltk.corpus.treebank.tagged_sents()[22]>>> print nltk.ne_chunk(sent) (S The/DT (GPE U.S./NNP) is/VBZ one/CD ... according/VBG to/TO (PERSON Brooke/NNP T./NNP Mossman/NNP) ...)
请注意,您仍然需要了解令牌化和标记(如前几章所述),以使这些IE任务的文本格式正确。



