栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

面向特定问题的开源算法管理和推荐(一) | 2021SC@SDUSC

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

面向特定问题的开源算法管理和推荐(一) | 2021SC@SDUSC

2021SC@SDUSC

系列文章目录

(一)组内分工情况

文章目录

系列文章目录

一.课题总体概述

二.课题总体任务

三.组内分工情况

四.核心代码分析情况

五.编程环境配置


一.课题总体概述

题目:面向特定问题的开源算法管理和推荐

问题描述:

输入:一个文本库,算法描述(主要是中文)

输出:1)对于每个文本x,抽取关键词作为算法的技术特征

           2)同时在以此关键词在数据集中进行检索时,能够反映本文x的主旨

约束条件:

  • 抽取出的关键词与文本内容的相关性(关键词对于当前文本的代表性)
  • 给出抽取到的关键词合适的次序
  • 抽取出的关键词在数据集中的特异性(关键词在当前本文的重要性,相对于数据集中其他文本的显著性)

意义:信息抽取,信息检索

二.课题总体任务

任务一:数据集爬取与统计

需要爬取数据,并填写下列表格

任务二:不同模型性能对比分析

需要对不同模型进行对比分析,并填写下表

实验中所使用的对比模型如下:

PositionRank:该模型是一个用于从学术文档中提取关键词的无监督模型,论文核心就是在词的权值迭代的时候融入位置信息,融入方式有两种,一种是该词出现的所有位置(Fullmode)都融入,另外一种是该词出现的第一个位置(FP)进行融入

Embedrank:先利用POS tags抽取候选短语,然后计算候选短语的embedding和文章embedding的cosine similarity,利用相似度将候选短语排序,得到关键的短语。

KPE:该模型在多部分图结构中对主题信息进行编码,模型在单个图中表示候选关键词和主题,并利用它们的相互加强关系来提高候选排名,引入了一种新机制,将关键词选择偏好纳入模型。

ELSKE:ELSKE可以有效地提取一组候选关键词,而无需依赖计算成本更高的技术,例如词性标注。它根据PF-IDF 方案对这些候选关键词进行评分和排名,PF-IDF 方案是流行的 TF-IDF方案的调整版本,适用于分析较大的文档或文档集合。

三.组内分工情况

任务一的爬取数据的程序大家都要负责,任务二的模型每人负责一个,到课程后期大家合作对这些模型进行对比。

我负责KPE模型,参考论文与代码如下:

论文:Unsupervised Keyphrase Extraction with Multipartite Graphs

代码:https://github.com/boudinfl/pke

四.核心代码分析情况

任务一:爬虫部分;数据处理部分

任务二:KPE模型重要核心部分

五.编程环境配置

1.win10

2.Anaconda3

3.PyCharm

4.为方便实验室技术讨论和结果复用,根据语义计算实验室实验环境要求进行配置

  1. Python及其第三方库

    1. Python3.7.6

    2. 第三方库如

      1. Numpy1.18.1 支持python3.5-3.8

      2. Matplotlib3.1.3 支持python3.6-3.8

      3. Scipy1.4.1 支持python3.5-3.8

      4. Keras2.3.1 支持python3.5-3.8

      5. Scikit_learn0.22.1 支持python3.5-3.8

      6. Scikit_image0.16.2 支持python3.6-3.8

  2. 深度学习框架

    1. 推荐Pytorch 1.1.0支持cpu/gpu

    2. 或tensorflow 1.14 支持python3.5-3.7,python2.7;支持cpu/gpu

  3. Cuda (gpu版需要)

    1. cuda 10.1

    2. Cudnn 7.6.5 for cuda 10.1(与cuda版本对应)

其他所需库: six spacy nltk networkx unidecode future joblib pymysql bs4  selenium  time  pandas requests re collections等

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/275406.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号