栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大宗农产品交易知识图谱推理引擎的构建--需求分析

大宗农产品交易知识图谱推理引擎的构建--需求分析

大宗农产品交易知识图谱推理引擎的构建 一、项目概述

​ 进入信息时代,全球产生的数据量爆炸式增长,一方面数据产生的方式发生改变,由手工产生越来越多地转为自动化生成,另一方面,人类的活动也越来越依赖数据;民以食为天,粮食方面的信息数据对人类来说至关重要,而当前繁杂的数据已经超出了人工处理的范围,这就对数据采集和数据处理提出了新的要求。

知识图谱是将大量收集的数据整理成机器能处理的知识库,并实现可视化的展示。知识图谱本质上是一种大规模的语义网络,其主要目的是对真实世界里的实体或概念之间的关联关系进行描述;构造知识图谱的步骤包括数据采集、知识抽取、知识融合、知识加工、知识更新等过程

​ 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,将文本数据解析为计算机能处理的对象是其中一个重要部分。本课题以自动化采集新闻为基础,使用基于深度学习的自然语言处理方法,分析文本语料,构建知识图谱,得到结构化的粮食数据,供人们参考。

​ 本项目为基于 NLP 自然语言处理的量化金融知识图谱构建与推理引擎设计。基于 NLP 自然语言处理技术,并融合现有知识图谱进行知识推理。本课题以自动化采集新闻为基础,使用基于深度学习的自然语言处理方法,分析文本语料,构建知识图谱,并结合现有知识图谱完成粮食领域的金融事件推理引擎设计。

二、需求分析 2.1 概述

​ 本项目需要从CNN、BBC等新闻网站中自动爬取大豆、玉米以及小麦等粮食作物的相关信息,主要包括作物主要产地的气候条件变化及自然灾害、出口产量、运输渠道变化、进出口关税政策等会对粮食作物及其金融衍生品价格产生影响的信息。其次,作为面向粮食及其衍生品的金融领域知识图谱,应该具有知识结构复杂、知识质量要求高、知识粒度细等特点,并以此为基础完成粮食及其金融衍生品大致价格走向的推理。

​ 该项目主要由数据获取模块,数据处理模块,知识图谱模块,推理模块组成。


2.2 流程图

2.3 数据获取模块

​ 通过网站的数据接口进行新闻的定时爬取,并将爬取下来的原始数据进行处理后存储入数据库。

2.4 数据处理模块

​ 对数据库中的数据进行文本摘要,以便于扩展知识图谱,对进行摘要后的新闻文本进行实体识别,帮组我们进行实体关系的建立。

2.5 构建图谱模块

​ 对识别出的实体关系进行链接,将链接后的关系存入数据库以形成知识图谱。

2.6 推理模块

​ 将知识图谱中的某个结点作为一个起点,给它不同的事件,在图谱中推理出一条符合实际情况的路径。

2.7 用例图

​ 该项目的主要目的是展示知识图谱的推理结果,故没有设置普通用户的用例。

2.8 数据库设计

新闻表

字段属性描述
idobject_id相当于主键
titlestring新闻标题
authorstring新闻作者/编者
publish_datedate发布时间
contentstring新闻正文内容
locationstring新闻事件的发生地点

去重表

字段属性描述
idobject_id相当于主键
news_idstring已爬取新闻的ID

​ 本项目以 mongodb 作为数据库,mongodb 方便存储半结构化数据。因为本项目研究的是大宗农产品交易,故将每一种农产品,如大豆、小麦和玉米各自作为一张表,将该关键词对应下的文章拆分为不同的字段存入表中,与此同时还需要建一张去重表,用来储存已经爬取过的新闻ID,防止重复爬取。

因为本项目研究的是大宗农产品交易,故将每一种农产品,如大豆、小麦和玉米各自作为一张表,将该关键词对应下的文章拆分为不同的字段存入表中,与此同时还需要建一张去重表,用来储存已经爬取过的新闻ID,防止重复爬取。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/681552.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号