科技文献是科技信息工作起源和发展的基础。传统的挖掘多是采用文献计量学方法,基于关键词、作者、作者机构、发表时间、分类号、出版物等结构化元数据,对文献集合的分布情况和发展趋势进行分析,取得了一定的成效,但这些结构化元数据承载的内容特征有限,在一定程度上降低了科技文献大数据深度支撑科研创新和科技管理决策的效果。随着自然语言处理技术的进步,基于内容的科技文献大数据挖掘有了充足的发展。
对科技文献大数据的传统应用是提供搜索服务,这是当前甚至是以后相当长时间内科技文献的主要作用;实现基于内容的科技文献可以将搜索服务的内容单元进一步细化,从篇细化到段;另一方面优化了搜索的形式,提升搜索效果。
科技文献蕴含的价值巨大,科技文献大数据挖掘应用的终极目标是支撑科研创新。科技文献作为表达科学机理、介绍科研思路、展示科研结果的载体,对其进行深度挖掘,开发增值应用,为科学知识传承、科研方向选择、技术路径确定等提供高效支撑。
对科技文献的全文内容进行挖掘存在以下制约:
1、数据层面:与文献中摘要对比,科技文献全文内容获取难度较大;
2、技术层面:科技文献内容全部大部分都是PDF格式,将PDF转化为计算机可读的文本格式耗时耗力,转化得到的文本都被硬回车截断,需要进一步处理;
3、法律层面:部门出版商是否允许对全文进行挖掘。
运用现在高速发展的人工智能技术,自然语言处理技术对科技文献大数据进行高效的管理与计算:
自然语言处理技术的应用,使得可以对科技文献内容进行深层次解析,将处理粒度从以篇为单位细化到章节、段落或句子; 知识图谱技术的发展既为科技文献内容的科学组织提供了新手段,也为科技文献内容挖掘的成果输出提供了新形态。
国内外发展现状,基于内容的科技文献大数据挖掘首先要解决的是:
(1)数据来源问题:DOAJ 提供开放获取期刊数据,ARXIV 等预印本平台提供元数据收割接口,USPTO 等专利数据可免费获取,微软学术、Semantic Scholar 等学术搜索引擎也提供元数据数据包。科技文献数据平台 Dimensions 大量采用开放数据与开放标准,集成了论文、专利、基金项目、临床实验数据等一批开放数据。
(2)内容碎片化问题:将科技文献转化为可计算的形式。1、元数据抽取,从PDF中抽取标题、作者、关键词、摘要、参考文献等信息;2、关键内容抽取,抽取研究问题,领域、方法、数据集、实验工具等关键内容。
典型代表:学术搜索引擎Semantinc Scholar
领域知识图谱是提升科技文献大数据效能的重要手段
知识图谱作为一种新型知识组织方式,采用的三元组描述形式简单统一、语义表达能力丰富,基于图结构的表示方式对计算机友好,支持高效计算与推理,正在成为科技文献大数据融合组织和挖掘应用的重要支撑手段;还是整合科技文献的重要工具。
科技信息工作要实现对科研创新的高效支撑,必须要对科技文献进行深度的价值开发。



