国内外科技资源学科交叉信息检索查询的研究进展研究

xzdxmynet 发布于 2024-04-26 阅读(93)

概括

本文介绍了国内外科技资源跨学科信息检索与查询的研究进展,重点研究了科技资源跨媒体信息的挖掘和演化规律,以及跨媒体信息检索。 、科技资源的查询和可视化,并讨论了未来的工作。 外表。

关键词

科技大数据; 跨学科; 搜索查询

0 前言

科技资源信息检索是科研人员了解不同研究领域学术进展的重要途径之一。 科学技术的不断发展促进了科技资源信息检索系统的完善。 目前已建成各类科技资源库,如CNKI、万方、维普等。但科研人员在检索、查询时仍需自行判断。 资源类型,然后进行相应的查询,而多个平台的查询结果往往会出现冗余,需要用户进一步分析判断,在一定程度上消耗能源、降低效率。 科技资源信息具有区别于其他大数据的特点。 例如,可以从论文数据、基金项目数据、信息数据中找到关键词与学科的对应关系,也可以找到论文与基金项目的对应关系。 越来越多的科学研究工作不再局限于单一学科。 科学研究工作呈现出交叉融合的趋势。 不同学科的交叉延伸出更多的研究热点和研究方向。 这些研究热点从出现到成熟,再到延伸出新的研究课题,整个生命周期对于科研人员开展学术研究具有很大的参考价值。 这也是体现科技资源特色的一种方式。

对于一个系统平台来说,数据存储和高效检索是必备的能力。 科技资源信息的存储和检索不同于传统的存储和检索。 多源异构学者数据可能存在局部稀疏、数据冗余和模糊性。 以及其他问题。 目前,在结构化科技文本数据的检索和查询方面已经取得了比较成熟的成果。 这是因为结构化文本数据的特征提取相对方便,而通过爬虫获得的半结构化数据,例如论文中的摘要信息、学者主页的个人简介等,则需要使用一些信息提取方法来获取特征。 这类文本一般采用向量空间模型、文档主题生成模型或者基于深度学习的表示方法。 在实际场景中,面对大规模文本数据,尤其是跨学科背景等复杂语境时,需要对模型进行语义分析或趋势分析的优化。 另外,爬虫获取的数据既包括结构化数据,也包括非结构化数据,这对数据库提出了一定的要求。 常见的NoSQL数据库等,可以提供分布式搜索能力。 此外,科技资源还包括科研人员的研究热点,也代表了学科热点和研究课题。 目前大部分研究都是关于用户兴趣挖掘。 用户兴趣挖掘与科研人员的研究兴趣有相似之处。 他们都试图从用户相关文档中构建肖像信息。 提取当前工作中的研究兴趣的方法是从学者自己发表的论文和作品中提取信息,并使用摘要主题模型来获得结果。 近年来的研究已向多个方向扩展。 例如,一些信息可以用来发现用户的兴趣。 基于情境特征和行为特征,可以分析社交媒体上政党候选人的信息,并建立模型来预测用户的政治偏好。 。

1 科技资源跨媒体信息挖掘及演化规律分析

跨媒体科技资源大数据的信息挖掘是基于从科技大数据中提取的特征。 在分析特征的过程中,可以清晰地发现关键词与学科、研究主题之间复杂且相对密切的关系。 对于发现科技资源之间的跨学科关系具有重要的参考意义。 在爬取的科技资源信息中,可以看到很多属性信息。 例如,论文数据包括论文标题、论文作者、论文发表机构、关键词、摘要、发表论文的会议或期刊、论文发表时间、经费信息、论文所属学科类别及论文被引用次数等; 基金项目数据包括基金项目编号、名称、基金项目负责人、机构、基金项目获得资助金额、基金项目类型、基金项目开始时间和结束时间等; 科技信息数据包括信息标题、信息编辑者、发布时间、原文链接、正文、信息图片、关键词等。 因此,一个科技资源理论上可以对应多个学科下的多个研究课题。 当然,数据集中也有一些文献集中于单一领域或研究主题。 在传统的检索查询系统中,对于这部分文献已经较好地实现了检索服务,因此可以进行多个领域或多研究主题的文献检索,即跨学科领域下的资源查询和分析。

1.1 科技资源信息跨学科关系的发现

根据获取的数据,采用分词、特征提取等技术,获得权重较高的关键词。 通过观察关键词与学科的对应关系,可以发现某个关键词可能对应多个学科,而学科又包含研究主题。 这些学科下的研究主题之间存在一定的交叉关系,可以作为查询检索的起点,可以进一步研究基于跨学科关系的检索查询。 在数据处理阶段,从文本数据中获取论文、基金项目、信息等信息。 由于需要了解学科和研究课题之间的完整关系,因此需要整合结果,从不同的资源维度对学科和研究课题进行评估。 目的。 对于学科类别的判断,我们主要参考现有知识库的学科分类方法和《中国图书馆分类》中的图书分类号,以学科分类号作为学科的唯一标识。 系统数据库中主题分类号的存储标识示例如表1所示。

表1 数据库中学科分类号示例

网络信息资源检索论文_检索论文资源网络信息怎么写_检索论文资源网络信息的方法

1.2 科技资源学科和研究主题演变预测

为了研究跨学科学科和研究课题的演化,可以利用LSTM网络处理时间序列数据的优势,引入卷积神经网络的卷积层和池化层提取研究,用于学科和研究课题的演化预测(TPTF)科技资源。 与现场结果相关的数据信息,利用冗余数据较少的特征信息作为LSTM网络的输入数据,获得研究主题下数据序列的关系,进而获得研究主题演化的预测结果。

对于卷积层,在处理图像数据时,卷积层一般采用二维卷积核; 对于时间序列数据,卷积层可以使用一维卷积核来学习序列中的特征。 这个卷积核在训练中充当过滤器的作用。 在许多使用卷积神经网络的架构中,层深度很大,即有很多滤波器,因此在每次卷积之后,使用池化层来减少序列长度。 一维卷积核中,通过设置卷积核的大小及其在序列上运动的步长来完成对时间序列数据的卷积运算。 池化层完成下采样以减小特征尺寸,然后将特征转换为后续网络的输入。 TPTF模型的网络结构图如图1所示。

图1 TPTF模型网络结构图

通过构建上述面向科技资源的学科和研究主题演化预测算法网络结构,结合LSTM网络,引入卷积层,每个LSTM层的前一个LSTM层需要返回一个序列。 需要将其调整为 True。 为了提高准确率,添加了损失、卷积和池化来构建更复杂的神经网络。 经过这些步骤,最终得到输出结果。 该预测结果将作为学科和研究主题的检索和排序的因素,影响系统最终返回的结果。

2 科技资源跨媒体信息检索、查询与可视化

科技资源跨媒体信息检索查询系统通常具有以下四个功能。

(1)数据采集功能。 为了获取论文、基金项目、信息等多源异构数据,需要对采集到的数据进行预处理、去重等操作,解析出有价值的字段并保存到数据库中。 这些数据是其他模块提供服务的基础。

(2)主题关系分析功能。 实现科技大数据文本信息和图像信息的特征提取,通过构建学科和研究主题的整体体系,实现分析判断跨学科关系的功能。

(3)演化规律分析功能。 结合各学科成果和科研课题在科技大数据中的受欢迎程度,计算出各项指标,推导出近年来的变化,帮助科研人员了解交叉学科的热点和发展方向。

(4)搜索和可视化功能。 实现获取的科技大数据展示功能。 显示内容除了文本数据外,还包括图像数据; 除了显示现有信息外,还有汇总信息。 通过友好的可视化界面,用户可以高效地获取信息。

如图2所示,科技资源跨媒体信息检索查询系统主要包括三个功能:科技资源跨媒体信息特征提取模块、科技资源跨媒体信息挖掘及演化规律分析模块、科技资源跨媒体信息检索查询与可视化模块。 模块。

检索论文资源网络信息的方法_检索论文资源网络信息怎么写_网络信息资源检索论文

图2 科技资源跨媒体信息分布式检索查询系统架构

为了实现文本数据、图像数据等科技资源跨媒体信息的检索和查询,可以利用分布式索引技术,结合所提供的持久存储、统计和实时搜索功能,设计并实现一个面向服务的分布式检索系统框架。 各功能模块松散耦合,有效拆分各场景应用功能,实现敏捷开发和部署。 这样的设计可以使各个子模块的内聚性更强,即它们的依赖耦合被削弱; 同时,可以将与学科分类和研究主题相关的科技资源之间的关联性应用于数据检索服务,实现海量数据的快速检索。 在查询结果可视化方面,我们梳理了各种场景下的用户使用逻辑,有针对性地设计系统界面,考虑异常情况,为用户提供清晰友好的可视化界面。

2.1 基于主题关系和影响力的科技资源跨媒体信息检索查询

为了达到有效查询跨学科成果的目的,在查询论文、基金、信息等科技资源信息的过程中,系统根据输入的关键词判断其可能所属的学科。 由于查询交叉学科结果需要选择两个学科,因此还需要重新选择所需的交叉学科科目。 因此,可以引入研究主题影响力指数的概念,对影响力指数进行加权并作为查询依据,从而根据趋势预测结果和影响力指数返回得分前五的学科。 基于主题关系和影响力的搜索查询流程如图3所示。

检索论文资源网络信息怎么写_检索论文资源网络信息的方法_网络信息资源检索论文

图3 基于主题关系和影响力的搜索查询

研究话题影响力指数的创新思路来自赫芬达尔-赫希曼指数(简称赫芬达尔指数),该指数通常用于计算产业集中度,是政府管理部门常用的综合指数。 其计算方法是计算某一行业市场中各竞争主体的资产百分比的平方和,以查看市场份额的变化。 一般来说,如果某个市场上的公司太多,赫芬达尔指数的计算方法是选择该行业排名前50的公司,将每家公司的市场份额进行平方,然后将它们全部相加。 赫芬达尔指数的计算步骤分为三个步骤。 首先,获取各实体的市场份额; 然后对这些值求平方; 最后总结这些平方值。 科技资源中的跨媒体信息数据量巨大。 传统数据库虽然可以定制索引等,但在系统投入使用时,仍然会给用户带来缓慢的感觉。 为了提高查询检索的效率,采用分布式检索。 在分发方面,避免了分发的复杂性。 文档存储在不同的分片中。 这些分片被划分为一个或多个节点,并且分片按照集群中的节点均匀分布,因此系统在检索过程中可以实现负载均衡。 系统充分考虑数据丢失问题,通过复制分片生成副本分片。 这样可以尽可能避免数据丢失,又不会造成过多的数据冗余,而且系统还可以进行扩展。

在集群中,当客户端发起请求时,请求可以发送到集群中的任意节点,并且每个节点都知道任意文档的位置,因此接收到请求的节点可以将请求转发到对应的位置。 数据被收集然后返回给客户端。 处理来自客户端的请求的节点成为协调节点。 传统的结构化数据库,例如MySQL,在查询数据库中的数据是否匹配时只能返回是或否的结果。 全文搜索引擎不仅可以匹配数据,还可以实现相关性排序。 这种排序的实现方式是Rating,每个文档都有相应的评分,评分越高,相关性越高。 查询后返回的分数是一个正浮点数,用于衡量数据与查询的匹配程度。

2.2 科技资源跨媒体信息检索查询结果可视化

可视化组件是科技资源检索查询系统的重要组成部分。 有效合理的交互可以使用户更好地使用系统。 一般来说,可视化技术通常用于将检索查询返回的科技资源数据转化为直观的图形图像信息。 查询结果的可视化操作包括跨学科分析和演化规则可视化。 在展示学科和研究主题的趋势时,以时间为单位呈现给用户,让用户直接观察和分析。 在某些场景下,静态的界面不足以展示信息,交互性弱也会给用户带来对系统的刻板印象。 因此,开发科技资源检索查询系统时需要充分考虑交互性。

交叉学科是科技资源信息数据的重要组成部分。 当今的研究领域越来越重视不同学科领域的整合。 在这个融合过程中,新的研究课题将会不断出现。 对于某一主题,可能有几十个交叉的主题。 如果只以列表的形式展示主题下的信息,会显得单调,而且无法提取关键点。 因此,增加了一个动态的、交互式的主题交叉比例组件来进行信息的呈现。 在分析跨学科学科占比的可视化组件中,当用户用鼠标点击某一学科时,该学科在饼图中的部分会被高亮显示,指示用户当前正在查看哪个学科,并呈现其在学科中所占的比例。一种直观的方式。 相比之下,可视化组件的显示效果如图4所示。在不同的应用场景下,用户的使用逻辑是不同的,对于某些出现频率较高的情况,需要细化每个流程并进行细节处理。 例如,在分析跨学科趋势的可视化组件中,当鼠标在图表上滑动时,系统会根据鼠标停留的时间间隔,定量展示各个跨学科下的资源。 对于跨学科趋势分析,需要同时实现跨学科趋势图与研究主题趋势图的联动。

网络信息资源检索论文_检索论文资源网络信息怎么写_检索论文资源网络信息的方法

图4 跨学科比例交互图

对于跨学科可视化问题,我们不仅考虑跨学科关系,还添加影响力指数和趋势预测结果作为因子,最终得到能够有效表达科技资源学科发展​​的结果。 因此,在实现过程中,需要把握前端设计的诸多细节,增强界面的交互性,使系统不仅能够快速检索,而且能够通过友好的交互,将清晰的结果生动地展示给用户。

3 结论

随着科技资源呈现交叉整合趋势,学科交叉成为热点。 不同学科的交叉延伸了更多的研究热点和研究方向。 科技资源跨学科信息的检索与查询也成为系统发展的重要方向。 虽然跨学科技术检索查询系统的架构已经初步形成,但仍需要迭代优化,细分异常场景,完善异常情况的逻辑,或者添加交互来提升用户体验。 另外,在可视化方面,一些交互逻辑需要优化,界面的细节也可以优化。

(参考文献略)

网络信息资源检索论文_检索论文资源网络信息的方法_检索论文资源网络信息怎么写

选自《中国人工智能学会通讯》

2021年第11卷第4期

​科技大数据理论与技术专辑

标签:  信息检索 科技 大数据 用户研究 交叉分析 

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。