基于深度学习的科学数据集检索方法研究

罗鹏程; 王继民; 王世奇; 郭鑫; 高正; 赵常煜

首页> 中文期刊> 《情报理论与实践》 >基于深度学习的科学数据集检索方法研究

基于深度学习的科学数据集检索方法研究

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

[目的/意义]为了支撑数据驱动研究范式，促进科学数据的共享与利用，提高数据仓储和发现平台中数据集检索功能的效果。[方法/过程]将科学数据集检索过程分为候选数据集检索和候选数据集重排序两个主要阶段：在第一阶段，将BM25模型与基于SimCSE的稠密检索模型结合，获取潜在的相关数据集；在第二阶段，基于BERT排序模型对候选数据集的相关性进行评分，据此优化检索结果排序。[结果/结论]从国内外13个人文社科相关的科学数据仓储平台采集约10万数据集的元数据进行检索实验和效果评价，结果表明：提出的检索模型效果最优，其NDCG@10的得分分别高于基准的向量空间和BM25模型23.6和11.7个百分点；对各模型检索结果分析发现，该模型相比基准模型具有更强的语义检索能力；此外，还对模型权重设置进行分析，可为实践应用中的参数设置提供参考。[局限]仅在英文人文社科数据集上进行模型效果验证。

著录项

来源
《情报理论与实践》 |2022年第7期|49-56|共8页
作者
罗鹏程; 王继民; 王世奇; 郭鑫; 高正; 赵常煜;
展开▼
作者单位

1. 北京大学信息管理系 2. 北京大学图书馆 3. 延世大学融合医学系;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;文献检索;
关键词
信息检索; 数据集搜索; 科学数据; 神经网络; 学习排序; BERT; SimCSE;

相似文献

中文文献
外文文献
专利

1. 基于深度学习的布料图像检索方法研究 [J] . 于振中 ,秦岭 . 科技与创新 . 2021,第21期
2. 基于深度学习的草图检索方法研究进展 [J] . 姬子恒 ,王斌 . 计算机工程与科学 . 2021,第12期
3. 基于深度学习的视频检索方法研究 [J] . 薛继伟 ,刘济尘 ,刘显德 . 计算机与数字工程 . 2021,第4期
4. 基于深度学习的数字图书馆跨媒体语义检索方法研究 [J] . 彭欣 . 情报探索 . 2018,第2期
5. 科学家研究发现基于深度学习的全基因组选择新方法 [J] . . 农业科技与信息 . 2023,第3期
6. RDF在科学数据集成检索中的应用 [C] . Li Chengzan ,李成赞 ,Shen Zhihong . 第十一届科学数据库与信息技术学术研讨会 . 2012
7. 基于本体的科学数据集成与共享方法研究 [A] . 吕岳东 . 2010

基于深度学习的科学数据集检索方法研究

摘要

著录项

相似文献

相关主题

期刊订阅