首页> 中文学位 >基于垂直搜索的查询需求识别系统的设计与实现
【6h】

基于垂直搜索的查询需求识别系统的设计与实现

代理获取

目录

声明

致谢

摘要

1 引言

1.1 论文背景

1.2国内外相关现状

1.2.1国外搜索引擎

1.2.2国内搜索引擎

1.3论文主要工作

1.4论文组织结构

1.5本章小结

2相关理论与关键技术

2.1 Hadoop

2.1.1MapReduce

2.1.2 HDFS

2.1.3 Hadoop Streaming

2.2相似度算法

2.2.1词向量(Word2vec)

2.2.2文档主题模型(LDA)

2.2.3交集比并集(Jaccard)

2.2.4余弦相似度(Consin)

2.2.5最长公共子序列和最长公共子串

2.3 hyperopt模型调参

2.4本章小结

3 查询需求识别系统需求分析

3.1系统描述

3.2系统功能性需求分析

3.2.1用户管理模块

3.2.2需求泛化模块

3.2.3样本标注评估模块

3.2.4资源管理模块

3.3系统非功能性需求分析

3.3.2可扩展性

3.3.3稳定性

3.4本章小结

4系统总体设计

4.1 系统总体结构设计

4.2系统功能设计

4.2.1用户管理模块

4.2.2需求泛化模块

4.2.3样本标注评估模块

4.2.4资源管理模块

4.3数据库设计

4.3.1数据库表关系

4.3.2用户管理子模块表结构

4.3.3需求泛化模块表结构

4.3.4样本标注评估模块表结构

4.3.5资源管理模块表结构

4.4本章小结

5系统详细设计实现

5.1 样本抽取

5.1.1数据提取

5.1.2属性过滤

5.1.3实体泛化

5.1.4整体流程

5.2模型训练

5.2.1样本数据预处理

5.2.2模型特征提取

5.2.3模型算法

5.2.4模型选择评估

5.2.5模型调优

5.2.6整体流程

5.3 查询需求识别系统设计与实现

5.3.1 用户管理模块的设计与实现

5.3.2需求泛化模块的设计与实现

5.3.3样本标注评估模块的设计与实现

5.3.4资源管理模块的设计与实现

5.4本章小结

6系统测试

6.1 系统测试内容及环境

6.1.1系统测试内容

6.1.2系统测试环境

6.2样本抽取和模型测试

6.2.1样本抽取测试

6.2.2模型测试

6.3用户管理模块测试

6.4需求泛化模块测试

6.5样本标注评估模块测试

6.6资源管理模块测试

6.7测试结论

6.8上线效果图

6.9本章小结

7总结与展望

7.1 总结

7.2展望

参考文献

作者简历及攻读硕士/博士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

该项目来源于百度垂直行业搜索产品线的实际项目。随着智能手机的普及,越来越多的用户开始使用手机端进行检索。由于手机大小的限制,一个屏幕可以呈现三条左右的返回结果,因此在前三条结果中返回用户需要的信息成为手机端检索的新挑战。当前的检索策略是由通用搜索对结果进行统一整合,信息划分粒度较粗,不能满足用户的垂类(某一特定行业、特定领域,例如汽车,医疗等垂类)细分需求。为了提升用户在手机端的检索体验,项目组决定开发一个用户需求识别的内部系统来对用户需求进行离线挖掘,方便产品人员和研发人员对垂类资源的管理和监控。
  本文首先阐述了项目的背景以及国内外现状,对整个系统进行功能性和非功能性需求分析。根据需求分析设计系统架构、划分系统功能模块、设计系统数据库。接着对系统进行详细设计与实现。作者独立完成了样本抽取和模型训练这两个底层模块,以及系统的用户管理、样本标注评估和需求泛化模块的开发工作,参与完成了资源管理模块的部分开发工作。在系统设计和实现过程中,调研分类模型、用户行为评估和数据融合三种技术方案对样本数据的提取率,从半结构化数据中提取用户需求样本;评估常用二分类算法在当前业务场景下的效果,选择xgboost算法训练模型对需求进行泛化,并从数据、特征、参数三个角度对模型进行调优;对用户进行角色和权限划分,通过分配角色和权限,实现系统对用户横向和纵向的双向管理;对样本的标注功能和对数据的评估功能进行可视化处理,节省产品人员操作数据的时间,提高工作效率;需求泛化模块实现了对样本提取和泛化模型的封装,降低系统的使用门槛,使非机器学习方向的研发人员能通过需求泛化模块参与需求离线挖掘工作;使用Echars图标控件对资源线上情况进行展示,实现对垂类中资源的管理与监控。对系统进行功能测试,保障了系统的正确运行。
  目前论文所设计的查询需求识别系统已经上线投入使用,针对不同垂类的数据合格率均达到90%以上,系统运行正常、功能稳定,达到了预期目标。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号