您现在的位置：首页> 研究主题> 分词算法

分词算法

分词算法的相关文献在1994年到2022年内共计86篇，主要集中在自动化技术、计算机技术、信息与知识传播、语言学等领域，其中期刊论文63篇、会议论文10篇、专利文献52373篇；相关期刊50种，包括警察技术、现代图书情报技术、电脑知识与技术等；相关会议10种，包括2011年江苏省人工智能学术会议、2008年电力行业信息化年会、第十一届全国民族语言文字信息学术研讨会等；分词算法的相关文献由183位作者贡献，包括金平艳、严柯、何国斌等。

分词算法—发文量

期刊论文>

论文：63篇占比：0.12%

会议论文>

论文：10篇占比：0.02%

专利文献>

论文：52373篇占比：99.86%

总计：52446篇

分词算法—发文趋势图

分词算法
-研究学者

金平艳
严柯
何国斌
刘志杰
刘超
唐琳
张海营
张玉敏
曹勇刚
曹羽中
李晓林
段艳会
胡成华
范渊
谈修竹
谢婷婷
赵晶璐
郭崇慧
金茂忠
陈静锋
高强
黄爽
万怀宇
严云洋
亢临生
付嘉渝
付艳梅
代培
何莘
何霞
何静
余刚
俞春强
傅士光
冀单单
冯二媛
冯杰
冯梅
冯锐
冷静
刘云玉
刘延吉
刘新天
刘海清
刘海燕
刘清星
刘燕
刘迁
刘颖华
原晋鹏

分词算法
-相关主题

分词算法
-相关期刊

分词算法
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2022
(2)
2020
(3)
2019
(2)
2018
(2)
2017
(5)
2016
(1)
2015
(5)
2014
(3)
2013
(8)
2012
(4)
2011
(2)
2010
(8)
2009
(2)
2008
(1)
2007
(4)
2006
(6)
2005
(2)
2004
(1)
2003
(1)
2002
(1)
2000
(1)
1998
(1)
1997
(1)
1994
(1)

期刊

收录数据库

作者

金平艳
(3)
严柯
(2)
何国斌
(2)
刘志杰
(2)
刘超
(2)
唐琳
(2)
张海营
(2)
张玉敏
(2)
曹勇刚
(2)
曹羽中
(2)
李晓林
(2)
段艳会
(2)
胡成华
(2)
范渊
(2)
谈修竹
(2)
谢婷婷
(2)
赵晶璐
(2)
郭崇慧
(2)
金茂忠
(2)
陈静锋
(2)
高强
(2)
黄爽
(2)
万怀宇
(1)
严云洋
(1)
亢临生
(1)
付嘉渝
(1)
付艳梅
(1)
代培
(1)
何莘
(1)
何霞
(1)
何静
(1)
余刚
(1)
俞春强
(1)
傅士光
(1)
冀单单
(1)
冯二媛
(1)
冯杰
(1)
冯梅
(1)
冯锐
(1)
冷静
(1)
刘云玉
(1)
刘延吉
(1)
刘新天
(1)
刘海清
(1)
刘海燕
(1)
刘清星
(1)
刘燕
(1)
刘迁
(1)
刘颖华
(1)
原晋鹏
(1)

关键词

申请/权力人

;

1. Review of Chinese Word Segmentation Studies 北大核心 CHSSCD CSSCI CSTPCD
2. 中文分词技术研究综述
- 唐琳；郭崇慧；陈静锋
- 摘要：【目的】梳理中文分词领域的关键问题、算法和模型,为研究人员提供理论基础和实践指导。【文献范围】使用知网数据库、万方数据知识服务平台和计算机科学文献库DBLP检索中文分词相关文献,共选择109篇代表性文献进行综述。【方法】归纳中文分词的发展历程及关键问题,分类总结中文分词的算法和模型,并详述近期的热点研究问题。【结果】使用多个标注数据集的多准则分词模型是中文分词的研究难点,解决中文分词和自然语言处理其他子任务的多任务联合模型是当前研究的热点。【局限】没有深入对比分析中文分词的无监督学习方法。【结论】虽然现有的中文分词方法能在一定程度上满足诸多应用的需求,但是在大数据环境下多视角、多任务和多准则的联合模型研究仍存在挑战。
3. 基于分词算法的用户个性化推荐系统设计
- 隋在娟
- 摘要：针对用户浏览的文本内容进行学习,经过中文分词,数据清洗,关键特征提取阶段对文本内容进行深度理解和挖掘,然后在后台数据库中搜索匹配出最贴合该用户兴趣的文本供用户浏览,实现用户个性化内容推荐.
4. 中文信息处理中的自动分词方法研究
- 杨涛
- 摘要：自动分词技术是中文信息处理的入门技术.通过对现有的三类中文分词算法(即基于词典的分词方法、基于统计的分词方法和基于理解的分词方法)的回顾和评述,分析"词"的界定、歧义消除和未登录词识别等制约中文分词的三大瓶颈,为中文分词技术的进一步发展提供方向.
5. 基于深度学习的慢性肝病CT报告相似度分析SIMILARITY ANALYSIS OF CT REPORT OF CHRONIC LIVER DISEASES BASED ON DEEP LEARNING 北大核心 CSCD CSTPCD
- 常炳国；刘清星
- 摘要：肝部CT检查是诊断慢性肝病的必要措施.通常,CT报告由影像所见描述和根据所见给出的诊断建议结果两部分组成.研究肝CT报告影像所见描述文本的相似度,辅助医生在给出新的CT诊断建议结果时参考历史上相似度最高的相应CT报告诊断结论.在研究慢性肝病医学词库基础上,运用网络爬虫技术获取相关网站医学词汇及自定义的否定词汇表,构建了包含约6 000个医学词汇的慢性肝病CT报告分词词库.运用基于词库与最大匹配规则相结合的分词算法,对肝CT报告文本进行分词处理.利用Doc2Vec深度学习算法获取CT报告文本分词表的句向量.通过计算句向量之间的余弦值得出CT报告文本相似度,选择历史CT报告文本中相似度大于阈值的报告用于医生进行参考.整理分析了6 900份真实的影像科检查报告,基于自定义词库及改进的分词算法,分词准确率达到87％.通过与基于TF-IDF的统计算法和基于隐含狄利克雷主题模型(LDA)算法进行对比分析,采用的算法获得的相似文本的平均准确率更高.
6. Chinese Word Segmentation Based on Hidden Markov Mode基于隐马尔可夫模型的中文分词
- 吴帅；潘海珍
- 摘要：中文分词是搜索引擎、机器翻译、情感分析等自然语言处理的基础,分词的准确率和效率对后续的工作有着非常大的影响.目前性能比较好的分词算法是基于统计机器学习的方法,隐马尔可夫模型能够较好地描述词与词之间的前后关系.论述模型实现中文分词的基本原理,并给出模型的Python实现.
7. 基于社工信息的口令生成与安全性分析Password Generation and Security Analysis based on Social Engineering 北大核心 CSTPCD
- 高强；李啸；胡勇；吴少华
- 摘要： Text password is the crucial credentials of user identity authentication in the modern network information systems. For evaluating the security of user password, each password of the acquired password simple is split into an understandable combination of password factors by word segmentation algorithm, and via analyzing the combination rule of each password factor in password sample, the setting rules of user password may be mined by using association rules. Based on setting rules and in combination with the information collected by social engineering, the password dictionary is generated with k-gram algorithm. Experiment indicates that the password dictionary generated with the help of social engineering information has strong pertinence and crack effect in the specific application scence, thus provide a new means for the detection of password security.%文本口令是现今网络信息系统用户身份认证的关键凭据.为评估用户口令的安全性,运用分词算法将获取的口令样本中的每条口令拆分成可理解的口令因子组合,通过分析口令样本中各口令的口令因子组成规律,利用关联规则挖掘用户口令的设置规则.根据设置规则,结合社会工程学收集的信息,利用k-gram算法生成口令字典.通过实验验证,借助社工信息生成的口令字典,在特定应用场景中针对性强,具有更好的破解效果,为检测口令安全性提供了一种新的手段.
8. 医疗自动问答系统的设计与实现
- 徐邦俊
- 摘要：随着社会的快速发展,人们生活水平不断提高,对于医疗健康问题更加重视起来,如今有很多问答系统,人们可以通过此技术直接获取需要的信息,简单、快捷.本文简单地介绍了一种医疗自动问答系统的设计思路,系统采取分步骤的方式来回答如何纠正患者的疾病以及提供一些健康信息.
9. 文本主要信息的自动获取和主体挖掘Main text information auto-acquisition and subject mining
- 吴春燕；黄巧梅；刘海清；张捷
- 摘要：文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本文件进行分析的一个前提条件是对文本文件进行分词处理,中文分词是进行中文信息处理的一个难点.为此,本文采用了分词算法[1]和支持向量机[2]对文本进行分类,设计和实现文本文件主要信息自动获取系统..
10. 短中文分词算法优化研究
- 童小光；郭超；康洪晶
- 摘要：对中文分词进行研究是自然语言处理的重要步骤,结合字典对短中文进行正逆向分词,在此基础上得到多组分词结果,利用基于统计的方法和基于规则的方法进一步优化算法,根据用户使用频度和网络搜索热度以及词语间的固定搭配规则对多组分词进行排序,并通过实例验证发现该方法具有较好分词效果.

1. 一种面向中文分词的搜索算法
- 复旦大学
- 公开公告日期：2021.08.20
- 摘要：本发明属于文本搜索引擎技术领域，具体为一种面向中文分词的搜索算法。本发明算法主要分为两个阶段：离线构建索引阶段和在线查找阶段。在离线构建索引阶段，首先提取所有原始字符串集合的后缀串集合，然后由后缀串集合生成改进的后缀树；在在线查找阶段，首先根据基于后缀树的索引模型得到关键词的查询结果，然后量化关键词和查询结果的匹配程度，最后将查询结果按匹配程序由高到低排序后返回。本发明通过一种改进的基于后缀树的索引结构来平衡索引构建时间和占用空间，使用本发明的索引结构的搜索效率远高于对结果集暴力计算匹配度并排序的效率。
2. 一种基于MMseg算法与逐点互信息算法的分词方法
- 中山大学
- 公开公告日期：2017-03-22
- 摘要：本发明涉及一种基于MMseg算法与逐点互信息算法的分词方法，基于词典使用MMseg算法对文本进行分词处理，获得分词结果后使用逐点互信息算法对分词结果进行校正；所述逐点互信息算法校正分词结果的具体过程如下：计算文本中相邻的字x与字y的逐点互信息，然后判断字x与字y的逐点互信息是否大于所设定的阈值，若是则将字x与字y作为一个独立的词语进行划分。
3. 一种用于电力大数据业务的电力分词算法
- 南瑞集团有限公司
- 国网辽宁省电力有限公司信息通信分公司
- 国网新疆电力有限公司信息通信公司
- 公开公告日期：2022-08-19
- 摘要：本发明公开一种种用于电力大数据业务的电力分词方法，涉及电力文本分词处理领域，利用基于多策略融合分词机制将带有大量专业词汇的相关电力大数据业务词汇进行自主区分并组成通顺的词组；采用本发明方法构建的电力大数据业务的电力分词方法，具备独立性、易度量性、即时性、灵活性和实用性，对整理、分类、检索以及进行后续的数据挖掘工作有重大意义，并且降低了相关人员的工作强度。
4. 一种基于分词与linearSVC算法对招标信息分类的方法及系统
- 北京思特奇信息技术股份有限公司
- 公开公告日期：2022-11-01
- 摘要：本发明公开了一种基于分词与linearSVC算法对招标信息分类的方法及系统，属于分词技术领域。本发明方法，包括：随机获取招标信息作为目标招标信息，为所述目标招标信息中的每条数据打标，并将所述打标后的招标信息作为正负样本；对正负样本中的每条数据进行分词，并对每条分词后的数据进行预处理以获取分词结果；合并分词结果以获取分词集，根据所述分词集获取训练模型的输入特征，并将所述输入特征输入至所述训练模型进行训练以获取分类模型；获取待分类的招标信息的输入特征，将所述待分类的招标信息的输入特征输入至分类模型中进行计算，以获取招标信息的分类结果。本发明使用了机器学习算法代替了传统的人工筛选的方式。
5. 一种基于深度学习及遗忘算法的中文分词方法
- 北京布本智能科技有限公司
- 公开公告日期：2019-02-26
- 摘要：本发明公开了一种基于深度学习及遗忘算法的中文分词方法，包括以下步骤：一：逐字扫描句子获取自然语言，采用深度学习分词方法对扫描的自然语言划分成词语序列收入至第一词库；二：逐字扫描句子获取自然语言，采用遗忘算法分词方法对获取的自然语言进行断字划分成候选词收入至第二词库，三：将第一词库中的词语序列与第二词库中的候选词融合获取最终分词结果，融合方法为：第二词库中的连续单字，若对应深度学习中为词，则合并为词；第二词库中的单个单字，若对应深度学习中为词，则向前或向后合并为词。本发明的分词方法，通过将深度学习分词方法和遗忘算法分词方法的融合，可以自动侦测领域知识，完成无监督领域新词发现功能，提高分词效果。
6. 一种基于朴素贝叶斯算法的中文分词方法
- 昆明理工大学
- 公开公告日期：2019-03-01
- 摘要：本发明涉及一种基于朴素贝叶斯算法的中文分词方法，属于自然语言处理就是领域。本发明首先选择合适的文档作为语料库，并把语料库按句分行处理；然后对语料库进行标注，不仅为每个字标注出状态，还要标注出词性；接着统计标注好的语料库，得到一个状态转移矩阵，为以后的预测阶段提供依据；然后对标注好的语料库提取每个字的特征，为了提高准确性，每个字的特征都包括其上下个字的属性；然后使用每个汉字的特征文件训练一个模型；接着通过状态转移矩阵和概率模型预测待分词的句子中的每个汉字；最后，根据不同的汉字状态，将带分词的句子分词。
7. 一种基于贝叶斯分词算法的中文地址语义标注方法
- 武汉工程大学
- 公开公告日期：2019.05.28
- 摘要：本发明公开了一种基于贝叶斯分词算法的中文地址语义标注方法，包括步骤S1：预设置针对中文地址数据进行语义标注的标注关系表；步骤S2：获取预切分、标注好的训练语料；步骤S3：对训练语料进行统计学习得到词频词典、标注关系词典、标注模式表；步骤S4：输入待标注地址字符串进行全切分；步骤S5：根据词频词典及贝叶斯分词算法获取概率最大的分词方案；步骤S6：根据标注关系词典对分词方案进行标注得到标注结果。标注关系表设定了一个规范化的标注模板；通过统计学习训练语料获得了包含词频词典、标注关系词典以及标注模式表的数据库；根据前述训练数据库匹配得到标注好的具有语义信息的中文地址，快速准确地完成了针对中文地址数据的语义解析。
8. 基于行文本框分词算法的文本内容提取识别方法
- 浙江理工大学
- 公开公告日期：2022-08-23
- 摘要：本发明公开了一种基于行文本框分词算法的文本内容提取识别方法，根据行文本框的位置信息、语义信息、手指坐标信息，使用简单高效的算法实现提取出距离手指最近的词语，该算法简单高效，解决了服务器资源不足的问题。同时本发明使用目标检测、手部检测识别、文本检测、文本识别实现找到手指关键点的坐标，检测出图片中文本框位置信息，识别出图片中目标文本框中文字内容，使用现有模型加上后期训练后，准确度提高，速度变快，可以更好配合手指选词的算法。
9. 一种中医分词算法
- 上海国民集团健康科技有限公司
- 公开公告日期：2020-06-09
- 摘要：本发明公开了一种中医分词算法，具体步骤如下：首先是对中医医案的文本进行原子切分，其次引入中医领域词典和语料库完成N‑最短路径的粗切分以覆盖尽可能多的歧义，然后通过多层隐马模型对未登录词进行识别，接着用基于类的隐马模型进行全局最优分词，最后对分词结果进行词性标注，本发明打破中医领域分词效果差的瓶颈，为健康领域的智能对话和中医知识图谱，中医辅助诊疗系统奠定基础，提升基础语义组件的效果。
10. 一种基于分词算法的地址解析方法及装置
- 成都市映潮科技股份有限公司
- 公开公告日期：2019-01-04
- 摘要：本发明公开了一种基于分词算法的地址解析方法及装置，该方法包括：收集国家统计局行政区划数据并存入数据库中，对地域名称进行编码，建立地域级联关系；构建地域决策树，将国家作为地域决策树的根节点，省/直辖市作为其下级节点，根据地域级联关系递归创建该地域决策树的子节点与叶子节点；根据地域全称与地域简称构建自定义地域字典并加载到数据库中；获取地域信息，以分词算法结合自定义地域字典对所述地域信息进行分词处理，得到地域词组；根据分词后出现的地域词组先后顺序结合地域决策树进行地址解析，得到地址信息。该发明解决了目前地图工具里面自带的短文本地域解析功能存在的解析精度低及耗时长的问题。

分词算法

分词算法—发文量

分词算法—发文趋势图

分词算法-研究学者

分词算法-相关主题

分词算法-相关期刊

分词算法-相关会议

分词算法
-研究学者

分词算法
-相关主题

分词算法
-相关期刊

分词算法
-相关会议