分词算法
分词算法的相关文献在1994年到2022年内共计86篇,主要集中在自动化技术、计算机技术、信息与知识传播、语言学
等领域,其中期刊论文63篇、会议论文10篇、专利文献52373篇;相关期刊50种,包括警察技术、现代图书情报技术、电脑知识与技术等;
相关会议10种,包括2011年江苏省人工智能学术会议、2008年电力行业信息化年会、第十一届全国民族语言文字信息学术研讨会等;分词算法的相关文献由183位作者贡献,包括金平艳、严柯、何国斌等。
分词算法—发文量
专利文献>
论文:52373篇
占比:99.86%
总计:52446篇
分词算法
-研究学者
- 金平艳
- 严柯
- 何国斌
- 刘志杰
- 刘超
- 唐琳
- 张海营
- 张玉敏
- 曹勇刚
- 曹羽中
- 李晓林
- 段艳会
- 胡成华
- 范渊
- 谈修竹
- 谢婷婷
- 赵晶璐
- 郭崇慧
- 金茂忠
- 陈静锋
- 高强
- 黄爽
- 万怀宇
- 严云洋
- 亢临生
- 付嘉渝
- 付艳梅
- 代培
- 何莘
- 何霞
- 何静
- 余刚
- 俞春强
- 傅士光
- 冀单单
- 冯二媛
- 冯杰
- 冯梅
- 冯锐
- 冷静
- 刘云玉
- 刘延吉
- 刘新天
- 刘海清
- 刘海燕
- 刘清星
- 刘燕
- 刘迁
- 刘颖华
- 原晋鹏
-
-
-
唐琳;
郭崇慧;
陈静锋
-
-
摘要:
【目的】梳理中文分词领域的关键问题、算法和模型,为研究人员提供理论基础和实践指导。【文献范围】使用知网数据库、万方数据知识服务平台和计算机科学文献库DBLP检索中文分词相关文献,共选择109篇代表性文献进行综述。【方法】归纳中文分词的发展历程及关键问题,分类总结中文分词的算法和模型,并详述近期的热点研究问题。【结果】使用多个标注数据集的多准则分词模型是中文分词的研究难点,解决中文分词和自然语言处理其他子任务的多任务联合模型是当前研究的热点。【局限】没有深入对比分析中文分词的无监督学习方法。【结论】虽然现有的中文分词方法能在一定程度上满足诸多应用的需求,但是在大数据环境下多视角、多任务和多准则的联合模型研究仍存在挑战。
-
-
隋在娟
-
-
摘要:
针对用户浏览的文本内容进行学习,经过中文分词,数据清洗,关键特征提取阶段对文本内容进行深度理解和挖掘,然后在后台数据库中搜索匹配出最贴合该用户兴趣的文本供用户浏览,实现用户个性化内容推荐.
-
-
-
常炳国;
刘清星
-
-
摘要:
肝部CT检查是诊断慢性肝病的必要措施.通常,CT报告由影像所见描述和根据所见给出的诊断建议结果两部分组成.研究肝CT报告影像所见描述文本的相似度,辅助医生在给出新的CT诊断建议结果时参考历史上相似度最高的相应CT报告诊断结论.在研究慢性肝病医学词库基础上,运用网络爬虫技术获取相关网站医学词汇及自定义的否定词汇表,构建了包含约6 000个医学词汇的慢性肝病CT报告分词词库.运用基于词库与最大匹配规则相结合的分词算法,对肝CT报告文本进行分词处理.利用Doc2Vec深度学习算法获取CT报告文本分词表的句向量.通过计算句向量之间的余弦值得出CT报告文本相似度,选择历史CT报告文本中相似度大于阈值的报告用于医生进行参考.整理分析了6 900份真实的影像科检查报告,基于自定义词库及改进的分词算法,分词准确率达到87%.通过与基于TF-IDF的统计算法和基于隐含狄利克雷主题模型(LDA)算法进行对比分析,采用的算法获得的相似文本的平均准确率更高.
-
-
吴帅;
潘海珍
-
-
摘要:
中文分词是搜索引擎、机器翻译、情感分析等自然语言处理的基础,分词的准确率和效率对后续的工作有着非常大的影响.目前性能比较好的分词算法是基于统计机器学习的方法,隐马尔可夫模型能够较好地描述词与词之间的前后关系.论述模型实现中文分词的基本原理,并给出模型的Python实现.
-
-
高强;
李啸;
胡勇;
吴少华
-
-
摘要:
Text password is the crucial credentials of user identity authentication in the modern network information systems. For evaluating the security of user password, each password of the acquired password simple is split into an understandable combination of password factors by word segmentation algorithm, and via analyzing the combination rule of each password factor in password sample, the setting rules of user password may be mined by using association rules. Based on setting rules and in combination with the information collected by social engineering, the password dictionary is generated with k-gram algorithm. Experiment indicates that the password dictionary generated with the help of social engineering information has strong pertinence and crack effect in the specific application scence, thus provide a new means for the detection of password security.%文本口令是现今网络信息系统用户身份认证的关键凭据.为评估用户口令的安全性,运用分词算法将获取的口令样本中的每条口令拆分成可理解的口令因子组合,通过分析口令样本中各口令的口令因子组成规律,利用关联规则挖掘用户口令的设置规则.根据设置规则,结合社会工程学收集的信息,利用k-gram算法生成口令字典.通过实验验证,借助社工信息生成的口令字典,在特定应用场景中针对性强,具有更好的破解效果,为检测口令安全性提供了一种新的手段.
-
-
徐邦俊
-
-
摘要:
随着社会的快速发展,人们生活水平不断提高,对于医疗健康问题更加重视起来,如今有很多问答系统,人们可以通过此技术直接获取需要的信息,简单、快捷.本文简单地介绍了一种医疗自动问答系统的设计思路,系统采取分步骤的方式来回答如何纠正患者的疾病以及提供一些健康信息.
-
-
吴春燕;
黄巧梅;
刘海清;
张捷
-
-
摘要:
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本文件进行分析的一个前提条件是对文本文件进行分词处理,中文分词是进行中文信息处理的一个难点.为此,本文采用了分词算法[1]和支持向量机[2]对文本进行分类,设计和实现文本文件主要信息自动获取系统..
-
-
童小光;
郭超;
康洪晶
-
-
摘要:
对中文分词进行研究是自然语言处理的重要步骤,结合字典对短中文进行正逆向分词,在此基础上得到多组分词结果,利用基于统计的方法和基于规则的方法进一步优化算法,根据用户使用频度和网络搜索热度以及词语间的固定搭配规则对多组分词进行排序,并通过实例验证发现该方法具有较好分词效果.
-
-
-
傅士光;
林友芳;
万怀宇;
徐娟娟
- 《第七届中文信息处理国际会议》
| 2007年
-
摘要:
本文提出了一种基于词库的结合词频、词性、中文文法规则和未登录词识别规则的分词算法,该算法首先通过采用基于词库的跨度为1的前向最大匹配分词算法获得初步的分词结果,然后依据中文文法规则和词条筛选规则对初步结果进行再次划分,得到优化的分词结果,最后通过未登录词识别规则对分词结果进行检查,将满足未登录词条件的新词加入词库.该分词算法能够在很大程度上消除歧义划分,提高未登录词的识别概率。实验结果表明,该分词算法的准确率能达到97%以上,在效率上也具有很大优势。
-
-
柏东明;
曾丽花;
冯梅;
郭晓东
- 《2019年中国石油石化企业信息技术交流大会》
| 2019年
-
摘要:
渗透是黑客入侵web站点的实质阶段,也是黑客入侵远端服务的主要手段.建立针对渗透行为的检测算法,能够快速发现此隐匿的攻击行为,能够有效发现web站点的安全漏洞并建立准确的防护策略.本文在使用朴素贝叶斯分类算法,对站点日志进行标记、训练和分类后,发现分类结果并不理想.通过改进朴素贝叶斯算法和分析渗透过程中URL参数的特征,提出了一种适用于渗透行为分类的分词算法,并通过实际应用和对比,证明了分词改进的有效性,为提升应用系统的安全防护、修复由系统自身的逻辑错误和功能缺欠而导致的安全漏洞提供有力依据.
-
-
王红艳;
朱全银;
严云洋;
钱进
- 《2011年江苏省人工智能学术会议》
| 2011年
-
摘要:
其他网络商店的商品实时价格是Web商店店主所关注的重要数据,Web数据挖掘使得这一需求变为现实。通过正则表达式算法与分词算法的比较研究,给出了基于正则表达式的商品价格抽取算法和基于分词的网站目录树抽取算法、HTML网页商品抽取算法与商品价格抽取算法。应用系统的实践表明,正则表达武算法的挖全率与正确率较低,而分词算法的挖全率与正确率都达到99%以上,完全满足应用需求,同时可以为商品的市场预测与分析提供依据。
-
-
吴克河;
何霞;
李廷顺
- 《2008年电力行业信息化年会》
| 2008年
-
摘要:
以电力企业的业务系统为背景,以设计实现一个适用于电力企业搜索引擎的分析器为目的,提出了一种基于词库实现的分词算法.该分析器基于电力专业词典完成,解决了现有分析器分词效果不尽人意的问题.同时,采用了构建词语树的方法,加载词库时,在内存中构建一棵词语树,分词时只需要遍历树即可分出相应的词语.这解决了常用最大匹配算法的必须设定一个最大词长的限制,并且在分词效率上也有了很大的提高,避免了无意义的匹配算法.最后对该分析器和Lucene两个内置的分析器进行了比较,结果证明,对于电力企业的应用系统,该分析器无论在时间还是分词效果上都优于Lucene内置的分析器.这表明该分析器已经能很好的满足构建电力企业搜索引擎的要求.
-
-
-
陈晓苏;
邹园斌;
张文珂
- 《第三届学术计算语言学研讨会》
| 2006年
-
摘要:
汉语句子S的全切分图记作Graph(S),意思是,该图的所有路径之集Path(Graph(S))正好表示了S的所有切分方案之集Seg(S).我们用一个正则表达式Path-Expression(S)来表示该图的所有路径之集.因此有Path-Expression(S)=Seg(S).然后我们分别给出了分解Graph(S)与Path-Expression(S)为素子图(仍然是全切分图)与素因式(仍然是路径表达式)的做法,最后还给出利用全切分图给它的所有路径编码-译码的算法.所有这些想法与做法不仅其正确性可严格论证,而且已设计有算法,并已在计算机上实现了.上述两种素分解能使路径集呈指数性削减,路径表达式全局性地把握路径集,素子图与素因式又都十分简单,可望能给汉语语句的词切分与词性标注,甚至给短语确认和句法成分认定等工作带来积极的影响.
-
-
朱虹;
黄欢
- 《第二十三届中国数据库学术会议(NDBC2006)》
| 2006年
-
摘要:
本文通过理论和实验的分析,在采用了新的压缩方法和索引表结构等手段,DM4的全文检索系统所存在的两大问题,即空间膨胀率过高和索引填充时间较长的问题,已经得到了很好的解决.现在的分词算法仍是字粒度的细粒度的分词方法,应该使用更优秀的分词方法来改进.而且,现有系统的检索方面的能力尚不够强,不支持检索结果的排位输出,这也是需要提高的地方。
-
-
李红林
- 《云南省科协第六届学术年会暨红河流域发展论坛》
| 2016年
-
摘要:
本文主要通过大数据分析平台采集移动用户上网行为的DPI数据,对其进行加工处理,建立分析模型,从而获得移动用户所使用的终端型号及相关信息,并对终端信息在运营商的运营管控及营销中的应用进行了简单介绍.
-
-
李红林
- 《云南省科协第六届学术年会暨红河流域发展论坛》
| 2016年
-
摘要:
本文主要通过大数据分析平台采集移动用户上网行为的DPI数据,对其进行加工处理,建立分析模型,从而获得移动用户所使用的终端型号及相关信息,并对终端信息在运营商的运营管控及营销中的应用进行了简单介绍.