MapReduce
MapReduce的相关文献在2007年到2023年内共计2365篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术
等领域,其中期刊论文1846篇、会议论文11篇、专利文献508篇;相关期刊534种,包括电脑知识与技术、计算机工程与科学、计算机工程与应用等;
相关会议9种,包括2011年SuperMap GIS技术大会、《通信学报》学术论坛暨2011云计算学术会议、中国计算机用户协会网络应用分会2010年网络新技术与应用研讨会等;MapReduce的相关文献由4848位作者贡献,包括于戈、宋杰、李鹏等。
MapReduce
-研究学者
- 于戈
- 宋杰
- 李鹏
- 金海
- 王勇
- 鲍玉斌
- 乐嘉锦
- 于炯
- 刘杰
- 史巨伟
- 毛伊敏
- 王颖
- 王鹏
- 石磊
- 陶永才
- 廖彬
- 张陶
- 李波
- 杨博
- 郑庆华
- 郭磊涛
- 刘勇
- 刘黎志
- 吉根林
- 宗栋瑞
- 李萍
- 王伟
- 王宏志
- 王腾蛟
- 薛瑞尼
- 高军
- 卫琳
- 史玉良
- 吴楠
- 唐卓
- 孙宏伟
- 孙少陵
- 张帆
- 张未展
- 李东
- 李天瑞
- 李庆忠
- 李立
- 杨冬青
- 杨斐
- 林建
- 王梅
- 王洋
- 罗治国
- 董博
-
-
运晨超;
黄毅臣;
赵微;
薛璐璐;
杨亮
-
-
摘要:
为了提高科技成果数据融合效果,提出基于大数据分析的科技成果数据融合方法。通过抽取HTML网页中成果元数据组合成果记录,结构化处理成果记录并构建DOM树抽取目标科技成果数据;预处理目标科技成果数据,提升存储空间;联合MapReduce编程模型与Hermite正交基前向神经网络方法,对预处理完成的科技成果数据进行并行化处理和分类融合,利用多个归约函数合并所有子集合结果,快速获取科技成果数据融合最终结果。实验结果表明:该方法在数据抽取时可有效确保抽取数据的完整性和准确性,同时具备科技成果数据融合效率高的优势。
-
-
李晓娜;
苏金善;
李瀚铭
-
-
摘要:
随着现代人越来越喜欢用图像记录生活,每日上传至互联网的图像都呈爆炸式增长。公安部门可以利用海量的图像数据实现网络追凶,但现实中摄像头采集到的图像以及上传至网络的图像,并非都是统一状态的图像,而是包含各种状态的图像,例如不同表情、不同动作、不同角度、不同程度的角度偏斜,不同年龄,以及有背景干扰的图像,其中部分图像会因使用的设备不同,导致上传至网络的图像既有灰白图像又有彩色图像。这些多模态图像为人脸的准确识别增加了难度,要将实际中采集到的图像从如此复杂且规模庞大的数据集中匹配与识别出来,是一件十分困难的事。针对以上问题,提出将改进后的开源人脸识别库,即face_recognition库与Hadoop平台中的MapReduce进行结合,在确保识别准确率的前提下提升人脸检测速度,实现对大规模、多模态图像的有效识别。实验证明,本文的方法能够有效解决大规模多模态图像的识别问题,实时性高,实用性强。
-
-
赵伟;
刘雪飞
-
-
摘要:
数据排序是石油勘探地震资料处理中重要的一个环节。近年来,随着勘探精度的提高,需要排序的数据量越来越大。传统的数据排序算法并没有针对海量数据进行优化,造成了数据下排序速度慢,甚至是排序错误的问题。本文提出了一种基于MapReduce思想的数据分选算法,通过将排序任务拆分成多个容易并行,且粒度较小的分任务,从而能够充分发挥计算集群的并行计算优势。这一算法在计算集群上能够高效地对海量数据进行排序。通过实验,相较于传统算法,本文提出的算法的加速比最高达到1.94,验证了该算法的有效性。
-
-
章昱;
钟茂生;
童维勤;
严伟安
-
-
摘要:
本文将对大数据批处理技术:MapReduce计算模型、DAG模型进行介绍。传统的单机数据处理方式,无论是吞吐率,还是处理速度,都已经无法满足大数据时代的需求,因此催生了集群式数据处理方式。
-
-
亢华爱
-
-
摘要:
Hive是一种建立在Hadoop上的数据仓库基础构架。Hive系统结构中的解析器,可以将用户编写的HiveQL语句进行解析,解析出相应的MapReduce程序,本文使用Hive对某网站用户评论数据进行分析,快速实现MapReduce统计任务。
-
-
刘黎志;
杨敏
-
-
摘要:
针对在分布式Hadoop集群环境下对支持向量机进行最优分类模型参数选择的问题,提出一种基于MapReduce框架的最优分类模型参数选择算法。该算法能以串行或单个MapReduce作业这两种方式完成最优模型参数的选择,在Map阶段读取存储在Hadoop分布式文件系统中的参数文件,并为每组参数生成具有不同键值的中间结果,以保证在Reduce阶段,每个并行执行的任务仅对一组参数进行交叉验证。实验结果表明,在集群内存资源合理消耗的前提下,为粗粒度最优参数搜索设置适当的Reduce数量,单个MapReduce作业方式相比于串行MapReduce作业方式算法运行效率至少提升了1.7倍,显著减少最优模型参数的获取时间。
-
-
孟妍妍
-
-
摘要:
本文将人工鱼群算法运用到作业调度算法中,在异构环境下进行实验,与已有的作业调度算法对比分析。根据实验数据,验证人工鱼群算法适合应用到作业调度算法中。当今社会正处于大数据时代,大数据专业已在高等院校广泛开设,而Hadoop平台是最应用最普遍的云计算平台之一,几乎大数据专业都会学习Hadoop这一平台。且它的作业执行速度对于整个平台的效率具有很大的影响。所以,对于Hadoop作业调度算法的分析研究尤为重要。
-
-
张昕晨;
王雅君;
程胜明;
冷峻宇;
刘小奇
-
-
摘要:
针对传统分布式数据库架构存储和管理企业产品相关的大数据资源效率不高等问题,研究企业产品海量数据资源处理与并行分析计算,提出在Hadoop平台基础上基于MapReduce并行架构模型的数据并行分析与数据处理方法。通过对数据的优化存储布局,在MapReduce并行框架基础上,采用多通道数据融合特征提取技术实现产品大数据信息的提取和并行分析计算,提高了数据资源管理效率。实际验证表明和标准Hadoop方案比较,多通道数据融合并行特征提取算法执行时间为其34.8%,实现了产品大数据资源高效的组织和管理。
-
-
赖伟平;
林笔星
-
-
摘要:
为了提高对智能电网大数据的挖掘效率,提出了基于PCA-MP-BP的智能电网数据融合方法。首先对智能电网大数据技术和智能电网大数据融合技术进行了分析。采用主成分分析方法(PCA)提取出对预测结果有影响的主要特征值,作为BP神经网络的输入;然后提出了一种MapReduce和BP算法相结合的数据融合算法,该算法加快了数据处理效率;将所提的PCA-MP-BP算法用于智能电网大数据功率预测。实验仿真结果验证了所提方法具有更快的数据处理能力和更高的预测精度。
-
-
胡健;
王祥太;
毛伊敏;
刘蔚
-
-
摘要:
针对大数据环境下并行支持向量机(SVM)算法存在冗余数据敏感、参数选取困难、并行化效率低等问题,提出了一种基于Relief和BFO算法的并行SVM算法RBFO-PSVM。首先,基于互信息和Relief算法设计了一种特征权值计算策略MI-Relief,剔除数据集中的冗余特征,有效地降低了冗余数据对并行SVM分类的干扰;接着,提出了基于MapReduce的MR-HBFO算法,并行选取SVM的最优参数,提高SVM的参数寻优能力;最后,提出核聚类策略KCS,减小参与并行化训练的数据集规模,并提出改进CSVM反馈机制的交叉融合级联式并行支持向量机CFCPSVM,结合MapReduce编程框架并行训练SVM,提高了并行SVM的并行化效率。实验表明,RBFO-PSVM算法对大型数据集的分类效果更佳,更适用于大数据环境。