您现在的位置：首页> 研究主题> MapReduce

MapReduce

MapReduce的相关文献在2007年到2023年内共计2365篇，主要集中在自动化技术、计算机技术、无线电电子学、电信技术、电工技术等领域，其中期刊论文1846篇、会议论文11篇、专利文献508篇；相关期刊534种，包括电脑知识与技术、计算机工程与科学、计算机工程与应用等；相关会议9种，包括2011年SuperMap GIS技术大会、《通信学报》学术论坛暨2011云计算学术会议、中国计算机用户协会网络应用分会2010年网络新技术与应用研讨会等；MapReduce的相关文献由4848位作者贡献，包括于戈、宋杰、李鹏等。

MapReduce—发文量

期刊论文>

论文：1846篇占比：78.05%

会议论文>

论文：11篇占比：0.47%

专利文献>

论文：508篇占比：21.48%

总计：2365篇

MapReduce—发文趋势图

MapReduce
-研究学者

于戈
宋杰
李鹏
金海
王勇
鲍玉斌
乐嘉锦
于炯
刘杰
史巨伟
毛伊敏
王颖
王鹏
石磊
陶永才
廖彬
张陶
李波
杨博
郑庆华
郭磊涛
刘勇
刘黎志
吉根林
宗栋瑞
李萍
王伟
王宏志
王腾蛟
薛瑞尼
高军
卫琳
史玉良
吴楠
唐卓
孙宏伟
孙少陵
张帆
张未展
李东
李天瑞
李庆忠
李立
杨冬青
杨斐
林建
王梅
王洋
罗治国
董博

MapReduce
-相关主题

MapReduce
-相关期刊

MapReduce
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2023
(1)
2022
(52)
2021
(105)
2020
(86)
2019
(121)
2018
(175)
2017
(187)
2016
(255)
2015
(264)
2014
(244)
2013
(200)
2012
(99)
2011
(82)
2010
(34)
2009
(10)
2008
(2)
2007
(6)

期刊

收录数据库

作者

于戈
(17)
宋杰
(14)
李鹏
(13)
金海
(11)
王勇
(10)
鲍玉斌
(10)
乐嘉锦
(9)
于炯
(9)
刘杰
(9)
史巨伟
(9)
毛伊敏
(9)
王颖
(9)
王鹏
(9)
石磊
(9)
陶永才
(9)
廖彬
(8)
张陶
(8)
李波
(8)
杨博
(8)
郑庆华
(8)
郭磊涛
(8)
刘勇
(7)
刘黎志
(7)
吉根林
(7)
宗栋瑞
(7)
李萍
(7)
王伟
(7)
王宏志
(7)
王腾蛟
(7)
薛瑞尼
(7)
高军
(7)
卫琳
(6)
史玉良
(6)
吴楠
(6)
唐卓
(6)
孙宏伟
(6)
孙少陵
(6)
张帆
(6)
张未展
(6)
李东
(6)
李天瑞
(6)
李庆忠
(6)
李立
(6)
杨冬青
(6)
杨斐
(6)
林建
(6)
王梅
(6)
王洋
(6)
罗治国
(6)
董博
(6)

关键词

MapReduce
(1634)
Hadoop
(578)
云计算
(319)
大数据
(260)
数据挖掘
(114)
HDFS
(112)
并行计算
(67)
Map/Reduce
(56)
Map-Reduce
(52)
海量数据
(50)
分布式计算
(48)
分布式
(47)
关联规则
(43)
Spark
(40)
聚类
(38)
HBase
(35)
并行化
(33)
Mapreduce
(32)
负载均衡
(27)
MAPREDUCE
(25)
并行处理
(24)
Apriori
(22)
K-means
(21)
Map Reduce
(21)
数据倾斜
(21)
并行算法
(20)
Apriori算法
(18)
hadoop
(18)
分布式文件系统
(18)
协同过滤
(18)
并行
(18)
PageRank
(17)
文本分类
(17)
调度算法
(17)
任务调度
(16)
编程模型
(16)
聚类算法
(16)
Hive
(15)
数据分析
(15)
频繁项集
(15)
Hadoop平台
(14)
性能优化
(14)
智能电网
(14)
Hadoop集群
(13)
分布式系统
(13)
大数据分析
(13)
朴素贝叶斯
(13)
粗糙集
(13)
遗传算法
(13)
分布式存储
(12)

申请/权力人

;

1. 基于大数据分析的科技成果数据融合方法研究
- 运晨超；黄毅臣；赵微；薛璐璐；杨亮
- 摘要：为了提高科技成果数据融合效果,提出基于大数据分析的科技成果数据融合方法。通过抽取HTML网页中成果元数据组合成果记录,结构化处理成果记录并构建DOM树抽取目标科技成果数据;预处理目标科技成果数据,提升存储空间;联合MapReduce编程模型与Hermite正交基前向神经网络方法,对预处理完成的科技成果数据进行并行化处理和分类融合,利用多个归约函数合并所有子集合结果,快速获取科技成果数据融合最终结果。实验结果表明:该方法在数据抽取时可有效确保抽取数据的完整性和准确性,同时具备科技成果数据融合效率高的优势。
2. 基于Hadoop平台的多模态人脸识别研究
- 李晓娜；苏金善；李瀚铭
- 摘要：随着现代人越来越喜欢用图像记录生活,每日上传至互联网的图像都呈爆炸式增长。公安部门可以利用海量的图像数据实现网络追凶,但现实中摄像头采集到的图像以及上传至网络的图像,并非都是统一状态的图像,而是包含各种状态的图像,例如不同表情、不同动作、不同角度、不同程度的角度偏斜,不同年龄,以及有背景干扰的图像,其中部分图像会因使用的设备不同,导致上传至网络的图像既有灰白图像又有彩色图像。这些多模态图像为人脸的准确识别增加了难度,要将实际中采集到的图像从如此复杂且规模庞大的数据集中匹配与识别出来,是一件十分困难的事。针对以上问题,提出将改进后的开源人脸识别库,即face_recognition库与Hadoop平台中的MapReduce进行结合,在确保识别准确率的前提下提升人脸检测速度,实现对大规模、多模态图像的有效识别。实验证明,本文的方法能够有效解决大规模多模态图像的识别问题,实时性高,实用性强。
3. 石油勘探地震资料数据高效分选方法
- 赵伟；刘雪飞
- 摘要：数据排序是石油勘探地震资料处理中重要的一个环节。近年来,随着勘探精度的提高,需要排序的数据量越来越大。传统的数据排序算法并没有针对海量数据进行优化,造成了数据下排序速度慢,甚至是排序错误的问题。本文提出了一种基于MapReduce思想的数据分选算法,通过将排序任务拆分成多个容易并行,且粒度较小的分任务,从而能够充分发挥计算集群的并行计算优势。这一算法在计算集群上能够高效地对海量数据进行排序。通过实验,相较于传统算法,本文提出的算法的加速比最高达到1.94,验证了该算法的有效性。
4. 大数据批处理技术研究
- 章昱；钟茂生；童维勤；严伟安
- 摘要：本文将对大数据批处理技术:MapReduce计算模型、DAG模型进行介绍。传统的单机数据处理方式,无论是吞吐率,还是处理速度,都已经无法满足大数据时代的需求,因此催生了集群式数据处理方式。
- MapReduce
- Spark
- DAG
- 批处理
5. 基于Hive的离线数据处理方法
- 亢华爱
- 摘要： Hive是一种建立在Hadoop上的数据仓库基础构架。Hive系统结构中的解析器,可以将用户编写的HiveQL语句进行解析,解析出相应的MapReduce程序,本文使用Hive对某网站用户评论数据进行分析,快速实现MapReduce统计任务。
- Hive
- HQL
- MapReduce
6. 基于MapReduce的支持向量机参数选择研究
- 刘黎志；杨敏
- 摘要：针对在分布式Hadoop集群环境下对支持向量机进行最优分类模型参数选择的问题,提出一种基于MapReduce框架的最优分类模型参数选择算法。该算法能以串行或单个MapReduce作业这两种方式完成最优模型参数的选择,在Map阶段读取存储在Hadoop分布式文件系统中的参数文件,并为每组参数生成具有不同键值的中间结果,以保证在Reduce阶段,每个并行执行的任务仅对一组参数进行交叉验证。实验结果表明,在集群内存资源合理消耗的前提下,为粗粒度最优参数搜索设置适当的Reduce数量,单个MapReduce作业方式相比于串行MapReduce作业方式算法运行效率至少提升了1.7倍,显著减少最优模型参数的获取时间。
7. 基于人工鱼群算法的Hadoop作业调度算法的分析
- 孟妍妍
- 摘要：本文将人工鱼群算法运用到作业调度算法中,在异构环境下进行实验,与已有的作业调度算法对比分析。根据实验数据,验证人工鱼群算法适合应用到作业调度算法中。当今社会正处于大数据时代,大数据专业已在高等院校广泛开设,而Hadoop平台是最应用最普遍的云计算平台之一,几乎大数据专业都会学习Hadoop这一平台。且它的作业执行速度对于整个平台的效率具有很大的影响。所以,对于Hadoop作业调度算法的分析研究尤为重要。
8. 基于MapReduce的大数据并行分析与处理
- 张昕晨；王雅君；程胜明；冷峻宇；刘小奇
- 摘要：针对传统分布式数据库架构存储和管理企业产品相关的大数据资源效率不高等问题,研究企业产品海量数据资源处理与并行分析计算,提出在Hadoop平台基础上基于MapReduce并行架构模型的数据并行分析与数据处理方法。通过对数据的优化存储布局,在MapReduce并行框架基础上,采用多通道数据融合特征提取技术实现产品大数据信息的提取和并行分析计算,提高了数据资源管理效率。实际验证表明和标准Hadoop方案比较,多通道数据融合并行特征提取算法执行时间为其34.8%,实现了产品大数据资源高效的组织和管理。
9. 基于PCA-MP-BP的智能电网数据融合方法
- 赖伟平；林笔星
- 摘要：为了提高对智能电网大数据的挖掘效率,提出了基于PCA-MP-BP的智能电网数据融合方法。首先对智能电网大数据技术和智能电网大数据融合技术进行了分析。采用主成分分析方法(PCA)提取出对预测结果有影响的主要特征值,作为BP神经网络的输入;然后提出了一种MapReduce和BP算法相结合的数据融合算法,该算法加快了数据处理效率;将所提的PCA-MP-BP算法用于智能电网大数据功率预测。实验仿真结果验证了所提方法具有更快的数据处理能力和更高的预测精度。
10. 基于Relief和BFO的并行支持向量机算法
- 胡健；王祥太；毛伊敏；刘蔚
- 摘要：针对大数据环境下并行支持向量机(SVM)算法存在冗余数据敏感、参数选取困难、并行化效率低等问题,提出了一种基于Relief和BFO算法的并行SVM算法RBFO-PSVM。首先,基于互信息和Relief算法设计了一种特征权值计算策略MI-Relief,剔除数据集中的冗余特征,有效地降低了冗余数据对并行SVM分类的干扰;接着,提出了基于MapReduce的MR-HBFO算法,并行选取SVM的最优参数,提高SVM的参数寻优能力;最后,提出核聚类策略KCS,减小参与并行化训练的数据集规模,并提出改进CSVM反馈机制的交叉融合级联式并行支持向量机CFCPSVM,结合MapReduce编程框架并行训练SVM,提高了并行SVM的并行化效率。实验表明,RBFO-PSVM算法对大型数据集的分类效果更佳,更适用于大数据环境。

1. 基于MapReduce虚拟机的Deep Web数据源发现方法
- 辛洁；崔志明；赵朋朋；张广铭；鲜学丰
- 《《通信学报》学术论坛暨2011云计算学术会议》 | 2011年
- 摘要：为了提高Deep Web爬虫发现和搜集数据源的效率，提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型，通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到DeepWeb数据源接口，并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理，有效提高爬虫数据源发现的效率，避免网络及物理资源的浪费，验证了云计算技术在Deep Web数据挖掘方面的可行性。
2. 基于MapReduce虚拟机的Deep Web数据源发现方法
- 辛洁；崔志明；赵朋朋；张广铭；鲜学丰
- 《《通信学报》学术论坛暨2011云计算学术会议》 | 2011年
- 摘要：为了提高Deep Web爬虫发现和搜集数据源的效率，提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型，通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到DeepWeb数据源接口，并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理，有效提高爬虫数据源发现的效率，避免网络及物理资源的浪费，验证了云计算技术在Deep Web数据挖掘方面的可行性。
3. 基于MapReduce虚拟机的Deep Web数据源发现方法
- 辛洁；崔志明；赵朋朋；张广铭；鲜学丰
- 《《通信学报》学术论坛暨2011云计算学术会议》 | 2011年
- 摘要：为了提高Deep Web爬虫发现和搜集数据源的效率，提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型，通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到DeepWeb数据源接口，并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理，有效提高爬虫数据源发现的效率，避免网络及物理资源的浪费，验证了云计算技术在Deep Web数据挖掘方面的可行性。
4. 基于MapReduce虚拟机的Deep Web数据源发现方法
- 辛洁；崔志明；赵朋朋；张广铭；鲜学丰
- 《《通信学报》学术论坛暨2011云计算学术会议》 | 2011年
- 摘要：为了提高Deep Web爬虫发现和搜集数据源的效率，提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型，通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到DeepWeb数据源接口，并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理，有效提高爬虫数据源发现的效率，避免网络及物理资源的浪费，验证了云计算技术在Deep Web数据挖掘方面的可行性。
5. 基于MapReduce虚拟机的Deep Web数据源发现方法
- 辛洁；崔志明；赵朋朋；张广铭；鲜学丰
- 《《通信学报》学术论坛暨2011云计算学术会议》 | 2011年
- 摘要：为了提高Deep Web爬虫发现和搜集数据源的效率，提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型，通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到DeepWeb数据源接口，并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理，有效提高爬虫数据源发现的效率，避免网络及物理资源的浪费，验证了云计算技术在Deep Web数据挖掘方面的可行性。
6. 基于云计算的空间关联信息管理与服务技术研究
- 黄骞；王尔琪
- 《2011年SuperMap GIS技术大会》 | 2011年
- 摘要：随着移动互联网时代的到来，面向以LBS为代表的空间信息服务需求，空间关联云计算不仅在数据上突破了传统地图的局限，利用空间关联技术管理包含行业、视频、音频等多源数据，而且在功能上通过使用海量存储、深度挖掘分析、高并发访问、虚拟化等互联网技术，为空间信息服务的深度广度发展提供了基础。空间关联云计算平台面向政府、组织与公众的需求，采用开放平台业务模式，自底向上构建空间关联数据海量存储、分布式空间信息挖掘与高并发服务接口，其中空间关联数据海量存储包括空间关联分布式文件系统与分布式数据库；分布式空间信息挖掘根据应用特征，基于MapReduce等分布式计算框架实现高性能后台分析挖掘；高并发服务接口，采用多种策略，提高服务的吞吐率，减少响应时间，达到提高多终端服务质量的目的。
7. 基于云计算的空间关联信息管理与服务技术研究
- 黄骞；王尔琪
- 《2011年SuperMap GIS技术大会》 | 2011年
- 摘要：随着移动互联网时代的到来，面向以LBS为代表的空间信息服务需求，空间关联云计算不仅在数据上突破了传统地图的局限，利用空间关联技术管理包含行业、视频、音频等多源数据，而且在功能上通过使用海量存储、深度挖掘分析、高并发访问、虚拟化等互联网技术，为空间信息服务的深度广度发展提供了基础。空间关联云计算平台面向政府、组织与公众的需求，采用开放平台业务模式，自底向上构建空间关联数据海量存储、分布式空间信息挖掘与高并发服务接口，其中空间关联数据海量存储包括空间关联分布式文件系统与分布式数据库；分布式空间信息挖掘根据应用特征，基于MapReduce等分布式计算框架实现高性能后台分析挖掘；高并发服务接口，采用多种策略，提高服务的吞吐率，减少响应时间，达到提高多终端服务质量的目的。
8. 基于云计算的空间关联信息管理与服务技术研究
- 黄骞；王尔琪
- 《2011年SuperMap GIS技术大会》 | 2011年
- 摘要：随着移动互联网时代的到来，面向以LBS为代表的空间信息服务需求，空间关联云计算不仅在数据上突破了传统地图的局限，利用空间关联技术管理包含行业、视频、音频等多源数据，而且在功能上通过使用海量存储、深度挖掘分析、高并发访问、虚拟化等互联网技术，为空间信息服务的深度广度发展提供了基础。空间关联云计算平台面向政府、组织与公众的需求，采用开放平台业务模式，自底向上构建空间关联数据海量存储、分布式空间信息挖掘与高并发服务接口，其中空间关联数据海量存储包括空间关联分布式文件系统与分布式数据库；分布式空间信息挖掘根据应用特征，基于MapReduce等分布式计算框架实现高性能后台分析挖掘；高并发服务接口，采用多种策略，提高服务的吞吐率，减少响应时间，达到提高多终端服务质量的目的。
9. 基于云计算的空间关联信息管理与服务技术研究
- 黄骞；王尔琪
- 《2011年SuperMap GIS技术大会》 | 2011年
- 摘要：随着移动互联网时代的到来，面向以LBS为代表的空间信息服务需求，空间关联云计算不仅在数据上突破了传统地图的局限，利用空间关联技术管理包含行业、视频、音频等多源数据，而且在功能上通过使用海量存储、深度挖掘分析、高并发访问、虚拟化等互联网技术，为空间信息服务的深度广度发展提供了基础。空间关联云计算平台面向政府、组织与公众的需求，采用开放平台业务模式，自底向上构建空间关联数据海量存储、分布式空间信息挖掘与高并发服务接口，其中空间关联数据海量存储包括空间关联分布式文件系统与分布式数据库；分布式空间信息挖掘根据应用特征，基于MapReduce等分布式计算框架实现高性能后台分析挖掘；高并发服务接口，采用多种策略，提高服务的吞吐率，减少响应时间，达到提高多终端服务质量的目的。
10. 基于云计算的空间关联信息管理与服务技术研究
- 黄骞；王尔琪
- 《2011年SuperMap GIS技术大会》 | 2011年
- 摘要：随着移动互联网时代的到来，面向以LBS为代表的空间信息服务需求，空间关联云计算不仅在数据上突破了传统地图的局限，利用空间关联技术管理包含行业、视频、音频等多源数据，而且在功能上通过使用海量存储、深度挖掘分析、高并发访问、虚拟化等互联网技术，为空间信息服务的深度广度发展提供了基础。空间关联云计算平台面向政府、组织与公众的需求，采用开放平台业务模式，自底向上构建空间关联数据海量存储、分布式空间信息挖掘与高并发服务接口，其中空间关联数据海量存储包括空间关联分布式文件系统与分布式数据库；分布式空间信息挖掘根据应用特征，基于MapReduce等分布式计算框架实现高性能后台分析挖掘；高并发服务接口，采用多种策略，提高服务的吞吐率，减少响应时间，达到提高多终端服务质量的目的。

1. 基于MapReduce框架分布式计算环境的源代码编译方法及系统
- 中标软件有限公司
- 公开公告日期：2022.03.18
- 摘要：本发明涉及基于MapReduce框架分布式计算环境的源代码编译方法及系统，通过分析不同阶段的文件之间依赖关系,使得源代码编译能更好分配到集群的机器进行编译；并提供并发写锁模块使得集群机器间相互并发写文件；本发明提供的基于MapReduce框架分布式计算环境的源代码编译方法及系统，使用MapReduce方式组织不同阶段的编译工作并形成流水线，实现了多机器同时编译、多阶并发流水线，减少了网络传输资源；并且，并发写锁提供的协同机制，能提高源代码编译速度以及提升编译任务速度、任务吞吐量。
2. 一种基于B树数据结构的MapReduce计算过程优化方法
- 河南省交通规划设计研究院股份有限公司
- 公开公告日期：2022.04.12
- 摘要：一种基于B树数据结构的MapReduce计算过程优化方法，包括如下步骤：1）对输入到片区内的数据执行Map任务；2）执行Map任务后输出的结果包含索引文件*.index和数据文件*.out；3）将索引文件*.index和数据文件*.out存放在一个环形内存缓冲区中；4）当该环形内存缓冲区快要溢出时，判断是否是最后一个Map任务；5）如果否，则数据文件*.out排序合并后写入磁盘，索引文件*.index留在环形内存缓冲区中；如果是，则数据文件*.out直接输入到reduce函数。本发明所述的方法减少了磁盘读写次数，缩短了计算时间，显著缩短计算时间，提高了计算效率，可以有效提高工作效率。
3. 一种基于MapReduce的并行异常检测方法及系统
- 西安电子科技大学
- 公开公告日期：2022.07.12
- 摘要：本发明属于门适用于特定应用的数字计算或数据处理的设备或方法技术领域，公开了一种基于MapReduce的并行异常检测方法及系统，根据需求将存放在Hadoop分布式文件系统上的数据集随机切分为多个数据块；利用MapReduce框架并行计算各块中数据点的局部异常因子,并用k‑distinct‑neighbor替换k‑nearest‑neighbor；将各块中LOF值大于设定阈值的数据点合并重新计算其LOF值。MR‑DLOF在处理大量数据时的执行效率明显优于LOF算法。
4. 一种运行MapReduce作业的方法、装置及系统
- 中移(苏州)软件技术有限公司
- 中国移动通信集团公司
- 公开公告日期：2022.06.28
- 摘要：本发明公开了一种运行MapReduce作业的方法，所述方法包括：创建一个以上通用型的MapReduce作业描述文件，并对所述MapReduce作业描述文件进行解析，生成相应的MapReduce对象；根据所述MapReduce对象中指定的MapReduce数据，生成相应的结构化查询语言(SQL)序列；其中，所述SQL序列中包括至少一个MapReduce任务；根据有向无环图(DAG)将所述SQL序列进行发送。本发明还同时公开了一种运行MapReduce作业的装置及系统。
5. 一种基于MapReduce框架的大数据空地联合计算方法
- 广东工业大学
- 公开公告日期：2023-01-03
- 摘要：本发明涉及移动边缘计算技术领域，公开了一种基于MapReduce框架的大数据空地联合计算方法，包括：S1、构建大数据空地联合计算模型，所述模型包括一个地面基站和N个无人机，其中，每个无人机覆盖范围下有M个地面用户设备；S2、地面基站将数据集划分为N个不相交的子集，并将该N个子集分别传输到N个无人机；S3、无人机将到达的子集进行划分并分配给其覆盖范围下的地面用户设备；S4、地面用户设备对接收到的数据集中的各个任务文件进行Map函数运算，生成一组计算中间值，并通过Shuffle阶段聚合生成的计算中间值，地面用户设备将聚合后的计算中间值传输至无人机；S5、无人机对步骤S4接收到的计算中间值进行Reduce函数运算，无人机将运算结果传输至地面基站。
6. 一种基于MPI-IO的MapReduce溢写改善方法
- 中山大学
- 公开公告日期：2022-03-01
- 摘要：本发明公开了一种基于MPI‑IO的MapReduce溢写改善方法，该方法包括：Map端MPI进程从目标文件读取数据集切片；Map端MPI进程运行Map任务，对数据切片做映射处理并对映射处理结果进行分区，得到分区后的键值对；判断到映射处理结果大小超出内存容量阈值，Map端执行溢写操作，将分区排序后的键值对并行溢写到同一磁盘文件上，得到溢写处理结果；Reduce端MPI进程拉取Map端的溢写处理结果并使用Reduce任务对键值对做归约处理，得到Reduce处理结果；Reduce端将Reduce处理结果写入磁盘。本发明通过并行写一个大文件的方法将多个MPI进程的IO请求聚合，减少了大量的文件读写，同时还能避免过多中间文件的产生，缓解了元数据服务器的压力。本发明可广泛应用于大数据处理框架和高性能计算领域。
7. 一种基于MapReduce的图像测量装置
- 上海上实龙创智能科技股份有限公司
- 公开公告日期：2022-03-08
- 摘要：本发明涉及一种基于MapReduce的图像测量装置，涉及工业生产管理领域。所述基于MapReduce的图像测量装置包括采集器装置，所述采集器装置包括传感器、图像采集器、图像识别模块；边缘服务器，所述边缘服务器用于存储数据副本，并转发远程服务器；LoRa传输模块，所述LoRa传输模块用于所述采集器装置与所述边缘服务器之间的数据传输。本发明的基于MapReduce的图像测量装置，通过在采集装置上部署图像采集摄像头，用于采集特定区域面积的部分图像，每个区域部署多个采集装置，每个部分图像处理根据MapReduce数据格式生成，使得图像处理高速并发处理，提高边缘设备的处理响应速度，适合在大型工厂大流量数据处理等场景。
8. 一种MapReduce任务调度方法及系统
- 内蒙古大学
- 公开公告日期：2022-02-22
- 摘要：本发明提供了一种MapReduce任务调度方法及系统，通过引入基于Docker容器的抢占机制，弥补了Yarn现有的基于Kill的抢占机制直接杀死任务的缺点。基于Docker容器的抢占机制可以在保留任务进度的同时，释放出被任务占用的资源，结合服务等级协议感知的任务策略，可以实现高优先级的任务抢占其他任务的运行资源，保证作业的完成时间达到服务等级协议(SLA)的目标，通过本发明中的调度方法可以保证较高的集群资源利用率，同时兼顾了作业的低延迟和即时响应速度。
9. 一种MapReduce内存溢出解决方法及装置
- 中国农业银行股份有限公司
- 公开公告日期：2022-05-24
- 摘要：本发明公开了一种MapReduce内存溢出解决方法及装置，包括：基于预设的联合主键对待加工表中的初始数据文件进行预去重处理，得到至少一个目标数据文件；确定待分表数目，基于待分表数目创建分表路径；基于待分表数目和预设的分表逻辑将对应目标数据文件拷贝至对应分表路径下；在每个分表路径下基于MapReduce接口并行对其中包含的目标数据文件进行处理，得到至少一个分表结果；对分表结果进行合并，得到目标分表结果。上述过程，首先对待加工表中的初始数据文件进行去重处理，进一步，对得到目标数据进行在分表路径下进行并行处理，不但减少了MapReduce处理数据文件的量还采用了并行处理方式提高了处理效率。
10. Rack架构下面向编码MapReduce的Shuffle性能优化方法及系统
- 南京大学
- 公开公告日期：2022-08-02
- 摘要：本发明公开了一种Rack架构下编码MapReduce的Shuffle性能优化方法及系统。所述方法基于数据中心服务器部署时典型的Rack架构场景，将Shuffle阶段的通信优化问题规约为跨机架的通信量问题，并进一步规约为每个机架内每台服务器放置的Reduce函数的个数问题，最终通过对输入文件进行合理的冗余计算以及Reduce函数进行合理的放置，结合编码计算以及组播传输技术将数据进行压缩的方式，降低了Shuffle阶段的时间开销，并且缩短了MapReduce任务总的执行时间。

MapReduce

MapReduce—发文量

MapReduce—发文趋势图

MapReduce-研究学者

MapReduce-相关主题

MapReduce-相关期刊

MapReduce-相关会议

MapReduce
-研究学者

MapReduce
-相关主题

MapReduce
-相关期刊

MapReduce
-相关会议