Spark Streaming
Spark Streaming的相关文献在2015年到2022年内共计70篇,主要集中在自动化技术、计算机技术、电工技术、无线电电子学、电信技术
等领域,其中期刊论文63篇、专利文献7篇;相关期刊50种,包括科教导刊、顺德职业技术学院学报、测绘与空间地理信息等;
Spark Streaming的相关文献由199位作者贡献,包括刘亮、刘珍、吴海波等。
Spark Streaming
-研究学者
- 刘亮
- 刘珍
- 吴海波
- 周倩
- 宋爱波
- 念其锋
- 方明
- 施式亮
- 施炤
- 涂金林
- 秦小麟
- 郑诗敏
- Jian Zhang1
- Ou Jin1
- Qidi Liang1
- Yiqiao Jin1
- 丁中涛
- 丁中涛1
- 上官陈媛
- 严磊
- 严磊1
- 云惟英
- 付眸
- 伍大勇
- 何利文
- 何成万
- 何润
- 侯敬儒
- 冯兴
- 冯朝胜
- 冯瑞
- 况立群
- 刘丰维
- 刘丽美
- 刘姣
- 刘宇为
- 刘宇为1
- 刘旭林
- 刘永涛
- 刘跃红
- 刘雅伦
- 刘露
- 刘飞
- 刘飞1
- 卜凡鹏
- 卜凡鹏2
- 史惠存
- 吴世雄
- 吴世雄1
- 吴唐美
-
-
张晓;
孙超;
王旻燕;
陈文琴;
曾乐
-
-
摘要:
实时气象卫星数据存在多源异构、高时效性等特点,使得气象部门不易及时发现实时卫星数据在传输过程中的各种问题,对下游实时卫星数据用户的服务也有一定影响。为了提高对实时气象卫星数据的监视能力,基于Rest API、Kafka消息队列、Spark Streaming、Redis缓存等大数据技术在国家级气象业务环境中搭建了实时卫星数据监视流程,对卫星数据进行统一编码,从而实现对全球各种实时卫星数据根据不同来源、不同卫星、不同仪器进行精细化的全流程监视,并基于气象大数据云平台、气象综合业务实时监控系统等业务系统增加了监视告警功能。
-
-
韩雨轩;
李盼颖;
温秀梅;
马兆辉;
张书玮
-
-
摘要:
大数据时代背景下,某些领域对数据实时处理的需求日益加剧,实时流计算框架作为一种新的热门技术,在诸如Web应用、网络监控等领域扮演着重要角色.首先对时下两种应用广泛的流式计算框架Storm和Spark Streaming进行原理分析,并通过实时词频统计实验,分析这两种框架的结构和工作流程,对比分析了两种框架之间的不同点,最后对基于Spark Streaming的实验进行了改进,将Spark Streaming、Flume和Kafka进行了整合,实现在集群环境中的流数据处理.
-
-
刘露;
申国伟;
郭春;
崔允贺;
蒋朝惠;
伍大勇
-
-
摘要:
Spark Streaming作为主流的开源分布式流分析框架,性能优化是目前的研究热点之一.在Spark Streaming性能优化中,业务场景下的配置参数优化是其性能提升的重要因素.在Spark Streaming系统中,可配置的参数有200多个,对参数调优人员的经验要求较高,未经优化的参数配置会影响流作业执行性能.因此,针对Spark Streaming的参数配置优化问题,提出一种基于深度强化学习的Spark Streaming参数优化方法(DQN-SSPO),将Spark Streaming参数优化配置问题转化为深度强化学习模型训练中的最大回报获得问题,并提出权重状态空间转移方法来增加模型训练获得高反馈奖励的概率.在3种典型的流分析任务上进行实验,结果表明经参数优化后Spark Streaming上的流作业性能在总调度时间上平均缩减27.93%,在总处理时间上平均缩减42%.
-
-
王丹;
邓谦;
刘姣
-
-
摘要:
高校在实现智慧化的同时也面临着网站发布信息或网页内容被黑客篡改成不符合国家或学校规定的信息及内容.通过对已有学术研究发现,现有技术的研究普遍存在着效率低、实时性差的问题,本文提出了一种基于Spark Streaming的高校网站敏感信息监测系统.该系统利用Kafka作为中间存储,系统架构在Spark Streaming框架上可实时消费Kafka中数据进行链接解析处理,将获取到的网页内容存储到Elastic Search中进行倒排索引敏感信息匹配,从而达到数据采集和数据处理同步,提高了网站监测效率.
-
-
马晟;
刘雅伦;
陈晓男;
沈漪
-
-
摘要:
城市的发展使得运营车辆日益增长,车辆调度愈发困难,传统系统无法满足现有众多车辆的监控调度与运营.该程序基于大数据流处理系统,实现了大批量的车辆信息监测和实时处理以及车辆的精细监控与轨迹回放.可用于网约车、公交车以及货运集团的调度中心进行实时监控和订单把控,以提高车辆调度的灵活性,达到最优调度、减少成本的效果.
-
-
郑美容
-
-
摘要:
近年来,随着大数据技术的快速发展,大数据处理平台迅速兴起.大数据处理平台具有高吞吐量、网络协议多、端口多、数据量大、高并发等特征,借助传统入侵检测技术很难实时监控网络危险.为提高网络入侵检测的准确率和实时性,笔者提出一种改进模糊C均值算法,对分类后的数据集进行训练,使用Kafka技术处理采集的数据,通过Spark Streaming读取网络实时传输的数据流,并对检测到的入侵数据进行实时检测.
-
-
李恩洲;
况立群;
张元;
韩燮;
熊风光
-
-
摘要:
针对供热环境在城市间一体化程度的提高而引发的设备种类繁多、采集信息量大、数据类型多样化、处理和分析困难以及各设备数据信息展示不直观的问题,研发并实现了一种智慧供热大数据监测平台,并在山西省供热体系中进行了应用.平台以云计算为基础架构,采用基于React的前端技术,将开发模块组件化,并通过构建虚拟DOM(虚拟文档对象)机制解决了因复杂和频繁的DOM操作引发的性能瓶颈问题.针对供热设备产生数据的结构特点,研发基于kafka+Spark Streaming的数据清洗方案,解决了因数据量大、种类多样化而产生的数据处理效率、存储设备压力以及实时数据传输问题.此外,平台还提供了定制化的可视化界面,并且通过数据分批处理机制,解决了实时数据和大数据量展示过程中响应慢的问题.
-
-
刘丰维
-
-
摘要:
随着大数据、云计算及人工智能等技术的快速发展,推荐系统在电商平台中扮演着愈加重要的角色,在用户留存、GMV提升等方面有显著贡献.电商平台商品规模为百万级别,用户数量为千万级别,用户行为成为分析用户偏好的主要因素,因此针对用户个人的个性化推荐成为电商推荐系统重点研究方向.文章设计了电商领域基于用户行为的个性化推荐系统,实现对用户行为的实时采集、用户偏好的实时计算.根据用户实时偏好,对协同过滤、相似商品、热度等多召回源进行重排,生成实时推荐结果.经过线上验证,文章设计开发的个性化推荐系统比人工配置在CTR指标上提升了100%以上.
-
-
-
-
-
-
-
-
-
- 四川启睿克科技有限公司
- 公开公告日期:2022-03-04
-
摘要:
本发明公开了一种基于sparkstreaming与springboot的动态任务提交方法,包括:在定义receiver里面强制引用store对象,使得接收到数据后可以对数据进行store,最终通过receiver对象进行调用;在类Receiver里面自定义updateCurrentBuffer,最终通过Receiver对象进行调用;给batchInfo增加myFlag私有属性;在类StreamingContext里面增加generatejobs方法,最终通过streamingcontext对象进行调用;某一批次数据结束执行时候,监听器触发onBatchCompleted方法,结合自定义标记myFlag,在数据完成后继续完成紧后活动。本专利采用了修改sparkstreaming源代码方法,解决了不能主动标记、发送、加载数据,提交jobs的问题,达到了sparkstreaming从数据接收到任务完成秒级以内实时处理的目的。
-