出品人:阎志涛

TalkingData研发副总裁

阎志涛现任TalkingData研发副总裁,领导研发了公司的数据管理平台(DMP)、数据观象台等产品,并且负责公司大数据计算平台的研发。目前专注于构建一个融合多种计算模型,支持机器学习和数据挖掘的大数据计算平台。关注Spark、Hadoop、HBase、MongoDB等技术。超过15年的IT领域从业经验,一直从事大规模分布式计算系统、中间件、BI等相关工作。

本科毕业于北京大学大气物理专业,硕士毕业于华北计算技术研究所,研究方向为分布式计算系统。在加入TalkingData之前,历任IBM CDL资深架构师,Oracle亚太区首席中间件技术顾问,BEA亚太区首席中间件技术顾问等职务。参与一系列跨国以及大型的国内的中间件、BI等项目。

主题:流式大数据和即时交互式分析技术

内容简介:大数据技术逐渐变成企业的标配,漫长的等待数据分析结果已经不合时宜,延迟更低的流式大数据处理技术,即时分析变得越来越重要。在本论坛将给大家带来行业中领先的流式大数据,即时交互式分析技术的相关分享。

返回

演讲嘉宾:陈丰

苏宁易购IT总部

大数据平台高级技术经理

负责苏宁易购集团大数据流计算平台建设,包括Storm、SparkStreaming、Flink等组件,经历了流计算从组件化到平台服务化到智能化的发展过程。对大数据开源框架有较为丰富的经验,在分布式计算架构设计和系统优化方面有自己的思考和领悟。

主题:流计算在苏宁的前世今生

1. 流计算平台的发展历程

2014年到现在4年多的发展历程,经历storm->spark streaming->flink的转变,目前在转变中。

规模:storm(4000~虚机节点),flink&spark streaming(200+物理节点,on yarn模式),各引擎发展过程中的问题及解决;

2. storm及spark streaming的缺点&我们为什么选择flink?

(1)兼顾吞吐量和延时

(2)高效的状态管理

(3)Exactly-Once的保证

(4)Event-Time

3. 关于flink,我们做了哪些工作?

(1)平台层功能丰富:sql语法丰富(distinct,流表join),算子自动扩缩容,connector(mysql, hbase,kafka1.0),sink降速

(2)工具层:统一日志收集及展示、统一监控管理平台(平台层&业务层)

(3)服务层:Dlink 一站式开发平台。

4. 未来展望

数据集成 && 机器学习 && CEP 等

演讲嘉宾:黄祥为

网易资深数据研发工程师

从事大数据研发工作七年,现负责网易严选流计算平台、数据交换平台和机器学习平台的建设。对分布式调度、内存计算和流计算的理论和实现有一定的研究,对相关开源框架(Flink、spark)有丰富的研发经验。

主题:基于Flink的严选流计算平台架构与应用实践

流计算技术因其对事件的快速响应而极具吸引力,在电商平台中已成为一项不可或缺的技术。

随着近几年开源流计算框架的快速发展和易用性、可靠性的不断改善,使其在生产环境大范围使用变得简单。在严选,流计算平台经历了从无到有近两年的发展,很大程度上提高了数据产出和辅助决策效率。

目前平台已在公司内部被广泛使用,如监控、实时数仓、风控等业务。本次分享将介绍严选流计算平台的架构实现以及在严选多个业务线中的实践经验。

演讲嘉宾:王成光

中东新媒体首席架构师,硕士毕业10年,曾先后在百丽电商优购、搜狐、网易、一点资讯任职架构师、技术专家等职位,一直从事搜索、数据挖掘和个性化推荐的设计、研发工作,曾多次从零构建完整的搜索和推荐系统,曾开源轻量级分布式实时计算框架light_drtc,并于2016年出版《分布式实时计算框架原理及实践案例》

主题:流式计算在内容资讯推荐服务的应用

流式计算一直是近年来赤手可热的专业技术话题,内容资讯也是互联网发展近20年来一致持续受资本青睐的创业方向,本期内容主要是向大家介绍流式计算在内容资讯推荐方面的应用,给大家介绍当前主流资讯推荐服务流程,介绍其中用户画像的实时更新,这个也正是流式计算的典型应用。

听众收益点:

1). 了解内容资讯推荐服务流程

2). 了解用户画像

3)了解用户画像实时更新流程

返回