上海(Shanghai) Apache Spark Meetup第十二次聚会

文章目录

1 大会主题
2 日程表
3 地图与交通
4 报名地址

第十二次Shanghai Apache Spark Meetup聚会，由Splunk中国大力支持。活动将于2017年03月18日12:30~16:45在上海淞沪路303号901 （大学路智星路路口汇丰银行楼9楼）Splunk 中国进行。举办地点交通方便，靠近地铁10号线江湾体育场站，座位有限(大约120)，先到先得，速速行动啊。

大会主题

《利用Spark开发高并发，高可靠的分布式大数据采集调度系统》(13:15 – 13:55)，
演讲嘉宾：陶刚 Splunk 上海架构师。
主题简介：Splunk是一个分布式的机器数据平台，提供一体化的数据收集，存储，搜索，查询，展示的平台。Splunk的传统的Forwarder架构很难扩展和管理，而且是单点故障，成为整个系统的瓶颈。本次演讲，讨论了如何利用Spark，实现一个高可用，高扩展的分布式任务调度系统，并用于海量数据的采集，以取代传统Splunk平台中的Forwarder的架构。
《Intel BigDL: 基于Apache Spark的分布式深度学习框架》(13:55 – 14:35)
演讲嘉宾：王奕恒, 英特尔大数据团队资深软件工程师。主要专注于大数据分析领域。Spark分布式机器学习及深度学习框架主要贡献者。
主题简介：BigDL 是英特尔开源的基于Apache Spark 的分布式深度学习框架，其借助于现有Spark集群来运行深度学习计算并简化存储在Hadoop中的大数据加载。在Xeon平台上提供运行效率大大优于开源框架Cafee,Torch 和TensorFlow ，可媲美主流GPU。本演讲将带给大家一个全面的BigDL 架构，性能，运行模式的介绍。
《NUMA内存架构下的Spark性能优化》(14:55 – 15:35)
演讲嘉宾：吴晓昶，英特尔云计算及大数据实验室，高级软件架构师。
主题简介：非一致内存访问（NUMA）是自Intel Nehalem平台引入的内存架构，在目前的服务器系统上广泛存在。本演讲将首先回顾NUMA的技术要点以及它如何影响内存密集型Spark应用程序的性能。然后将介绍识别NUMA性能问题的工具和方法，以及我们为Spark任务调度添加NUMA感知方面的工作。在对基准测试TPC-DS和TPCx-BB以及现实中的工作负载的实验表明，经过优化之后的性能最高可以提升8.9％。
《Livy - 基于Apache Spark之上的REST服务》(15:35 – 16:15)
演讲嘉宾：邵赛赛Hortonworks技术专家，专注于开源大数据领域，Apache Spark活跃贡献者。前 Intel 大数据团队成员，专注于Apache Hadoop和Spark等相关大数据平台的性能测试，调优以及改进。
主题简介：Livy是构建于Apache Spark之上的REST服务，它提供了安全、高可用、灵活的REST API使用户可以以交互式、批处理以及编程式API的方式操作Spark。本演讲将为大家介绍Livy的基本功能、高阶特性以及与其他类似框架的比较。