2019年03月的内容

从 Hive 迁移到 Spark SQL 在有赞的实践

有赞数据平台从2017年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议，包括以下方面的内容：有赞数据平台的整体架构。SparkSQL 在有赞的技术演进

w397090770 6年前 (2019-03-20) 8287℃ 5评论29喜欢

Spark

在使用 Spark 进行计算时，我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况，而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢？为此，本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识；然后，简要分析下在 Spark Shuffle 中有可能导致 OOM

w397090770 6年前 (2019-03-17) 5390℃ 0评论19喜欢

Hive

Apache Hive 联邦查询（Query Federation）

如今，很多公司可能会在内部使用多种数据存储和处理系统。这些不同的系统解决了对应的使用案例。除了传统的 RDBMS （比如 Oracle DB，Teradata或PostgreSQL）之外，我们还会使用 Apache Kafka 来获取流和事件数据。使用 Apache Druid 处理实时系列数据（real-time series data），使用 Apache Phoenix 进行快速索引查找。此外，我们还可能使用云存储

w397090770 6年前 (2019-03-16) 5228℃ 1评论8喜欢

ElasticSearch

Open Distro for Elasticsearch：AWS 自家版本的开源 ElasticSearch

AWS 于近期发布了自家版本的开源 ElasticSearch ：Open Distro for Elasticsearch。我们都知道，Elasticsearch 是一个分布式面向文档的搜索和分析引擎。它支持结构化和非结构化查询，并且不需要提前定义模式。 Elasticsearch 可用作搜索引擎，通常用于 Web 级日志分析，实时应用程序监控和点击流分析，在国内外有很多用户使用。AWS 通过 AWS Elasticse

w397090770 6年前 (2019-03-13) 4233℃ 0评论10喜欢

Spark

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合，在机器学习里面，因为计算迭代的时间可能会很长，开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。作为通用计算引擎的 Spark 肯定也不甘落后，来自 Databricks、NVIDIA、Google 以及阿里巴巴的工程师们正在为 Apache Spark 添加

w397090770 6年前 (2019-03-10) 6479℃ 0评论9喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

2019年03月的内容

从 Hive 迁移到 Spark SQL 在有赞的实践

一篇文章了解 Spark Shuffle 内存使用

Apache Hive 联邦查询（Query Federation）

Open Distro for Elasticsearch：AWS 自家版本的开源 ElasticSearch

Apache Spark 3.0 将内置支持 GPU 调度