欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

最新发布 第35页

过往记忆专注于大数据技术构架及应用,微信公众号:过往记忆大数据

Spark

一条 SQL 在 Apache Spark 之旅(中)

一条 SQL 在 Apache Spark 之旅(中)
在 《一条 SQL 在 Apache Spark 之旅(上)》 文章中我们介绍了一条 SQL 在 Apache Spark 之旅的 Parser 和 Analyzer 两个过程,本文接上文继续介绍。优化逻辑计划阶段 - Optimizer在前文的绑定逻辑计划阶段对 Unresolved LogicalPlan 进行相关 transform 操作得到了 Analyzed Logical Plan,这个 Analyzed Logical Plan 是可以直接转换成 Physical Plan 然后在 Spark 中执

w397090770   5年前 (2019-06-18) 5594℃ 4评论21喜欢

资料分享

Github clone 速度太慢?试试这个方案吧。

Github clone 速度太慢?试试这个方案吧。
大家肯定都知道要想在国内下载一个项目到本地速度太慢了。可以试试下面方案,把原地址:https://github.com/xxx.git 替换为:https://github.com.cnpmjs.org/xxx.git 即可。比如我们要克隆下面项目到本地,可以操作如下:[code lang="bash"][root@iteblog.com ~]$ git clone https://github.com.cnpmjs.org/397090770/web正克隆到 'web'...Username for 'https://github.com.cnpmjs.org

w397090770   5年前 (2019-06-14) 881℃ 0评论1喜欢

Spark

一条 SQL 在 Apache Spark 之旅(上)

一条 SQL 在 Apache Spark 之旅(上)
Spark SQL 是 Spark 众多组件中技术最复杂的组件之一,它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持,大大降低了开发人员的学习和使用成本。目前,整个 SQL 、Spark ML、Spark Graph 以及 Structured Streaming 都是运行在 Catalyst Optimization & Tungsten Execution 之上的,如下图所示:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关

w397090770   5年前 (2019-06-12) 10671℃ 0评论31喜欢

Kafka

Kafka 是如何保证数据可靠性和一致性

Kafka 是如何保证数据可靠性和一致性
学过大数据的同学应该都知道 Kafka,它是分布式消息订阅系统,有非常好的横向扩展性,可实时存储海量数据,是流数据处理中间件的事实标准。本文将介绍 Kafka 是如何保证数据可靠性和一致性的。数据可靠性Kafka 作为一个商业级消息中间件,消息可靠性的重要性可想而知。本文从 Producter 往 Broker 发送消息、Topic 分区副本以及

w397090770   5年前 (2019-06-11) 12741℃ 2评论42喜欢

Hadoop

Uber 大数据平台的演进(2014~2019)

Uber 大数据平台的演进(2014~2019)
Uber 致力于在全球市场上提供更安全,更可靠的运输服务。为了实现这一目标,Uber 在很大程度上依赖于数据驱动的决策,从预测高流量事件期间骑手的需求到识别和解决我们的驾驶员-合作伙伴注册流程中的瓶颈。自2014年以来,Uber 一直致力于开发大数据解决方案,确保数据可靠性,可扩展性和易用性;现在 Uber 正专注于提高他们平

w397090770   5年前 (2019-06-06) 3240℃ 0评论8喜欢

Kafka

一文了解 Kafka 的副本复制机制

一文了解 Kafka 的副本复制机制
让分布式系统的操作变得简单,在某种程度上是一种艺术,通常这种实现都是从大量的实践中总结得到的。Apache Kafka 的受欢迎程度在很大程度上归功于其设计和操作简单性。随着社区添加更多功能,开发者们会回过头来重新思考简化复杂行为的方法。Apache Kafka 中一个更细微的功能是它的复制协议(replication protocol)。对于单个集

w397090770   5年前 (2019-05-26) 5036℃ 1评论14喜欢

Spark

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的
Airbnb 日志事件获取日志事件从客户端(例如移动应用程序和 Web 浏览器)和在线服务发出,其中包含行为或操作的关键信息。每个事件都有一个特定的信息。例如,当客人在 Airbnb.com 上搜索马里布的海滨别墅时,将生成包含位置,登记和结账日期等的搜索事件。在 Airbnb,事件记录对于我们理解客人和房东,然后为他们提供更

w397090770   5年前 (2019-05-19) 2848℃ 0评论8喜欢

Cassandra

Apache Cassandra 在 Facebook 的应用

Apache Cassandra 在 Facebook 的应用
在 Instagram (Instagram 是 Facebook 公司旗下一款免费提供在线图片及视频分享的社交应用软件,于2010年10月发布。)上,我们拥有世界上最大的 Apache Cassandra 数据库部署。我们在 2012 年开始使用 Cassandra 取代 Redis ,在生产环境中支撑欺诈检测,Feed 和 Direct inbox 等产品。起初我们在 AWS 环境中运行了 Cassandra 集群,但是当 Instagram 架构发生

w397090770   5年前 (2019-05-08) 1136℃ 0评论0喜欢

Cassandra

欢迎加入中国 Cassandra 技术社区

欢迎加入中国 Cassandra 技术社区
Apache Cassandra 是一个开源的、分布式、无中心、弹性可扩展、高可用、容错、一致性可调、面向行的数据库,它基于 Amazon Dynamo 的分布式设计和 Google Bigtable 的数据模型,由 Facebook 创建,在一些最流行的网站中得到应用。更多特点请参见 一篇文章了解 Apache Cassandra 是什么。由于 Cassandra 数据库的众多优点,在国内外多达 1500+ 家公

w397090770   5年前 (2019-05-08) 1721℃ 0评论5喜欢

Spark

Spark+AI Summit 2019 PPT 下载[共124个]

Spark+AI Summit 2019 PPT 下载[共124个]
为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山(San Francisco)进行。数据和 AI 是需要结合的,而 Spark 能够处理海量数据的分析,将 Spark 和 AI 进行结合,无疑会带来更好的产品。作为大数据领域的顶级会议,Spark+AI Summit 2019 吸引了全球大量技术大咖参会,而且 Spark+AI Summit 越做越大,本次会议议题快接近200多个。会议的

w397090770   5年前 (2019-05-07) 829℃ 0评论0喜欢