w397090770的文章

32 道常见的 Kafka 面试题你都会吗？附答案

最近很多粉丝后台留言问了一些大数据的面试题，其中包括了大量的 Kafka、Spark等相关的问题，所以我特意抽出一些时间整理了一些场景的大数据相关面试题，本文是 Kafka 面试相关问题，其他系列面试题后面会陆续整理，欢迎关注过往记忆大数据公众号。当然，由于个人知识面的限制，还有很多面试题相关的东西本文没有收集整理

5年前 (2019-09-14) 17039℃ 3评论37喜欢

Delta Lake

Apache Spark Delta Lake 写数据使用及实现原理代码解析

Delta Lake 写数据是其最基本的功能，而且其使用和现有的 Spark 写 Parquet 文件基本一致，在介绍 Delta Lake 实现原理之前先来看看如何使用它，具体使用如下：[code lang="scala"]df.write.format("delta").save("/data/iteblog/delta/test/")//数据按照 dt 分区df.write.format("delta").partitionBy("dt").save("/data/iteblog/delta/test/"

5年前 (2019-09-10) 2211℃ 0评论2喜欢

Delta Lake

这可能是学习 Spark Delta Lake 最全的资料

Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（optimistic concurrency control），在写入数据期间提供一致性的读取，从而为构建在 HDFS 和云存储上的数据湖（data lakes）带来可靠性。Delta Lake 还提供内置数据版本控制，以便轻松回滚。为了更好的学习 Delta Lake ，本文

5年前 (2019-09-09) 4020℃ 0评论4喜欢

Cassandra

使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎

Apache Kafka 是一个可扩展，高性能，低延迟的平台，允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。Spark Streaming 是 Apache Spark 的一部分，是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的，但是支持 Java API。Apache Cassandra 是分布式的 NoSQL 数据库。在这篇文章中，我们将

5年前 (2019-09-08) 4085℃ 0评论8喜欢

Cassandra

印度版的“大众点评”如何将 Food Feed 业务从 Redis 迁移到 Cassandra

Zomato 是一家食品订购、外卖及餐馆发现平台，被称为印度版的“大众点评”。目前，该公司的业务覆盖全球24个国家（主要是印度，东南亚和中东市场）。本文将介绍该公司的 Food Feed 业务是如何从 Redis 迁移到 Cassandra 的。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公众号：iteblog_hadoopFood Feed 是 Zomato 社交场景

5年前 (2019-09-08) 1146℃ 0评论2喜欢

Cassandra

Cassandra nodetool常用命令介绍

简介nodetool是cassandra自带的外围工具，通过JMX可以动态修改当前进程内存数据，注意cassandra是无主对等架构，默认的命令是操作本机当前进程，例如repair，如果需要做全集群修复，需要在每台机器上执行对应的nodetool命令。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公众号：iteblog_hadoop执行nodetool help命令可

5年前 (2019-09-08) 3723℃ 0评论3喜欢

Cassandra

重磅：阿里云全球首发云 Cassandra 服务！

引言：十年沉淀、全球宽表排名第一、阿里云首发云Cassandra服务ApsaraDB for Cassandra是基于开源Apache Cassandra，融合阿里云数据库DBaaS能力的分布式NoSQL数据库。Cassandra已有10年+的沉淀，基于Amazon DynamoDB的分布式设计和 Google Bigtable 的数据模型。具备诸多优异特性：采用分布式架构、无中心、支持多活、弹性可扩展、高可用、容错、一

6年前 (2019-09-05) 2181℃ 0评论4喜欢

Delta Lake

Apache Spark Delta Lake 事务日志实现源码分析

我们已经在这篇文章详细介绍了 Apache Spark Delta Lake 的事务日志是什么、主要用途以及如何工作的。那篇文章已经可以很好地给大家介绍 Delta Lake 的内部工作原理，原子性保证，本文为了学习的目的，带领大家从源码级别来看看 Delta Lake 事务日志的实现。在看本文时，强烈建议先看一下《深入理解 Apache Spark Delta Lake 的事务日志》文

6年前 (2019-09-02) 1762℃ 0评论4喜欢

Delta Lake

深入理解 Apache Spark Delta Lake 的事务日志

事务日志是理解 Delta Lake 的关键，因为它是贯穿许多最重要功能的通用模块，包括 ACID 事务、可扩展的元数据处理、时间旅行（time travel）等。本文我们将探讨事务日志（Transaction Log）是什么，它在文件级别是如何工作的，以及它如何为多个并发读取和写入问题提供优雅的解决方案。事务日志（Transaction Log）是什么Delta Lake 事务日

6年前 (2019-08-22) 1847℃ 0评论6喜欢

MongoDB

MongoDB 4.2 发布，支持分布式事务

MongoDB 4.2 稳定版于近日正式发布了，此版本带来了许多最大的特性，比如分布式事务（Distributed Transactions）、客户端字段级别加密（Client-Side Field-Level Encryption)、按需物化视图（On-Demand Materialized Views）以及通配符索引（Wildcard Indexes）。下面我们来简单介绍一下各个新特性。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关

6年前 (2019-08-18) 1995℃ 0评论3喜欢

上一页
1
···
27
28
29
30
31
32
33
34
35
36
37
...
133
下一页
共 133 页