欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

最新发布 第47页

过往记忆专注于大数据技术构架及应用,微信公众号:过往记忆大数据

Distributed System

分布式系统一致性问题、CAP定律以及 BASE 理论

分布式系统一致性问题、CAP定律以及 BASE 理论
一致性问题在介绍分布式系统一致性问题之前,我们先来了解一下副本概念。分布式系统会存在许多异常问题,比如机器宕机;为了提供高可用服务,一般会将数据或者服务部署到很多机器上,这些机器中的数据或服务可以称为副本。如果其中任何一台节点出现故障,用户可以访问其他机器上的数据或服务。由于副本的存在,如

w397090770   6年前 (2018-05-04) 4574℃ 0评论10喜欢

数据结构

二叉树的前中后遍历

二叉树的前中后遍历
二叉树的前序遍历给你二叉树的根节点 root ,返回它节点值的 前序 遍历。示例 1:输入: [code lang="bash"] 1 \ 2 / 3 [/code]输出: [1,2,3]示例 2:输入: [code lang="bash"] 1 /2[/code]输出: [1,2]递归首先我们需要了解什么是二叉树的前序遍历:按照访问根节点——左子树——右子树的方式遍历这棵树,而在

w397090770   6年前 (2018-05-02) 45℃ 0评论0喜欢

CarbonData

CarbonData源码浅析一:Create Table

CarbonData源码浅析一:Create Table
本文来自 恩爸 的文章,原文地址:https://blog.csdn.net/zzcclp/article/details/80161130前言一个偶然的机会,从某Spark微信群知道了CarbonData,从断断续续地去了解,到测试 1.2 版本,再到实际应用 1.3 版本的流式入库,也一年有余,在这期间,得到了 CarbonData 社区的陈亮,李昆,蔡强等大牛的鼎力支持,自己也从认识CarbonData 到应用 Carbo

w397090770   6年前 (2018-05-02) 2725℃ 0评论7喜欢

Distributed System

分布式系统调用的三态

分布式系统调用的三态
在传统的单机系统中,我们调用一个函数,这个函数要么返回成功,要么返回失败,其结果是确定的。可以概括为传统的单机系统调用只存在两态(2-state system):成功和失败。然而在分布式系统中,由于系统是分布在不同的机器上,系统之间的请求就相对于单机模式来说复杂度较高了。具体的,节点 A 上的系统通过 RPC (Remote Proc

w397090770   6年前 (2018-04-20) 2445℃ 0评论9喜欢

Hadoop

Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA

Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA
4月6日,Apache Hadoop 3.1.0 正式发布了,Apache Hadoop 3.1.0 是2018年 Hadoop-3.x 系列的第一个小版本,并且带来了许多增强功能。不过需要注意的是,这个版本并不推荐在生产环境下使用,如果需要在正式环境下使用,请等待 3.1.1 或 3.1.2 版本。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop这个版

w397090770   6年前 (2018-04-08) 3491℃ 0评论15喜欢

Spark

Apache Spark 统一内存管理模型详解

Apache Spark 统一内存管理模型详解
本文将对 Spark 的内存管理模型进行分析,下面的分析全部是基于 Apache Spark 2.2.1 进行的。为了让下面的文章看起来不枯燥,我不打算贴出代码层面的东西。文章仅对统一内存管理模块(UnifiedMemoryManager)进行分析,如对之前的静态内存管理感兴趣,请参阅网上其他文章。我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内

w397090770   6年前 (2018-04-01) 19674℃ 4评论92喜欢

Hadoop

HDFS 副本存放磁盘选择策略

HDFS 副本存放磁盘选择策略
在 HDFS 中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的设备上,比如分别配置到不同的HDD(HDD的全称是Hard Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的固态硬盘)上。当

w397090770   6年前 (2018-03-28) 5228℃ 3评论24喜欢

Zookeeper

Apache Zookeeper 磁盘空间预分配策略

Apache Zookeeper 磁盘空间预分配策略
我们知道,Zookeeper 会将所有事务操作的数据记录到日志文件中,这个文件的存储路径可以通过 dataLogDir 参数配置。在写数据之前,Zookeeper 会采用磁盘空间预分配策略;磁盘空间预分配策略主要有以下几点好处:可以让文件尽可能的占用连续的磁盘扇区,减少后续写入和读取文件时的磁盘寻道开销;迅速占用磁盘空间,防止使用

w397090770   6年前 (2018-03-23) 2042℃ 0评论5喜欢

Distributed System

Paxos Made Simple 译文

Paxos Made Simple 译文
原文名:Paxos Made Simple [PDF下载] Leslie Lamport 2001/11/01翻译:phylipsbmy 原译文链接: http://duanple.blog.163.com/blog/static/709717672011440267333/审校:Jerry Lee oldratlee<at>gmail<dot>com译序“在PODC2001会议上,我总是听到人们在抱怨Paxos算法是那么的难以理解。人们总是被那些古希腊的名称弄得晕头转向,而使得他们觉得论文难以理解

w397090770   6年前 (2018-03-12) 3539℃ 0评论9喜欢

Spark

Apache Spark 2.3 重要特性介绍

Apache Spark 2.3 重要特性介绍
本文翻译自:Introducing Apache Spark 2.3为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;通过改善 pandas UDFs 的性能来提升 PySpark;支持第四种调度引擎 Kubernetes clusters(其他三种分别是自带的独立模式St

w397090770   6年前 (2018-03-01) 7198℃ 3评论32喜欢