欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

最新发布 第29页

过往记忆专注于大数据技术构架及应用,微信公众号:过往记忆大数据

Delta Lake

还在玩数据仓库?现在已经是 LakeHouse 时代!

还在玩数据仓库?现在已经是 LakeHouse 时代!
引入在Databricks的过去几年中,我们看到了一种新的数据管理范式,该范式出现在许多客户和案例中:LakeHouse。在这篇文章中,我们将描述这种新范式及其相对于先前方案的优势。数据仓库技术自1980诞生以来一直在发展,其在决策支持和商业智能应用方面拥有悠久的历史,而MPP体系结构使得系统能够处理更大数据量。但是,虽

w397090770   5年前 (2020-02-03) 2993℃ 0评论6喜欢

Docker

Docker 入门教程:修改镜像仓库地址

Docker 入门教程:修改镜像仓库地址
我们在 前面的文章文章中介绍了 Docker 默认是从 https://hub.docker.com/仓库下载镜像的,由于这个网址是国外的,所以在下载镜像的时候很可能会非常慢,所以大家应该想到 Docker 是否像 Maven 仓库一样也有一些国内的 Docker 镜像库呢?答案是肯定的。截止到本文撰写的时候,下面几个国内 Docker 镜像地址是可用的:网易 Docker 镜像库:h

w397090770   5年前 (2020-02-03) 11040℃ 0评论4喜欢

Docker

Docker 入门教程:快速开始

Docker 入门教程:快速开始
我们在 《一文了解什么是 Docker》 文章中已经介绍了 Docker 是什么,以及为什么需要 Docker 技术。本文将快速介绍一下如何使用 Docker。安装 DockerDocker 是一个开源的商业产品,支持几乎所有的 Linux 发行版,也支持 Mac 以及 Windows 平台。在各平台上又分为两个版本:免费的社区版(Community Edition,缩写为 CE)和收费的企业版(Enterpri

w397090770   5年前 (2020-02-02) 813℃ 0评论3喜欢

Java 8 Stream 入门

Java 8 Stream API 入门者教程

Java 8 Stream API 入门者教程
Java 8 给我们带来了一个新功能,也就是本文要介绍的 Stream API,它可以让我们以一种声明的方式处理数据。Stream 使用一种类似用 SQL 的语法来提供一种对 Java 集合运算和表达的高阶抽象。极大提高 Java 程序员的生产力,让程序员写出高效率、干净、简洁的代码。本文是 Java 8 Stream API 入门序列文章第一篇,将带领大家快速入门 Java 8 St

w397090770   5年前 (2020-02-01) 502℃ 0评论2喜欢

Docker

Docker 入门教程:一文了解什么是 Docker

Docker 入门教程:一文了解什么是 Docker
2010年,几个大胡子年轻人在旧金山成立了一家名为 dotCloud 的 PaaS 平台的公司。dotCloud 主要是基于 PaaS 平台为开发者或开发商提供技术服务。PaaS 的全称是 Platform as a Service,也就是平台即服务。dotCloud 把需要花费大量时间的手工工作和重复劳动抽象成组件和服务,并放到了云端,另外,它还提供了各种监控、告警和控制功能,方便开

w397090770   5年前 (2020-01-15) 845℃ 0评论7喜欢

Hadoop

字节跳动 EB 级 HDFS 实践

字节跳动 EB 级 HDFS 实践
HDFS 简介因为 HDFS 这样一个系统已经存在了非常长的时间,应用的场景已经非常成熟了,所以这部分我们会比较简单地介绍。HDFS 全名 Hadoop Distributed File System,是业界使用最广泛的开源分布式文件系统。原理和架构与 Google 的 GFS 基本一致。它的特点主要有以下几项:和本地文件系统一样的目录树视图Append Only 的写入(不支持

w397090770   5年前 (2020-01-10) 2348℃ 0评论4喜欢

Spark

Apache Spark 将支持 Stage 级别的资源控制和调度

Apache Spark 将支持 Stage 级别的资源控制和调度
背景熟悉 Spark 的同学都知道,Spark 作业启动的时候我们需要指定 Exectuor 的个数以及内存、CPU 等信息。但是在 Spark 作业运行的时候,里面可能包含很多个 Stages,这些不同的 Stage 需要的资源可能不一样,由于目前 Spark 的设计,我们无法对每个 Stage 进行细粒度的资源设置。而且即使是一个资深的工程师也很难准确的预估一个比较

w397090770   5年前 (2020-01-10) 1435℃ 0评论2喜欢

其他

欢迎加入阿里云 Dala Lake Analytics 团队

欢迎加入阿里云 Dala Lake Analytics 团队
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop回望过去10年,数据技术发展迅速,数据也在呈现爆炸式的增长,这也伴随着如下两个现象。一、数据更加分散:企业的数据是散落在不同的数据存储之中,如对象存储OSS,OLTP的MySQL,NoSQL的Mongo及HBase,以及数据仓库ADB之中,甚至是以服务的形式

w397090770   5年前 (2020-01-07) 1177℃ 0评论3喜欢

Hadoop

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践
为什么要升级在2017年底, Hadoop3.0 发布了,到目前为止, Hadoop 发布的最新版本为3.2.1。在 Hadoop3 中有很多有用的新特性出现,如支持 ErasureCoding、多 NameNode、Standby NameNode read、DataNode Disk Balance、HDFS RBF 等等。除此之外,还有很多性能优化以及 BUG 修复。其中最吸引我们的就是 ErasureCoding 特性,数据可靠性保持不变的情况下可以降

w397090770   5年前 (2020-01-05) 2553℃ 0评论11喜欢

Spark

Apache Spark SQL 在有赞大数据的实践

Apache Spark SQL 在有赞大数据的实践
一、前言在 2019 年 1 月份的时候,我们发表过一篇博客 从 Hive 迁移到 Spark SQL 在有赞的实践,里面讲述我们在 Spark 里所做的一些优化和任务迁移相关的内容。本文会接着上次的话题继续讲一下我们之后在 SparkSQL 上所做的一些改进,以及如何做到 SparkSQL 占比提升到 91% 以上,最后也分享一些在 Spark 踩过的坑和经验希望能帮助到大家

w397090770   5年前 (2020-01-05) 1649℃ 0评论2喜欢