欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

最新发布 第64页

过往记忆专注于大数据技术构架及应用,微信公众号:过往记忆大数据

机器学习

来自RISELab实验室解决机器学习新的大数据工具

来自RISELab实验室解决机器学习新的大数据工具
大家对加州大学伯克利分校的AMPLab可能不太熟悉,但是它的项目我们都有所耳闻——没错,它就是Spark和Mesos的诞生之地。AMPLab是加州大学伯克利分校一个为期五年的计算机研究计划,其初衷是为了理解机器和人如何合作处理和解决数据中的问题——使用数据去训练更加丰富的模型,有效的数据清理,以及进行可衡量的数据扩展。

w397090770   8年前 (2017-02-09) 1303℃ 0评论3喜欢

Flink

Apache Flink数据流容错机制

Apache Flink数据流容错机制
Introduce  Apache Flink 提供了可以恢复数据流应用到一致状态的容错机制。确保在发生故障时,程序的每条记录只会作用于状态一次(exactly-once),当然也可以降级为至少一次(at-least-once)。  容错机制通过持续创建分布式数据流的快照来实现。对于状态占用空间小的流应用,这些快照非常轻量,可以高频率创建而对性能影

zz~~   8年前 (2017-02-08) 4553℃ 0评论7喜欢

Flink

Apache Flink 1.2.0正式发布及其功能介绍

Apache Flink 1.2.0正式发布及其功能介绍
  大家期待已久的Apache Flink 1.2.0今天终于正式发布了。本版本一共解决了650个issues,详细的列表参见这里。Apache Flink 1.2.0是1.x.y系列的第三个主要版本;其API和其他1.x.y版本使用@Public标注的API是兼容的,推荐所有用户升级到此版本。更多关于Apache Flink 1.2.0新功能可以参见Apache Flink 1.2.0新功能概述如果想及时了解Spark、Hadoop或者H

w397090770   8年前 (2017-02-07) 1809℃ 6喜欢

Spark

Apache Spark:承诺和面临的挑战

Apache Spark:承诺和面临的挑战
  如果你要寻求一种处理海量数据的解决方案,就会有很多可选项。选择哪一种取决于具体的用例和要对数据进行何种操作,可以从很多种数据处理框架中进行遴选。例如Apache的Samza、Storm和Spark等等。本文将重点介绍Spark的功能,Spark不但非常适合用来对数据进行批处理,也非常适合对时实的流数据进行处理。  Spark目前已经

w397090770   8年前 (2017-02-06) 1670℃ 0评论4喜欢

CarbonData

Apache CarbonData 1.0.0发布及其新特性介绍

Apache CarbonData 1.0.0发布及其新特性介绍
大年初二Apache CarbonData迎来了第四个稳定版本CarbonData 1.0.0。CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。CarbonData 1.0.0版本,一共带来了80+ 个新特性,并且有100+ 个bugfi

w397090770   8年前 (2017-01-29) 2742℃ 0评论6喜欢

Deep Learning

BigDL:运行在Apache Spark上的分布式深度学习类库

BigDL:运行在Apache Spark上的分布式深度学习类库
  近日,Intel开源了基于Apache Spark的分布式深度学习框架BigDL。有了BigDL之后,用户可以像编写标准的Spark程序一样来编写深度学习(deep learning)应用程序,编写完的程序还可以直接运行在现有的Spark或者Hadoop集群之上。BigDL主要有以下三大特点:[gt href="https://github.com/intel-analytics/BigDL "]BigDL GitHub地址[/gt]丰富的深度学习算法支

w397090770   8年前 (2017-01-19) 4381℃ 0评论14喜欢

HBase

Apache HBase 1.3.0正式发布

Apache HBase 1.3.0正式发布
  Apache HBase 1.3.0于美国时间2017年01月17日正式发布。本版本是Hbase 1.x版本线的第三次小版本,大约解决了1700个issues,主要包括了大量的Bug修复和性能提升;其中以下的新特性值得关注:Date-based tiered compactions (HBASE-15181, HBASE-15339)Maven archetypes for HBase client applications (HBASE-14877)Throughput controller for flushes (HBASE-14969)Controlled delay (CoD

w397090770   8年前 (2017-01-18) 3402℃ 0评论3喜欢

Spark

一篇文章了解 Spark Shuffle 内存使用

一篇文章了解 Spark Shuffle 内存使用
在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢? 为此,本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识;然后,简要分析下在 Spark Shuffle 中有可能导致 OOM

w397090770   8年前 (2017-01-17) 792℃ 0评论1喜欢

Flink

Flink可查询状态Queryable State:替换你的数据库

Flink可查询状态Queryable State:替换你的数据库
  好吧,有点标题党了!哈哈,这里介绍的Flink可查询状态提供的功能是有限的,不可能完全替换掉你的数据库(也可以说是持久化存储)。  我在《Apache Flink 1.2.0新功能概述》文章中简单介绍了即将发布的Apache Flink 1.2.0一些比较重要的新功能,其中就提到了Flink 1.2版本的两大重要特性:动态扩展(Dynamic Scaling)和可查询状

w397090770   8年前 (2017-01-15) 4822℃ 0评论4喜欢

Beam

Apache Beam成为Apache顶级项目

Apache Beam成为Apache顶级项目
  Apache软件基金会在2017年01月10正式宣布Apache Beam从孵化项目毕业,成为Apache的顶级项目。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop  Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目,被认为是继MapReduce,GFS和BigQuery等之后,Google在大数据处理领

w397090770   8年前 (2017-01-12) 3154℃ 0评论7喜欢