最新发布第64页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139219)474喜欢
1Hive数据类型转换
浏览 (115726)87喜欢
2Hive常用字符串函数
浏览 (102011)66喜欢
3Hive insert into语句用法
浏览 (92972)179喜欢
4Hive常用函数大全一览
浏览 (92445)128喜欢
5Hive几种数据导入方式
浏览 (90883)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87845)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84662)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83720)73喜欢
9Hive:ORC File Format存储格式详解
浏览 (83660)88喜欢
10Spark: sortBy和sortByKey函数详解

来自RISELab实验室解决机器学习新的大数据工具

大家对加州大学伯克利分校的AMPLab可能不太熟悉，但是它的项目我们都有所耳闻——没错，它就是Spark和Mesos的诞生之地。AMPLab是加州大学伯克利分校一个为期五年的计算机研究计划，其初衷是为了理解机器和人如何合作处理和解决数据中的问题——使用数据去训练更加丰富的模型，有效的数据清理，以及进行可衡量的数据扩展。

w397090770 8年前 (2017-02-09) 1303℃ 0评论3喜欢

Flink

Apache Flink数据流容错机制

Introduce　　Apache Flink 提供了可以恢复数据流应用到一致状态的容错机制。确保在发生故障时，程序的每条记录只会作用于状态一次（exactly-once），当然也可以降级为至少一次（at-least-once）。　　容错机制通过持续创建分布式数据流的快照来实现。对于状态占用空间小的流应用，这些快照非常轻量，可以高频率创建而对性能影

zz~~ 8年前 (2017-02-08) 4553℃ 0评论7喜欢

Flink

　　大家期待已久的Apache Flink 1.2.0今天终于正式发布了。本版本一共解决了650个issues，详细的列表参见这里。Apache Flink 1.2.0是1.x.y系列的第三个主要版本；其API和其他1.x.y版本使用@Public标注的API是兼容的，推荐所有用户升级到此版本。更多关于Apache Flink 1.2.0新功能可以参见Apache Flink 1.2.0新功能概述如果想及时了解Spark、Hadoop或者H

w397090770 8年前 (2017-02-07) 1809℃ 6喜欢

Spark

Apache Spark：承诺和面临的挑战

　　如果你要寻求一种处理海量数据的解决方案，就会有很多可选项。选择哪一种取决于具体的用例和要对数据进行何种操作，可以从很多种数据处理框架中进行遴选。例如Apache的Samza、Storm和Spark等等。本文将重点介绍Spark的功能，Spark不但非常适合用来对数据进行批处理，也非常适合对时实的流数据进行处理。　　Spark目前已经

w397090770 8年前 (2017-02-06) 1670℃ 0评论4喜欢

CarbonData

Apache CarbonData 1.0.0发布及其新特性介绍

大年初二Apache CarbonData迎来了第四个稳定版本CarbonData 1.0.0。CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式，支持索引、压缩以及解编码等，其目的是为了实现同一份数据达到多种需求，而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。CarbonData 1.0.0版本，一共带来了80+ 个新特性，并且有100+ 个bugfi

w397090770 8年前 (2017-01-29) 2742℃ 0评论6喜欢

Deep Learning

BigDL：运行在Apache Spark上的分布式深度学习类库

　　近日，Intel开源了基于Apache Spark的分布式深度学习框架BigDL。有了BigDL之后，用户可以像编写标准的Spark程序一样来编写深度学习（deep learning）应用程序，编写完的程序还可以直接运行在现有的Spark或者Hadoop集群之上。BigDL主要有以下三大特点：[gt href="https://github.com/intel-analytics/BigDL "]BigDL GitHub地址[/gt]丰富的深度学习算法支

w397090770 8年前 (2017-01-19) 4381℃ 0评论14喜欢

HBase

Apache HBase 1.3.0正式发布

　　Apache HBase 1.3.0于美国时间2017年01月17日正式发布。本版本是Hbase 1.x版本线的第三次小版本，大约解决了1700个issues，主要包括了大量的Bug修复和性能提升；其中以下的新特性值得关注：Date-based tiered compactions (HBASE-15181, HBASE-15339)Maven archetypes for HBase client applications (HBASE-14877)Throughput controller for flushes (HBASE-14969)Controlled delay (CoD

w397090770 8年前 (2017-01-18) 3402℃ 0评论3喜欢

Spark

一篇文章了解 Spark Shuffle 内存使用

在使用 Spark 进行计算时，我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况，而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢？为此，本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识；然后，简要分析下在 Spark Shuffle 中有可能导致 OOM

w397090770 8年前 (2017-01-17) 792℃ 0评论1喜欢

Flink

Flink可查询状态Queryable State:替换你的数据库

　　好吧，有点标题党了！哈哈，这里介绍的Flink可查询状态提供的功能是有限的，不可能完全替换掉你的数据库（也可以说是持久化存储）。　　我在《Apache Flink 1.2.0新功能概述》文章中简单介绍了即将发布的Apache Flink 1.2.0一些比较重要的新功能，其中就提到了Flink 1.2版本的两大重要特性：动态扩展（Dynamic Scaling）和可查询状

w397090770 8年前 (2017-01-15) 4822℃ 0评论4喜欢

Beam

Apache Beam成为Apache顶级项目

　　Apache软件基金会在2017年01月10正式宣布Apache Beam从孵化项目毕业，成为Apache的顶级项目。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop　　Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目，被认为是继MapReduce，GFS和BigQuery等之后，Google在大数据处理领

w397090770 8年前 (2017-01-12) 3154℃ 0评论7喜欢

上一页
1
···
59
60
61
62
63
64
65
66
67
68
69
...
139
下一页
共 139 页