w397090770的文章

Spark Summit East 2017部分PPT下载[共18个]

　　Spark Summit East 2017会议于2017年2月07日到09日在波士顿进行，本次会议有来自工业界的上百位Speaker；官方日程：https://spark-summit.org/east-2017/schedule/。　　由于会议的全部资料存储在http://www.slideshare.net网站，此网站需要翻墙才能访问。基于此本站收集了本次会议的所有PPT资料供大家学习交流之用。本次会议PPT资料全部通过爬虫程

8年前 (2017-02-11) 1556℃ 0评论1喜欢

Beam

Apache Beam 0.5.0正式发布

　　今天，Apache Beam 0.5.0 发布了，此版本通过新的State API添加对状态管道的支持，并通过新的Timer API添加对计时器的支持。此外，该版本还为Elasticsearch和MQ Telemetry Transport（MQTT）添加了新的IO连接器，以及常见的一些错误修复和改进。对于此版本中的所有主要更改，请参阅release notes。如果想及时了解Spark、Hadoop或者Hbase相关的文

8年前 (2017-02-10) 1111℃ 0评论2喜欢

Beam

为什么Google用Apache Beam彻底替换掉MapReduce

　　1月10日，Apache软件基金会宣布，Apache Beam成功孵化，成为该基金会的一个新的顶级项目，基于Apache V2许可证开源。　　2003年，谷歌发布了著名的大数据三篇论文，史称三驾马车：Google FS、MapReduce、BigTable。虽然谷歌没有公布这三个产品的源码，但是她这三个产品的详细设计论文开启了全球的大数据时代！从Doug Cutting大神根据

8年前 (2017-02-10) 1824℃ 0评论4喜欢

Hive

Hive 数据抽样的几种方法

在大规模数据量的数据分析及建模任务中，往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源，因此一般情况下只需要抽取一小部分数据进行分析及建模操作。本文就介绍 Hive 中三种数据抽样的方法块抽样（Block Sampling）Hive 本身提供了抽样函数，使用 TABLESAMPLE 抽取指定的行数/比例/大小，举例：[code lang="sql"]CREA

8年前 (2017-02-10) 6327℃ 0评论7喜欢

Spark

[电子书]Apache Spark for Data Science Cookbook PDF下载

　　Spark已经成为数据科学专业人士最有前途的大数据分析引擎。Apache Spark真正的力量和价值在于它能够以高速和准确的方式执行数据科学任务；Spark的卖点是它结合ETL，批处理分析，实时流分析，机器学习，图形处理和可视化；它允许您轻松处理非结构化的原始数据集。　　本书将让您舒适和自信地使用Spark完成数据科学任务。

8年前 (2017-02-10) 2247℃ 0评论6喜欢

HBase

HBase 数据压缩介绍与实战

为了提高 HBase 存储的利用率，很多 HBase 使用者会对 HBase 表中的数据进行压缩。目前 HBase 可以支持的压缩方式有 GZ（GZIP）、LZO、LZ4 以及 Snappy。它们之间的区别如下：GZ：用于冷数据压缩，与 Snappy 和 LZO 相比，GZIP 的压缩率更高，但是更消耗 CPU，解压/压缩速度更慢。Snappy 和 LZO：用于热数据压缩，占用 CPU 少，解压/压缩速度比

8年前 (2017-02-09) 2043℃ 0评论1喜欢

机器学习

来自RISELab实验室解决机器学习新的大数据工具

大家对加州大学伯克利分校的AMPLab可能不太熟悉，但是它的项目我们都有所耳闻——没错，它就是Spark和Mesos的诞生之地。AMPLab是加州大学伯克利分校一个为期五年的计算机研究计划，其初衷是为了理解机器和人如何合作处理和解决数据中的问题——使用数据去训练更加丰富的模型，有效的数据清理，以及进行可衡量的数据扩展。

8年前 (2017-02-09) 1389℃ 0评论3喜欢

Flink

Apache Flink 1.2.0正式发布及其功能介绍

　　大家期待已久的Apache Flink 1.2.0今天终于正式发布了。本版本一共解决了650个issues，详细的列表参见这里。Apache Flink 1.2.0是1.x.y系列的第三个主要版本；其API和其他1.x.y版本使用@Public标注的API是兼容的，推荐所有用户升级到此版本。更多关于Apache Flink 1.2.0新功能可以参见Apache Flink 1.2.0新功能概述如果想及时了解Spark、Hadoop或者H

8年前 (2017-02-07) 1957℃ 6喜欢

Spark

Apache Spark：承诺和面临的挑战

　　如果你要寻求一种处理海量数据的解决方案，就会有很多可选项。选择哪一种取决于具体的用例和要对数据进行何种操作，可以从很多种数据处理框架中进行遴选。例如Apache的Samza、Storm和Spark等等。本文将重点介绍Spark的功能，Spark不但非常适合用来对数据进行批处理，也非常适合对时实的流数据进行处理。　　Spark目前已经

8年前 (2017-02-06) 1704℃ 0评论4喜欢

CarbonData

Apache CarbonData 1.0.0发布及其新特性介绍

大年初二Apache CarbonData迎来了第四个稳定版本CarbonData 1.0.0。CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式，支持索引、压缩以及解编码等，其目的是为了实现同一份数据达到多种需求，而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。CarbonData 1.0.0版本，一共带来了80+ 个新特性，并且有100+ 个bugfi

8年前 (2017-01-29) 2820℃ 0评论6喜欢

上一页
1
···
55
56
57
58
59
60
61
62
63
64
65
...
134
下一页
共 134 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据