最新发布第67页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139219)474喜欢
1Hive数据类型转换
浏览 (115726)87喜欢
2Hive常用字符串函数
浏览 (102011)66喜欢
3Hive insert into语句用法
浏览 (92972)179喜欢
4Hive常用函数大全一览
浏览 (92445)128喜欢
5Hive几种数据导入方式
浏览 (90883)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87845)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84662)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83720)73喜欢
9Hive:ORC File Format存储格式详解
浏览 (83660)88喜欢
10Spark: sortBy和sortByKey函数详解

[电子书]Mastering Apache Spark下载

　　本书旨在通过教你如何扩展Spark的功能，将你对Spark的有限知识提升到一个新的水平。全书从Spark生态系统开始概述，您将学习如何使用MLlib创建一个完全的神经网络系统，然后您将了解如何调整流处理以获得最佳性能并确保并行处理。本书作者Mike Frampton，由Packt 于2015年09月出版，全书318页，通过本书你将学到以下知识：　　（

w397090770 8年前 (2016-12-04) 3727℃ 0评论9喜欢

Spark

　　如果你使用Apache Spark解决了中等规模数据的问题，但是在海量数据使用Spark的时候还是会遇到各种问题。High Performance Spark将会向你展示如何使用Spark的高级功能，所以你可以超越新手级别。本书适合软件工程师、数据工程师、开发者以及Spark系统管理员的使用。本书作者Holden Karau, Rachel Warren，由O'Reilly于2016年03月出版，全书175页

w397090770 8年前 (2016-12-04) 4860℃ 0评论6喜欢

Spark meetup

上海Spark Meetup第十一次聚会

　　Shanghai Apache Spark Meetup第十一次聚会，将于12月10日，举办于上海大连路688号宝地广场22楼小沃科技活动场地。靠近地铁4号线和12号线的大连路站。本次会议得到中国联通小沃科技的大力支持。欢迎大家前来参加！会议主题1、演讲主题：《Spark Streaming构建实时系统介绍》演讲嘉宾：程然，小沃科技高级架构师，开源爱好者

w397090770 8年前 (2016-12-01) 1832℃ 0评论5喜欢

CarbonData

Apache CarbonData的Update/Delete功能设计实现

　　CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式，支持索引、压缩以及解编码等，其目的是为了实现同一份数据达到多种需求，而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。　　当前，CarbonData暂不支持修改表中已经存在的数据。但是在现实情况下，我们可能很希望这个功能，比如修改

w397090770 8年前 (2016-11-30) 2788℃ 0评论10喜欢

HBase

使用Spark读取HBase中的数据

　　在《Spark读取Hbase中的数据》文章中我介绍了如何在Spark中读取Hbase中的数据，并提供了Java和Scala两个版本的实现，本文将接着上文介绍如何通过Spark将计算好的数据存储到Hbase中。　　Spark中内置提供了两个方法可以将数据写入到Hbase：（1）、saveAsHadoopDataset；（2）、saveAsNewAPIHadoopDataset，它们的官方介绍分别如下：　　saveAsHad

w397090770 8年前 (2016-11-29) 17862℃ 1评论29喜欢

Hadoop

通过BulkLoad快速将海量数据导入到Hbase[Hadoop篇]

在第一次建立Hbase表的时候，我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中，或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下，所以很不适合一次性导入大量数据。本文将针对这个问题介绍如何通过Hbase的BulkLoad方法来快速将海量数据导入到Hbas

w397090770 8年前 (2016-11-28) 17688℃ 2评论52喜欢

Flink

如何给Apache Flink贡献你的代码

　　Apache Flink开源大数据处理系统最近比较火，特别是其流处理框架的设计。本文并不打算介绍Apache Flink的相关概念，如果你感兴趣可以到本博客的Flink分类目录查看Flink的相关文章。　　转入正题了，下面将一步一步教你如何提交你的代码到Flink社区。1、提交Issue　　既然能够提交代码肯定是发现了什么Bug，或者有什么好

w397090770 8年前 (2016-11-21) 3370℃ 0评论4喜欢

Hadoop

[电子书]Big Data Analytics pdf下载

本书作者Venkat Ankam，由Packt Publishing出版社在2016年09月发行，全书供326页。本书基于Spark 2.0和Hadoop 2.7版本介绍，是适合数据分析师和数据科学家的参考手册，当然也适合那些想入门的人。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop本书的章节[code lang="bash"]Chapter 1: Big Data Analytics at a 10

zz~~ 8年前 (2016-11-21) 4618℃ 0评论6喜欢

Kafka

Kafka集群调优

　　Kafka Cluster模式最大的优点：可扩展性和容错性，下图是关于Kafka集群的结构图：Kafka Broker个数决定因素　　磁盘容量：首先考虑的是所需保存的消息所占用的总磁盘容量和每个broker所能提供的磁盘空间。如果Kafka集群需要保留 10 TB数据，单个broker能存储 2 TB，那么我们需要的最小Kafka集群大小 5 个broker。此外，如果启用副

w397090770 8年前 (2016-11-18) 13598℃ 0评论28喜欢

Kafka

Structured Streaming和Kafka 0.8\0.9整合开发

$Structured Streaming和Kafka 0.8\0.9整合开发$

　　流式处理是大数据应用中的非常重要的一环，在Spark中Spark Streaming利用Spark的高效框架提供了基于micro-batch的流式处理框架，并在RDD之上抽象了流式操作API DStream供用户使用。　　随着流式处理需求的复杂化，用户希望在流式数据中引入较为复杂的查询和分析，传统的DStream API想要实现相应的功能就变得较为复杂，同时随着Spark

w397090770 8年前 (2016-11-16) 6089℃ 0评论13喜欢

上一页
1
···
62
63
64
65
66
67
68
69
70
71
72
...
139
下一页
共 139 页