最新发布第35页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

五年总结：过往记忆大数据公众号原创精选

今年是我创建这个微信公众号的第五年，五年来，收获了6.8万粉丝。这个数字，在自媒体圈子，属于十八线小规模的那种，但是在纯技术圈，还是不错的成绩，我很欣慰。我花在这个号上面的时间挺多的。我平时下班比较晚，一般下班到家了，老婆带着孩子已经安睡了，我便轻手轻脚的拿出电脑，带上耳机，开始我一天的知识盘

w397090770 6年前 (2019-08-13) 5664℃ 2评论33喜欢

Spark

Apache Spark DataSource V2 介绍及入门编程指南（下）

我们在 Apache Spark DataSource V2 介绍及入门编程指南（上）文章中介绍了 Apache Spark DataSource V1 的不足，所以才有了 Data Source API V2 的诞生。Data Source API V2为了解决 Data Source V1 的一些问题，从 Apache Spark 2.3.0 版本开始，社区引入了 Data Source API V2，在保留原有的功能之外，还解决了 Data Source API V1 存在的一些问题，比如不再依赖上层 API

w397090770 6年前 (2019-08-13) 3980℃ 1评论9喜欢

Spark

Apache Spark DataSource V2 介绍及入门编程指南（上）

Data Source API 定义如何从存储系统进行读写的相关 API 接口，比如 Hadoop 的 InputFormat/OutputFormat，Hive 的 Serde 等。这些 API 非常适合用户在 Spark 中使用 RDD 编程的时候使用。使用这些 API 进行编程虽然能够解决我们的问题，但是对用户来说使用成本还是挺高的，而且 Spark 也不能对其进行优化。为了解决这些问题，Spark 1.3 版本开始引入了 D

w397090770 6年前 (2019-08-13) 3603℃ 0评论3喜欢

Hadoop

重磅 | HPE 宣布收购 MapR！

美国当地时间2019年8月5日，惠普企业（Hewlett Packard Enterprises，纽约证券交易所股票代码：HPE）宣布收购 MapR Technologies Inc. 的业务资产！如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop此交易包括 MapR 的技术，知识产权以及人工智能和机器学习（AI/ML）和分析数据管理领域的专业知识。MapR 是

w397090770 6年前 (2019-08-12) 1243℃ 0评论1喜欢

Hadoop

Apache Hadoop 的 HDFS federation 前世今生(下)

在《Apache Hadoop 的 HDFS federation 前世今生(上)》已经介绍了 Hadoop 2.9.0 版本之前 HDFS federation 存在的问题，那么为了解决这个问题，社区采取了什么措施呢？HDFS Router-based FederationViewFs 方案虽然可以很好的解决文件命名空间问题，但是它的实现有以下几个问题：ViewFS 是基于客户端实现的，需要用户在客户端进行相关的配置，那

w397090770 6年前 (2019-07-26) 2055℃ 0评论2喜欢

Hadoop

Apache Hadoop 的 HDFS Federation 前世今生(上)

背景熟悉大数据的人应该都知道，HDFS 是一个分布式文件系统，它是基于谷歌的 GFS 思路实现的开源系统，它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的，如下：如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop从

w397090770 6年前 (2019-07-25) 2264℃ 0评论3喜欢

Spark

深入理解 Spark SQL 的 Catalyst 优化器

Spark SQL 是 Spark 最新且技术最复杂的组件之一。它同时支持 SQL 查询和新的 DataFrame API。Spark SQL 的核心是 Catalyst 优化器，它以一种全新的方式利用高级语言的特性（例如：Scala 的模式匹配和 Quasiquotes ①）构建一个可扩展的查询优化器。最近我们在 SIGMOD 2015 发表了一篇论文（合作者：Davies Liu，Joseph K. Bradley，Xiangrui Meng，Tomer Kaftan

w397090770 6年前 (2019-07-21) 3298℃ 0评论5喜欢

Kubernetes

YuniKorn: Cloudera 开源的可适配 YARN & K8s 的新一代资源调度器

2019 年 7 月 17 日，Cloudera 官方博客发文开源了一个内部研发使用很久的大数据存储和通用计算平台交叉的新项目 YuniKorn。Yunikorn 是一个新的独立通用资源调度程序，负责为大数据工作负载分配/管理资源，包括批处理作业和长时间运行的服务。介绍YuniKorn 是一种轻量级的通用资源调度程序，适用于容器编排系统（container orchestrator s

w397090770 6年前 (2019-07-17) 3775℃ 0评论0喜欢

Kafka

Apache Kafka 2.3 发布，新特性讲解

Apache Kafka 近期发布了 2.3.0 版本，主要的新特性如下：Kafka Connect REST API 已经有了一些改进。Kafka Connect 现在支持增量协同重新均衡（incremental cooperative rebalancing）Kafka Streams 现在支持内存会话存储和窗口存储;AdminClient 现在允许用户确定他们有权对主题执行哪些操作;broker 增加了一个新的启动时间指标;JMXTool现在可以连接到安

w397090770 6年前 (2019-06-27) 3075℃ 0评论6喜欢

Hadoop

Hadoop 气数已尽？

Hadoop我先从一个悲观的观点说起：Hadoop 正在迅速失去市场，我们可以从 Google 趋势走向看出这个现象：如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop下面的炒作生命周期表也上面的趋势很类似：如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop看起来 Hadoo

w397090770 6年前 (2019-06-23) 3687℃ 0评论32喜欢

上一页
1
···
30
31
32
33
34
35
36
37
38
39
40
...
140
下一页
共 140 页