最新发布第37页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

Spark+AI Summit 2019 PPT 下载[共124个]

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山（San Francisco）进行。数据和 AI 是需要结合的，而 Spark 能够处理海量数据的分析，将 Spark 和 AI 进行结合，无疑会带来更好的产品。作为大数据领域的顶级会议，Spark+AI Summit 2019 吸引了全球大量技术大咖参会，而且 Spark+AI Summit 越做越大，本次会议议题快接近200多个。会议的

w397090770 6年前 (2019-05-07) 855℃ 0评论0喜欢

Cassandra

Apache Cassandra SSTable 存储格式详解

在 Cassandra 中，当达到一定条件触发 flush 的时候，表对应的 Memtable 中的数据会被写入到这张表对应的数据目录（通过 data_file_directories 参数配置）中，并生成一个新的 SSTable（Sorted Strings Table，这个概念是从 Google 的 BigTable 借用的）。每个 SSTable 是由一系列的不可修改的文件组成，这些文件在 Cassandra 中被称为 Component。本文是基于 Cas

w397090770 6年前 (2019-05-05) 2218℃ 1评论4喜欢

Spark

Koalas: 让 pandas 开发者轻松过渡到 Apache Spark

今年的 Spark + AI Summit 2019 databricks 开源了几个重磅的项目，比如 Delta Lake，Koalas 等，Koalas 是一个新的开源项目，它增强了 PySpark 的 DataFrame API，使其与 pandas 兼容。Python 数据科学在过去几年中爆炸式增长，pandas 已成为生态系统的关键。当数据科学家拿到一个数据集时，他们会使用 pandas 进行探索。它是数据清洗和分析的终极工

w397090770 6年前 (2019-04-29) 3342℃ 0评论6喜欢

Spark

.NET for Apache Spark 预览版正式发布

2019年4月25日，微软的 Rahul Potharaju、Terry Kim 以及 Tyson Condie 在 Spark + AI Summit 2019 会议上为我们带来主题为《Introducing .NET Bindings for Apache Spark 》的分享，并宣布 .NET for Apache Spark 预览版正式发布。.NET 框架是由微软开发，一个致力于敏捷软件开发、快速应用开发、平台无关性和网络透明化的免费软件框架，用于构建许多不同类型的

w397090770 6年前 (2019-04-28) 16407℃ 0评论4喜欢

Cassandra

Apache Cassandra 数据存储模型

我们在《Apache Cassandra 简介》文章中介绍了 Cassandra 的数据模型类似于 Google 的 Bigtable，对应的开源实现为 Apache HBase，而且我们在《HBase基本知识介绍及典型案例分析》文章中简单介绍了 Apache HBase 的数据模型。按照这个思路，Apache Cassandra 的数据模型应该和 Apache HBase 的数据模型很类似，那么这两者的数据存储模型是不是一样的呢？

w397090770 6年前 (2019-04-28) 1782℃ 0评论4喜欢

Delta Lake

Apache Spark 社区期待的 Delta Lake 开源了

本文英文原文：Open Sourcing Delta Lake2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上，Databricks 的联合创始人及 CEO Ali Ghodsi 宣布将 Databricks Runtime 里面的 Delta Lake 基于 Apache License 2.0 协议开源。Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（optimistic concurrency

w397090770 6年前 (2019-04-25) 7165℃ 0评论12喜欢

hudi

Uber 向 Apache 软件基金会提交开源大数据存储库 Hudi

快速管理和访问 PB 级数据的能力对于整个数据生态系统的可伸缩增长是至关重要的。尽管如此，这种对规模和速度的综合需求并不总是自然地适合现有的批处理和流系统架构。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopHudi 于 2016 年以“Hoodie”为代号开发，旨在解决 Uber 大数据生态系统

w397090770 6年前 (2019-04-20) 946℃ 0评论1喜欢

Flink

Flink Forward 201904 PPT资料下载

Flink Forward 是由 Apache 官方授权，Apache Flink China社区支持，有来自阿里巴巴，Ververica（Apache Flink 商业母公司）、腾讯、Google、Airbnb以及 Uber 等公司参加的国际型会议。旨在汇集大数据领域一流人才共同探讨新一代大数据计算引擎技术。通过参会不仅可以了解到Flink社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕Flink生

w397090770 6年前 (2019-04-20) 3494℃ 0评论11喜欢

Cassandra

Apache Cassandra 内置及自定义数据类型

到目前为止，我们在使用 CQL 建表的时候使用到了一些数据类型，比如 text、timeuuid等。本文将介绍 Apache Cassandra 内置及自定义数据类型。和其他语言一样，CQL 也支持一系列灵活的数据类型，包括基本的数据类型，集合类型以及用户自定义数据类（User-Defined Types,UDTs）。下面将介绍 CQL 支持的数据类型。如果想及时了解Spark、Hadoop或

w397090770 6年前 (2019-04-15) 2316℃ 0评论2喜欢

Cassandra

Apache Cassandra static column 介绍与实战

假设我们有这样的场景：我们想在 Cassandra 中使用一张表记录用户基本信息（比如 email、密码等）以及用户状态更新。我们知道，用户的基本信息一般很少会变动，但是状态会经常变化，如果每次状态更新都把用户基本信息都加进去，势必会让费大量的存储空间。为了解决这种问题，Cassandra 引入了 static column。同一个 partition key 中被

w397090770 6年前 (2019-04-12) 1384℃ 0评论2喜欢

上一页
1
···
32
33
34
35
36
37
38
39
40
41
42
...
140
下一页
共 140 页