w397090770的文章

Apache Spark 2.4 内置图像数据源介绍

随着图像分类（image classification）和对象检测（object detection）的深度学习框架的最新进展，开发者对 Apache Spark 中标准图像处理的需求变得越来越大。图像处理和预处理有其特定的挑战 - 比如，图像有不同的格式（例如，jpeg，png等），大小和颜色，并且没有简单的方法来测试正确性。图像数据源通过给我们提供可以编码的标准表

6年前 (2018-12-13) 2503℃ 0评论4喜欢

Spark

Apache Spark 2.4 内置的 Avro 数据源介绍

Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统，尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.4 版本开始，Spark 为读取和写入 Avro 数据提供内置支持。新的内置 spark-avro 模块最初来自 Databricks 的开源项目Avro Data Source for Apache Spark。除此之外，它还提供以下功能：新函数 from_avro() 和 to_avro()

6年前 (2018-12-11) 3244℃ 0评论9喜欢

HBase

OpenTSDB 之 HBase的数据模型

我们在《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》文章中已经简单介绍了 OpenTSDB 的 RowKey 设计的思路，并简单介绍了列簇以及列名的组成。本文将比较详细的介绍 OpenTSDB 在 HBase 的数据存储模型。OpenTSDB RowKey 设计关于 OpenTSDB 的 RowKey 为什么这么设计可以参见《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》文章了。这里主要介绍 R

6年前 (2018-12-05) 3029℃ 0评论3喜欢

HBase

HBase MOB（Medium Object）使用入门指南

《Apache HBase中等对象存储MOB压缩分区策略介绍》文章中介绍了 MOB 的一些压缩实现，并提及了一些 MOB 的一些简单使用，本文将详细地介绍 HBase MOB 的使用，本指南适合入门的开发者。将不同大小的文件（比如图片、文档等）存储到 HBase 非常的简单方便。从技术上来说，HBase 可以直接在一个单元格（Cell）存储大小到10MB的二进制对

6年前 (2018-12-03) 2897℃ 0评论5喜欢

Hadoop

HDFS 快照编程指南

HDFS 快照是从 Hadoop 2.1.0-beta 版本开始引入的新功能，详见 HDFS-2802。概述HDFS 快照（HDFS Snapshots）是文件系统在某个时间点的只读副本。可以在文件系统的子树或整个文件系统上创建快照。快照的常见用途主要包括数据备份，防止用户误操作和容灾恢复。HDFS 快照的实现非常高效：快照的创建非常迅速：除去 inode 的查找时间，

6年前 (2018-12-02) 2186℃ 0评论3喜欢

HBase

HBase在新能源汽车监控系统中的应用

重庆博尼施科技有限公司是一家商用车全周期方案服务商，利用车联网、云计算、移动互联网技术，在物流领域为商用车的生产、销售、使用、售后、回收各个环节提供一站式解决方案，其中的新能源车辆监控系统就是由该公司提供的，本文是阿里云客户重庆博尼施科技有限公司介绍如何使用阿里云 HBase 来实现新能源车辆监控系统

6年前 (2018-11-29) 4332℃ 2评论16喜欢

HBase

HBase 工程中 protobuf 版本冲突解决

Protobuf （全称 Protocol Buffers）是 Google 开发的一种数据描述语言，能够将结构化数据序列化，可用于数据存储、通信协议等方面。在 HBase 里面用使用了 Protobuf 的类库，目前 Protobuf 最新版本是 3.6.1（参见这里），但是在目前最新的 HBase 3.0.0-SNAPSHOT 对 Protobuf 的依赖仍然是 2.5.0（参见 protobuf.version），但是这些版本的 Protobuf 是互补兼

6年前 (2018-11-26) 5563℃ 0评论10喜欢

Spark

Apache Spark 2.4 新增内置函数和高阶函数使用介绍

Apache Spark 2.4 新增了24个内置函数和5个高阶函数，本文将对这29个函数的使用进行介绍。关于 Apache Spark 2.4 的新特性，可以参见《Apache Spark 2.4 正式发布，重要功能详细介绍》。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop针对数组类型的函数array_distinctarray_distinct(array<T>): array<T

6年前 (2018-11-25) 7705℃ 0评论18喜欢

HBase

HBase 在人工智能场景的使用

近几年来，人工智能逐渐火热起来，特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数据，处理完的数据一般都需要存储起来，这些数据的特点主要有如下几点：大：数据量越大，对我们后面建模越会有好处；稀疏：每行

7年前 (2018-11-22) 3335℃ 1评论10喜欢

Spark

Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍

Apache Spark 2.4 是在11月08日正式发布的，其带来了很多新的特性具体可以参见这里，本文主要介绍这次为复杂数据类型新引入的内置函数和高阶函数。本次 Spark 发布共引入了29个新的内置函数来处理复杂类型（例如，数组类型），包括高阶函数。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop

7年前 (2018-11-21) 2520℃ 0评论2喜欢

上一页
1
···
35
36
37
38
39
40
41
42
43
44
45
...
134
下一页
共 134 页

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

w397090770的文章

Apache Spark 2.4 内置图像数据源介绍

Apache Spark 2.4 内置的 Avro 数据源介绍

OpenTSDB 之 HBase的数据模型

HBase MOB（Medium Object）使用入门指南

HDFS 快照编程指南

HBase在新能源汽车监控系统中的应用

HBase 工程中 protobuf 版本冲突解决

Apache Spark 2.4 新增内置函数和高阶函数使用介绍

HBase 在人工智能场景的使用

Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍