最新发布第38页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

Apache Cassandra Composite Key\Partition key\Clustering key 介绍

$Apache Cassandra Composite Key\Partition key\Clustering key 介绍$

在前面的文章《Apache Cassandra 快速入门指南（Quick Start）》我们简单介绍了 Cassandra 的一些基本知识。在那篇文章里面我们使用了下面语句创建了一张名为 iteblog_user 的表：[code lang="sql"]cqlsh> use iteblog_keyspace;cqlsh:iteblog_keyspace> CREATE TABLE iteblog_user (first_name text , last_name text, PRIMARY KEY (first_name)) ;[/code]建表语句里面有个 PRIMARY KE

w397090770 6年前 (2019-04-09) 1188℃ 2评论0喜欢

Cassandra

Apache Cassandra 快速入门指南（Quick Start）

我们在这篇文章简单介绍了 Apache Cassandra 是什么，以及有什么值得关注的特性。本文将简单介绍 Apache Cassandra 的安装以及简单使用，可以帮助大家快速了解 Apache Cassandra。我们到 Apache Cassandra 的官方网站下载最新版本的 Cassandra，在本文写作时最新版本的 Cassandra 为 3.11.4。Apache Cassandra 可以在 Linux、Unix、Mac OS 以及 Windows 上进行安装

w397090770 6年前 (2019-04-07) 5095℃ 0评论8喜欢

HBase

SHC：使用 Spark SQL 高效地读写 HBase

Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件。很多场景需要使用 Spark 分析/查询 HBase 中的数据，而目前 Spark 内置是支持很多数据源的，其中就包括了 HBase，但是内置的读取数据源还是使用了 TableInputFormat 来读取 HBase 中的数据。这个 TableInputFormat 有一些缺点：一个 Task 里面只能启动一个 Scan 去 HBase 中读取数据；TableIn

w397090770 6年前 (2019-04-02) 13140℃ 5评论18喜欢

Hive

Apache Hive JdbcStorageHandler 编程入门指南

Apache Hive 从 HIVE-1555 开始引入了 JdbcStorageHandler ，这个使得 Hive 能够读取 JDBC 数据源，关于 Apache Hive 引入 JdbcStorageHandler 的背景可以参见《Apache Hive 联邦查询（Query Federation）》。本文主要简单介绍 JdbcStorageHandler 的使用。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop语法JdbcStorageHandler 使

w397090770 6年前 (2019-04-01) 3455℃ 0评论9喜欢

Cassandra

Apache Cassandra 简介

Apache Cassandra 是一个开源的、分布式、无中心、弹性可扩展、高可用、容错、一致性可调、面向行的数据库，它基于 Amazon Dynamo 的分布式设计和 Google Bigtable 的数据模型，由 Facebook 创建，在一些最流行的网站中得到应用。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop为什么会诞生 Apache Cassand

w397090770 6年前 (2019-03-31) 3225℃ 4评论6喜欢

Hive

从 Hive 迁移到 Spark SQL 在有赞的实践

有赞数据平台从2017年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议，包括以下方面的内容：有赞数据平台的整体架构。SparkSQL 在有赞的技术演进

w397090770 6年前 (2019-03-20) 8287℃ 5评论29喜欢

Spark

一篇文章了解 Spark Shuffle 内存使用

在使用 Spark 进行计算时，我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况，而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢？为此，本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识；然后，简要分析下在 Spark Shuffle 中有可能导致 OOM

w397090770 6年前 (2019-03-17) 5390℃ 0评论19喜欢

Hive

Apache Hive 联邦查询（Query Federation）

如今，很多公司可能会在内部使用多种数据存储和处理系统。这些不同的系统解决了对应的使用案例。除了传统的 RDBMS （比如 Oracle DB，Teradata或PostgreSQL）之外，我们还会使用 Apache Kafka 来获取流和事件数据。使用 Apache Druid 处理实时系列数据（real-time series data），使用 Apache Phoenix 进行快速索引查找。此外，我们还可能使用云存储

w397090770 6年前 (2019-03-16) 5228℃ 1评论8喜欢

ElasticSearch

Open Distro for Elasticsearch：AWS 自家版本的开源 ElasticSearch

AWS 于近期发布了自家版本的开源 ElasticSearch ：Open Distro for Elasticsearch。我们都知道，Elasticsearch 是一个分布式面向文档的搜索和分析引擎。它支持结构化和非结构化查询，并且不需要提前定义模式。 Elasticsearch 可用作搜索引擎，通常用于 Web 级日志分析，实时应用程序监控和点击流分析，在国内外有很多用户使用。AWS 通过 AWS Elasticse

w397090770 6年前 (2019-03-13) 4233℃ 0评论10喜欢

Spark

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合，在机器学习里面，因为计算迭代的时间可能会很长，开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。作为通用计算引擎的 Spark 肯定也不甘落后，来自 Databricks、NVIDIA、Google 以及阿里巴巴的工程师们正在为 Apache Spark 添加

w397090770 6年前 (2019-03-10) 6479℃ 0评论9喜欢

上一页
1
···
33
34
35
36
37
38
39
40
41
42
43
...
140
下一页
共 140 页