欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

w397090770的文章

CarbonData

CarbonData:华为开发并支持Hadoop的列式文件格式

CarbonData:华为开发并支持Hadoop的列式文件格式
  CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式,支持索引、压缩以及解编码等,其目的是为了实现同一份数据达到多种需求,而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。为什么重新设计一种文件格式目前华为针对数据的需求分析主要有以下5点要求:  1、支持海量数据扫描并

  9年前 (2016-06-13) 5496℃ 0评论7喜欢

Spark meetup

上海Spark Meetup第九次聚会

上海Spark Meetup第九次聚会
  Shanghai Apache Spark Meetup第九次聚会将在6月18日下午13:00-17:00由Intel联手饿了么在上海市普陀区金沙江路1518弄2号近铁城市广场饿了么公司5楼会议室(榴莲酥+螺狮粉)举行。欢迎大家前来参加!会议主题开场/Opening Keynote: 毕洪宇,饿了么数据运营部副总监  毕洪宇个人介绍:饿了么数据运营部副总监。本科和研究生都是同济

  9年前 (2016-06-12) 1852℃ 0评论5喜欢

Hive

解决Hive中show create table乱码问题

解决Hive中show create table乱码问题
我目前使用的Hive版本是apache-hive-1.2.0-bin,每次在使用 show create table 语句的时候如果你字段中有中文注释,那么Hive得出来的结果如下:hive> show create table iteblog;OKCREATE TABLE `iteblog`( `id` bigint COMMENT '�id', `uid` bigint COMMENT '(7id', `name` string COMMENT '(7�')ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' STORED AS INPUTF

  9年前 (2016-06-08) 11335℃ 0评论13喜欢

Spark meetup

杭州第四次Spark Meetup资料分享

杭州第四次Spark Meetup资料分享
  将于2016年6月5日星期天下午1:30在杭州市西湖区教工路88号立元大厦3楼沃创空间沃创咖啡进行,本次场地由挖财公司提供。分享主题1. 陈超, 七牛:《Spark 2.0介绍》(13:30 ~ 14:10)2. 雷宗雄, 花名念钧:《spark mllib大数据实践和优化》(14:10 ~ 14:50)3. 陈亮,华为:《Spark+CarbonData(New File Format For Faster Data Analysis)》(15:10 ~ 15:50)4

  9年前 (2016-06-06) 2299℃ 0评论2喜欢

Spark

Apache Spark 2.0预览: 机器学习模型持久化

Apache Spark 2.0预览: 机器学习模型持久化
  在即将发布的Apache Spark 2.0中将会提供机器学习模型持久化能力。机器学习模型持久化(机器学习模型的保存和加载)使得以下三类机器学习场景变得容易:  1、数据科学家开发ML模型并移交给工程师团队在生产环境中发布;  2、数据工程师把一个Python语言开发的机器学习模型训练工作流集成到一个Java语言开发的机器

  9年前 (2016-06-04) 3520℃ 3评论3喜欢

Hadoop

Hadoop 3.0纠删码(Erasure Coding):节省一半存储空间

Hadoop 3.0纠删码(Erasure Coding):节省一半存储空间
  随着大数据技术的发展,HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了系统的可靠性,HDFS通过复制来实现这种机制。但在HDFS中每一份数据都有两个副本,这也使得存储利用率仅为1/3,每TB数据都需要占用3TB的存储空间。随着数据量的增长,复制的代价也变得越来越明显:传统的3份复制相当于增加了200%的存储开销,给存

  9年前 (2016-05-30) 9281℃ 0评论36喜欢

Spark

Apache Spark作为编译器:深入介绍新的Tungsten执行引擎

Apache Spark作为编译器:深入介绍新的Tungsten执行引擎
本文原文:Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop Deep dive into the new Tungsten execution engine:https://databricks.com/blog/2016/05/23/apache-spark-as-a-compiler-joining-a-billion-rows-per-second-on-a-laptop.html本文已经投稿自:http://geek.csdn.net/news/detail/77005  《Spark 2.0技术预览:更容易、更快速、更智能》文中简单地介绍了Spark 2.0相关

  9年前 (2016-05-27) 6045℃ 1评论16喜欢

Spark

SparkSession:新的切入点

SparkSession:新的切入点
  在Spark 1.x版本,我们收到了很多询问SparkContext, SQLContext和HiveContext之间关系的问题。当人们想使用DataFrame API的时候把HiveContext当做切入点的确有点奇怪。在Spark 2.0,引入了SparkSession,作为一个新的切入点并且包含了SQLContext和HiveContext的功能。为了向后兼容,SQLContext和HiveContext被保存下来。SparkSession拥有许多特性,下面将展示SparkS

  9年前 (2016-05-26) 14057℃ 0评论13喜欢

Spark

Spark 2.0技术预览版正式发布下载

Spark 2.0技术预览版正式发布下载
  在过去Spark社区创建了Spark 2.0的技术预览版,经过几天的投票,目前该技术预览版今天正式公布。《Spark 2.0技术预览:更容易、更快速、更智能》文章中详细介绍了Spark 2.0给我们带来的新功能,总体上Spark 2.0提升了下面三点:  1. 对标准的SQL支持,统一DataFrame和Dataset API。现在已经可以运行TPC-DS所有的99个查询,这99个查

  9年前 (2016-05-25) 2644℃ 0评论3喜欢

Kafka

Apache Kafka 0.10.0.0稳定版发布及其新特性介绍

Apache Kafka 0.10.0.0稳定版发布及其新特性介绍
Apache Kafka 0.10.0.0于美国时间2016年5月24日正式发布。Apache Kafka 0.10.0.0是Apache Kafka的主要版本,此版本带来了一系列的新特性和功能加强。本文将对此版本的重要点进行说明。Kafka StreamsKafka Streams在几个月前由Confluent Platform首先在其平台的技术预览中行提出,目前已经在Apache Kafka 0.10.0.0上可用了。Kafka Streams其实是一套类库,它使

  9年前 (2016-05-25) 12408℃ 0评论25喜欢