最新发布第116页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

Spark打破原来MapReduce排序的世界记录

　　Databricks官网昨天发布了一篇关于Spark用206个节点打破了原来MapReduce 100TB和1PB排序的世界记录。先前的世界记录是Yahoo在2100个Hadoop节点上运行MapReduce 对102.5 TB数据进行排序，他的运行时间是72分钟；而此次的Spark采用了206 个EC2节点，并部署了Spark，对100 TB的数据进行排序，一共用了23分钟！并且所有的排序都是基于磁盘的。也就是

w397090770 10年前 (2014-10-11) 12281℃ 2评论15喜欢

Hadoop

Hadoop新手入门视频百度网盘下载[全十集]

　　本博客分享的其他视频下载地址：《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44集]》、《Hadoop大数据零基础实战培训教程下载》、《Hadoop2.x 深入浅出企业级应用实战视频下载》、《Hadoop新手入门视频百度网盘下载[全十集]》　　本博客收集到的Hadoop学习书

w397090770 10年前 (2014-10-10) 164621℃ 11评论384喜欢

常用工具

Linux安装软件依赖问题解决办法

Linux安装软件依赖问题解决办法[code lang="java"][wyp@localhost Downloads]$ rpm -i --aid AdobeReader_chs-8.1.7-1.i486.rpm error: Failed dependencies: libatk-1.0.so.0 is needed by AdobeReader_chs-8.1.7-1.i486 libc.so.6 is needed by AdobeReader_chs-8.1.7-1.i486 libc.so.6(GLIBC_2.0) is needed by AdobeReader_chs-8.1.7-1.i486 libc.so.6(GLIBC_2.1) is needed by AdobeReader_chs-8.1.7-1.i486 libc.so.6(GLIBC_2.1.3) is n

w397090770 10年前 (2014-10-09) 7850℃ 0评论4喜欢

Spark

第三次北京Spark Meetup活动详情

　　《Spark meetup(Beijing)资料分享》　　《Spark meetup(杭州)PPT资料分享》　　《北京第二次Spark meetup会议资料分享》　　《北京第三次Spark meetup会议资料分享》　　第三次北京Spark Meetup活动将于2014年10月26日星期日的下午1:30到6:00在海淀区中关村科学院南路2号融科资讯中心A座8层举行，本次分享的主题主要是MLlib与分布式机器学

w397090770 10年前 (2014-10-09) 4473℃ 6评论6喜欢

Spark

Spark源码分析之Worker

　　Spark支持三种模式的部署：YARN、Standalone以及Mesos。本篇说到的Worker只有在Standalone模式下才有。Worker节点是Spark的工作节点，用于执行提交的作业。我们先从Worker节点的启动开始介绍。　　Spark中Worker的启动有多种方式，但是最终调用的都是org.apache.spark.deploy.worker.Worker类，启动Worker节点的时候可以传很多的参数：内存、核、工作

w397090770 10年前 (2014-10-08) 11369℃ 3评论7喜欢

Hive

Spark 1.1.0中使用Hive注意事项

　　Spark 1.1.0中兼容大部分Hive特性，我们可以在Spark中使用Hive。但是默认的Spark发行版本并没有将Hive相关的依赖打包进spark-assembly-1.1.0-hadoop2.2.0.jar文件中，官方对此的说明是：Spark SQL also supports reading and writing data stored in Apache Hive. However, since Hive has a large number of dependencies, it is not included in the default Spark assembly　　所以，如果你直

w397090770 10年前 (2014-09-26) 12916℃ 5评论9喜欢

Spark

Spark配置属性详解(1)

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 但是Spark官方文档给出的属性只是简单的介绍了一下含义，许多细节并没有涉及到。本文及以后几篇文章将会对Spark官方的各个属性进行说明介绍。以下是根据Spark 1.1.0文档中的属性进行说明。Application相关属性绝大多数的属性控制应用程序的内部设置，并且默认值

w397090770 10年前 (2014-09-25) 18093℃ 1评论20喜欢

Spark

Spark三种属性配置方式详细说明

随着Spark项目的逐渐成熟, 越来越多的可配置参数被添加到Spark中来。在Spark中提供了三个地方用于配置：Spark properties：这个可以控制应用程序的绝大部分属性。并且可以通过 SparkConf 对象或者Java 系统属性进行设置；环境变量(Environment variables)：这个可以分别对每台机器进行相应的设置，比如IP。这个可以在每台机器的 $SPARK_HOME/co

w397090770 10年前 (2014-09-24) 57228℃ 1评论22喜欢

Spark

Spark shuffle：hash和sort性能对比

　　我们都知道Hadoop中的shuffle（不知道原理？可以参见《MapReduce：详细介绍Shuffle的执行过程》），Hadoop中的shuffle是连接map和reduce之间的桥梁，它是基于排序的。同样，在Spark中也是存在shuffle，Spark 1.1之前，Spark的shuffle只存在一种方式实现方式，也就是基于hash的。而在最新的Spark 1.1.0版本中引进了新的shuffle实现（《Spark 1.1.0正式发

w397090770 10年前 (2014-09-23) 15724℃ 3评论15喜欢

Mahout

Mahout项目已经实现的算法

　　Mahout项目发展到了今天已经实现了许多的算法。下面列出Mahout项目主要的算法名称，供大家参考。一、协同过滤 Collaborative Filtering　　1、基于用户的协同过滤 User-Based Collaborative Filtering　　2、基于项目的协同过滤统 Item-Based Collaborative Filtering　　3、交替最小二乘张量分解 Matrix Factorization with Alternating Least Squares　　4、基

w397090770 10年前 (2014-09-23) 9523℃ 0评论17喜欢

上一页
1
···
111
112
113
114
115
116
117
118
119
120
121
...
140
下一页
共 140 页