Spark – 过往记忆-Page 24

Spark MLlib 1.6.1之特征抽取和变换

7.1 TF-IDF　　TF-IDF是一种特征向量化方法，这种方法多用于文本挖掘，通过算法可以反应出词在语料库中某个文档中的重要性。文档中词记为t，文档记为d , 语料库记为D . 词频TF(t,d) 是词t 在文档d 中出现的次数。文档频次DF(t,D) 是语料库中包括词t的文档数。如果使用词在文档中出现的频次表示词的重要程度，那么很容易取出反例，

w397090770 9年前 (2016-03-27) 6052℃ 0评论6喜欢

Spark

Spark北京Meetup第十次活动－－Spark实践主题

　　Spark北京Meetup第十次活动将于北京时间2016年03月27日在北京市海淀区丹棱街5号微软亚太研发集团总部大厦1号楼进行。会议主题1. Spark in TalkingData 阎志涛 TalkingData研发副总裁2. Spark in GrowingIO 田毅 GrowingIO数据平台工程师主要分享GrowingIO使用Spark进行数据处理过程中的各种小技巧

w397090770 9年前 (2016-03-14) 2423℃ 0评论6喜欢

Spark

　　Spark 1.6.1于2016年3月11日正式发布，此版本主要是维护版本，主要涉及稳定性修复，并不涉及到大的修改。推荐所有使用1.6.0的用户升级到此版本。　　Spark 1.6.1主要修复的bug包括：　　1、当写入数据到含有大量分区表时出现的OOM：SPARK-12546　　2、实验性Dataset API的许多bug修复：SPARK-12478, SPARK-12696, SPARK-13101, SPARK-12932　　

w397090770 9年前 (2016-03-11) 3920℃ 0评论5喜欢

Spark

Spark生态系统项目收集

　　现在Apache Spark已形成一个丰富的生态系统，包括官方的和第三方开发的组件或工具。后面主要给出5个使用广泛的第三方项目。Spark官方构建了一个非常紧凑的生态系统组件，提供各种处理能力。下面是Spark官方给出的生态系统组件　　1、Spark DataFrames：列式存储的分布式数据组织，类似于关系型数据表。　　2、Spark SQL：可

w397090770 9年前 (2016-03-08) 4946℃ 2评论7喜欢

Spark

自定义Spark Streaming接收器(Receivers)

　　Spark Streaming除了可以使用内置的接收器（Receivers，比如Flume、Kafka、Kinesis、files和sockets等）来接收流数据，还可以自定义接收器来从任意的流中接收数据。开发者们可以自己实现org.apache.spark.streaming.receiver.Receiver类来从其他的数据源中接收数据。本文将介绍如何实现自定义接收器，并且在Spark Streaming应用程序中使用。我们可以用S

w397090770 9年前 (2016-03-03) 5959℃ 2评论4喜欢

Kafka

Spark Streaming和Kafka整合是如何保证数据零丢失

　　当我们正确地部署好Spark Streaming，我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性，你需要满足以下几个先决条件：　　1、输入的数据来自可靠的数据源和可靠的接收器；　　2、应用程序的metadata被application的driver持久化了(checkpointed );　　3、启用了WAL特性(Write ahead log)。　　下面我将简单

w397090770 9年前 (2016-03-02) 17627℃ 16评论50喜欢

Spark

转发微博有机会获取《Spark大数据分析实战》

即日起，关注@Spark技术博客及@ 一位微博好友并转发本文章到微博有机会获取《Spark大数据分析实战》：/archives/1590。3月12日在微博抽奖平台抽取1位同学并赠送此书。本活动已经结束，抽奖信息已经在新浪微博抽奖平台公布　　《Spark大数据分析实战》由高彦杰和倪亚宇编写，通过典型数据分析应用场景、算法与系统架构，结

w397090770 9年前 (2016-03-02) 8542℃ 0评论44喜欢

Spark

Spark Summit East 2016 PPT免费下载[共65个]

　　Spark Summit East 2016：视频，PPT　　Spark Summit East 2016会议于2016年2月16日至2月18日在美国纽约进行。总体来说，Spark Summit一年比一年火，单看纽约的峰会中，规模已从900人增加到500个公司的1300人，更吸引到更多大型公司的分享，包括Bloomberg、Capital One、Novartis、Comcast等公司。而在这次会议上，Databricks还发布了两款产品——Commu

w397090770 9年前 (2016-02-27) 5675℃ 0评论14喜欢

Spark

Spark Summit East 2016视频百度网盘免费下载

　　Spark Summit East 2016：视频，PPT　　Spark Summit East 2016会议于2016年2月16日至2月18日在美国纽约进行。总体来说，Spark Summit一年比一年火，单看纽约的峰会中，规模已从900人增加到500个公司的1300人，更吸引到更多大型公司的分享，包括Bloomberg、Capital One、Novartis、Comcast等公司。而在这次会议上，Databricks还发布了两款产品——Commu

w397090770 9年前 (2016-02-27) 6182℃ 0评论9喜欢

Spark

Apache Zeppelin使用入门指南：添加外部依赖

Apache Zeppelin使用入门指南：安装Apache Zeppelin使用入门指南：编程Apache Zeppelin使用入门指南：添加外部依赖　　在前面的两篇文章中我们介绍了如何编译和部署Apache Zeppelin、如何使用Apache Zeppelin。这篇文章中将介绍如何将外部依赖库加入到Apache Zeppelin中。　　在现实情况下，我们编写程序一般都是需要依赖外部的相关类库

w397090770 9年前 (2016-02-04) 8159℃ 0评论7喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：Spark

Spark MLlib 1.6.1之特征抽取和变换

Spark北京Meetup第十次活动－－Spark实践主题

Spark 1.6.1正式发布

Spark生态系统项目收集

自定义Spark Streaming接收器(Receivers)

Spark Streaming和Kafka整合是如何保证数据零丢失

转发微博有机会获取《Spark大数据分析实战》

Spark Summit East 2016 PPT免费下载[共65个]

Spark Summit East 2016视频百度网盘免费下载

Apache Zeppelin使用入门指南：添加外部依赖