w397090770 – 过往记忆-Page 71

Spark Streaming kafka实现数据零丢失的几种方式

　　在使用Spark streaming消费kafka数据时，程序异常中断的情况下发现会有数据丢失的风险，本文简单介绍如何解决这些问题。　　在问题开始之前先解释下流处理中的几种可靠性语义：　　1、At most once - 每条数据最多被处理一次（0次或1次），这种语义下会出现数据丢失的问题；　　2、At least once - 每条数据最少被处理一次 (1

9年前 (2016-07-26) 10951℃ 3评论17喜欢

Spark

Koalas: 让 pandas 开发者轻松过渡到 Apache Spark

今年的 Spark + AI Summit 2019 databricks 开源了几个重磅的项目，比如 Delta Lake，Koalas 等，Koalas 是一个新的开源项目，它增强了 PySpark 的 DataFrame API，使其与 pandas 兼容。Python 数据科学在过去几年中爆炸式增长，pandas 已成为生态系统的关键。当数据科学家拿到一个数据集时，他们会使用 pandas 进行探索。它是数据清洗和分析的终极工

9年前 (2016-07-25) 216222℃ 0评论844喜欢

Kafka

Kafka在LinkedIn公司的使用及维护实战

　　Apache Kafka在LinkedIn和其他公司中是作为各种数据管道和异步消息的后端。Netflix和Microsoft公司作为Kafka的重量级使用者（Four Comma Club，每天万亿级别的消息量），他们在Kafka Summit的分享也让人受益良多。　　虽然Kafka有着极其稳定的架构，但是在每天万亿级别消息量的大规模下也会偶尔出现有趣的bug。在本篇文章以及以后的几篇

9年前 (2016-07-20) 5352℃ 1评论6喜欢

网站建设

WordPress网站性能优化

　　随着过往记忆大数据技术博客的浏览量逐渐增多（目前日IP达到5k+，PV达到1.5W+），博客的访问速度越来越慢，在高峰时期打开一个页面需要近10s的时间，这样的情况非常的糟糕，没多少人愿意等待近10s，所以优化网站的访问速度迫在眉睫！　　先来介绍一下本博客的相关配置信息：博客购买的是腾讯云主机，CentOS 6.6 64位、1

9年前 (2016-07-19) 1756℃ 0评论4喜欢

前端框架

AdminLTE：基于Bootstrap3的免费高级管理控制面板主题

　　AdminLTE是一个完全响应式管理并基于Bootstrap 3.x的免费高级管理控制面板主题。高度可定制的，易于使用。自适应多种屏幕分辨率，兼容PC端和手机移动端，内置了多个模板页面，包括仪表盘、邮箱、日历、锁屏、登录及注册、404错误、500错误等页面。AdminLTE是基于模块化设计，很容易在其之上定制和重制。本文撰写的时候AdminLTE

9年前 (2016-07-17) 18724℃ 0评论24喜欢

Kylin

Apache Kylin在美团数十亿数据OLAP场景下的实践

本文根据2016年4月北京Apache Kylin Meetup上的分享讲稿整理，略有删节。美团各业务线存在大量的OLAP分析场景，需要基于Hadoop数十亿级别的数据进行分析，直接响应分析师和城市BD等数千人的交互式访问请求，对OLAP服务的扩展性、稳定性、数据精确性和性能均有很高要求。本文主要介绍美团的具体OLAP需求，如何将Kylin应用到实际场景

9年前 (2016-07-17) 9720℃ 0评论9喜欢

R

20个在机器学习和数据科学中最常用的R语言包

　　我们通过分析从2015年1月至5月下载次数最多的R包，列出了前20名流行的机器学习R包。　　大多数R包都深受Kagglers大神的最爱，也被资深的笔者所赞美，而这些包的使用率或评价高低不仅仅取决于其它的包对于这个　　这个包的依赖程度。还也取决于Crantastic.org并使用其众包能解决方案的用户。但是，用户评价太低以至于不

9年前 (2016-07-17) 3955℃ 0评论5喜欢

Idea

IntelliJ IDEA 2016.2正式发布，功能提升

　　近日，被誉为最好的Java开发工具IntelliJ IDEA发布了IntelliJ IDEA 2016.2版本，这是本年度第二个发行版本。此版本带来了许多新功能，本文将列举部分比较好的功能。调试器Debugger新版本的Idea将Watches和Variables面板合在一起。此外多行表达式(multiline expressions)功能现在在断点设置中支持Condition、Evaluate和log fields，并且在Data Type

9年前 (2016-07-16) 6251℃ 0评论17喜欢

Spark

Spark 2.0介绍：在Spark SQL中定义查询优化规则

《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列的介

9年前 (2016-07-14) 7648℃ 2评论4喜欢

Spark

Spark 2.0介绍：Spark SQL中的Time Window使用

　　《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列

9年前 (2016-07-12) 9843℃ 4评论11喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

w397090770的文章

Spark Streaming kafka实现数据零丢失的几种方式

Koalas: 让 pandas 开发者轻松过渡到 Apache Spark

Kafka在LinkedIn公司的使用及维护实战

WordPress网站性能优化

AdminLTE：基于Bootstrap3的免费高级管理控制面板主题

Apache Kylin在美团数十亿数据OLAP场景下的实践

20个在机器学习和数据科学中最常用的R语言包

IntelliJ IDEA 2016.2正式发布，功能提升

Spark 2.0介绍：在Spark SQL中定义查询优化规则

Spark 2.0介绍：Spark SQL中的Time Window使用