最新发布第76页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139218)474喜欢
1Hive数据类型转换
浏览 (115726)87喜欢
2Hive常用字符串函数
浏览 (102010)66喜欢
3Hive insert into语句用法
浏览 (92972)179喜欢
4Hive常用函数大全一览
浏览 (92445)128喜欢
5Hive几种数据导入方式
浏览 (90883)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87845)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84661)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83720)73喜欢
9Hive:ORC File Format存储格式详解
浏览 (83660)88喜欢
10Spark: sortBy和sortByKey函数详解

Spark Streaming kafka实现数据零丢失的几种方式

　　在使用Spark streaming消费kafka数据时，程序异常中断的情况下发现会有数据丢失的风险，本文简单介绍如何解决这些问题。　　在问题开始之前先解释下流处理中的几种可靠性语义：　　1、At most once - 每条数据最多被处理一次（0次或1次），这种语义下会出现数据丢失的问题；　　2、At least once - 每条数据最少被处理一次 (1

w397090770 8年前 (2016-07-26) 10887℃ 3评论17喜欢

Spark

Koalas: 让 pandas 开发者轻松过渡到 Apache Spark

今年的 Spark + AI Summit 2019 databricks 开源了几个重磅的项目，比如 Delta Lake，Koalas 等，Koalas 是一个新的开源项目，它增强了 PySpark 的 DataFrame API，使其与 pandas 兼容。Python 数据科学在过去几年中爆炸式增长，pandas 已成为生态系统的关键。当数据科学家拿到一个数据集时，他们会使用 pandas 进行探索。它是数据清洗和分析的终极工

w397090770 8年前 (2016-07-25) 216036℃ 0评论844喜欢

Kafka

Kafka在LinkedIn公司的使用及维护实战

　　Apache Kafka在LinkedIn和其他公司中是作为各种数据管道和异步消息的后端。Netflix和Microsoft公司作为Kafka的重量级使用者（Four Comma Club，每天万亿级别的消息量），他们在Kafka Summit的分享也让人受益良多。　　虽然Kafka有着极其稳定的架构，但是在每天万亿级别消息量的大规模下也会偶尔出现有趣的bug。在本篇文章以及以后的几篇

w397090770 8年前 (2016-07-20) 5279℃ 1评论6喜欢

网站建设

WordPress网站性能优化

　　随着过往记忆大数据技术博客的浏览量逐渐增多（目前日IP达到5k+，PV达到1.5W+），博客的访问速度越来越慢，在高峰时期打开一个页面需要近10s的时间，这样的情况非常的糟糕，没多少人愿意等待近10s，所以优化网站的访问速度迫在眉睫！　　先来介绍一下本博客的相关配置信息：博客购买的是腾讯云主机，CentOS 6.6 64位、1

w397090770 8年前 (2016-07-19) 1664℃ 0评论4喜欢

前端框架

AdminLTE：基于Bootstrap3的免费高级管理控制面板主题

　　AdminLTE是一个完全响应式管理并基于Bootstrap 3.x的免费高级管理控制面板主题。高度可定制的，易于使用。自适应多种屏幕分辨率，兼容PC端和手机移动端，内置了多个模板页面，包括仪表盘、邮箱、日历、锁屏、登录及注册、404错误、500错误等页面。AdminLTE是基于模块化设计，很容易在其之上定制和重制。本文撰写的时候AdminLTE

w397090770 8年前 (2016-07-17) 18538℃ 0评论24喜欢

Kylin

Apache Kylin在美团数十亿数据OLAP场景下的实践

本文根据2016年4月北京Apache Kylin Meetup上的分享讲稿整理，略有删节。美团各业务线存在大量的OLAP分析场景，需要基于Hadoop数十亿级别的数据进行分析，直接响应分析师和城市BD等数千人的交互式访问请求，对OLAP服务的扩展性、稳定性、数据精确性和性能均有很高要求。本文主要介绍美团的具体OLAP需求，如何将Kylin应用到实际场景

w397090770 8年前 (2016-07-17) 9655℃ 0评论9喜欢

20个在机器学习和数据科学中最常用的R语言包

　　我们通过分析从2015年1月至5月下载次数最多的R包，列出了前20名流行的机器学习R包。　　大多数R包都深受Kagglers大神的最爱，也被资深的笔者所赞美，而这些包的使用率或评价高低不仅仅取决于其它的包对于这个　　这个包的依赖程度。还也取决于Crantastic.org并使用其众包能解决方案的用户。但是，用户评价太低以至于不

w397090770 8年前 (2016-07-17) 3758℃ 0评论5喜欢

Idea

IntelliJ IDEA 2016.2正式发布，功能提升

　　近日，被誉为最好的Java开发工具IntelliJ IDEA发布了IntelliJ IDEA 2016.2版本，这是本年度第二个发行版本。此版本带来了许多新功能，本文将列举部分比较好的功能。调试器Debugger新版本的Idea将Watches和Variables面板合在一起。此外多行表达式(multiline expressions)功能现在在断点设置中支持Condition、Evaluate和log fields，并且在Data Type

w397090770 8年前 (2016-07-16) 6194℃ 0评论17喜欢

Spark

Spark 2.0介绍：在Spark SQL中定义查询优化规则

《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列的介

w397090770 8年前 (2016-07-14) 7567℃ 2评论4喜欢

Spark

Spark 2.0介绍：Spark SQL中的Time Window使用

w397090770 8年前 (2016-07-12) 9729℃ 4评论11喜欢

上一页
1
···
71
72
73
74
75
76
77
78
79
80
81
...
139
下一页
共 139 页