最新发布第17页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

使用 ffmpeg 批量合并视频

FFmpeg 是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，采用 LGPL 或 GPL 许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库 libavcodec，为了保证高可移植性和编解码质量，libavcodec 里很多 code 都是从头开发的。如果想及时了解Spark、Hadoop或者HBase相

w397090770 4年前 (2021-04-30) 853℃ 0评论2喜欢

MongoDB

With MongoDB 3.6 the query language gains a new level of expressivity: you can now make use of aggregation expressions in a query using the $expr operator. This feature allows you to take full advantage of all expression operators within all queries, much of which previously had to be done within application logic or was restricted to the aggregation pipeline. $expr offers better performance than the $where operator, which while still a

w397090770 4年前 (2021-04-27) 2386℃ 0评论2喜欢

Kafka

每个 Apache Kafka 开发者都应该知道的5件事

Apache Kafka 是一个开源流处理平台，如今有超过30％的财富500强企业使用该平台。Kafka 有很多特性使其成为事件流平台（event streaming platform）的事实上的标准。在这篇博文中，我将介绍每个 Kafka 开发者都应该知道的五件事，这样在使用 Kafka 就可以避免很多问题。Tip #1 理解消息传递和持久性保证对于数据持久性（data durability），

w397090770 4年前 (2021-04-18) 1064℃ 0评论4喜欢

Apache Iceberg

Apache Iceberg 在网易云音乐的实践

iceberg 详细设计Apache iceberg 是Netflix开源的全新的存储格式，我们已经有了parquet、orc、arvo等非常优秀的存储格式以后，Netfix为什么还要设计出iceberg呢？和parquet、orc等文件格式不同， iceberg在业界被称之为Table Foramt，parquet、orc、avro等文件等格式帮助我们高效的修改、读取单个文件；同样Table Foramt帮助我们高效的修改和读取一类文件

w397090770 4年前 (2021-04-15) 2307℃ 0评论6喜欢

hudi

Apache Hudi 0.8.0 版本发布，Flink 集成有重大提升以及支持并行写

迁移指南如果从 0.5.3 以下版本迁移，请检查这个版本后面的其他版本的升级说明。如果需要升级到 0.8 版本，请参阅 0.6.0 版本的升级指南，因为本版本没有引入新的表版本（table versions）HoodieRecordPayload接口不建议使用现有方法，而推荐使用新方法，该方法还允许我们在运行时传递属性。鼓励用户从不建议使用的方法中迁移

w397090770 4年前 (2021-04-14) 920℃ 0评论2喜欢

Kafka

即将发布的 Apache Kafka 2.8 将不需要依赖 Zookeeper，单集群支持数百万个分区

Apache Kafka 的核心设计是日志（Log）—— 一个简单的数据结构，使用顺序操作。以日志为中心的设计带来了高效的磁盘缓冲和 CPU 缓存使用、预取、零拷贝数据传输和许多其他好处，从而使 Kafka 能够提供高效率和吞吐量的功能。对于那些刚接触 Kafka 的人来说，主题（topic）以及提交日志的底层实现通常是他们学习的第一件事。但

w397090770 4年前 (2021-04-11) 775℃ 0评论4喜欢

Apache DolphinScheduler

Apache DolphinScheduler：国人主导的分布式工作流调度平台正式成为 Apache 顶级项目

全球最大的开源软件基金会 Apache 软件基金会（以下简称 Apache）于北京时间 2021年4月9日在官方渠道宣布Apache DolphinScheduler 毕业成为Apache顶级项目。这是首个由国人主导并贡献到 Apache 的大数据工作流调度领域的顶级项目。DolphinScheduler™ 已经是联通、IDG、IBM、京东物流、联想、新东方、诺基亚、360、顺丰和腾讯等 400+ 公司在使用

w397090770 4年前 (2021-04-09) 1868℃ 0评论3喜欢

Spark

唯品会 Apache Spark 3.0 升级之路

导读.bordered th, .bordered td{text-align:left;}唯品会离线平台SPARK2.3.2无缝升级到SPARK3.0.1版本，完全做到了对用户透明，目前正按着既定方案进行升级，新的版本SPARK CORE/SQL/PySpark进行了优化和BugFix，并且Merge了SPARK vip 2.3.2 重要Patch，在性能和易用性上比旧版本都有较大提升。这篇文章介绍了我们升级SPARK过程中遇到的挑战和思考，

w397090770 4年前 (2021-04-05) 1331℃ 0评论4喜欢

ClickHouse

ClickHouse 在实时场景的应用和优化

讲师：郭映中字节跳动 ClickHouse 研发工程师此次分享分为三部分内容，第一部分通过讲解推荐和广告业务的两个典型案例，穿插介绍字节内部相应的改进。第二部分会介绍典型案例中未覆盖到的改进和经验。第三部分会提出目前的不足和未来的改进计划。早期实践如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注

w397090770 4年前 (2021-03-05) 4769℃ 0评论5喜欢

Presto

Hive 迁移到 Presto 在 OPPO 的实践

Hive 设计之初，就被定位一款离线数仓产品，虽然Hortonworks喊出了Make Apache Hive 100x Faster的牛逼口号，也在上面做了大量的优化，然而性能提升依旧不大。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆而随着OPPO数据量一步步的增多，动辄运行几个小时的hive再也满足不了交互查询的需求，因此我们

w397090770 4年前 (2021-03-05) 1032℃ 0评论6喜欢

上一页
1
···
12
13
14
15
16
17
18
19
20
21
22
...
140
下一页
共 140 页