本文是《Apache Iceberg 入门教程》专题的第 10 篇,共 11 篇:
当前数据湖方向非常热门,市面上也出现了三款开源的数据湖产品:Delta Lake、Apache Hudi 以及 Apache Iceberg。这段时间抽了点时间看了下使用 Apache Spark 读写 Apache Iceberg 的代码。完全看代码肯定有些吃力,所以使用了代码调试功能。
由于 Apache Iceberg 支持 Apache Spark 2.x 以及 3.x,并在创建了不同的模块。其相当于 Spark 的 Connect。Apache Spark 2.x 以及 3.x 读写 Iceberg 的入口都是 org.apache.iceberg.spark.source.IcebergSource
,分别位于 Iceberg 项目的 spark2 以及 spark3 模块里面。
相同类名导致使用 Idea 调试的时候会出现错位,比如我想调试 spark2 读写 Iceberg 的代码可能会跳到 spark3 里面,从而导致无法正常查看代码。
不过值得高兴的是,在 debug 的时候 Idea 支持选择不同的类,这个功能默认是关闭的,我们可以按照下面方法打开:(Preferences -> Debugger,把 Show alternative source switcher 这个选项勾上)
保存后,我们就可以选择正确的代码了:
本博客文章除特别声明,全部都是原创!原创文章版权归过往记忆大数据(过往记忆)所有,未经许可不得转载。
本文链接: 【Apache Iceberg 代码调试技巧】(https://www.iteblog.com/archives/9885.html)