automatic_Hudi Cleaning操作说明
创始人
2024-10-15 13:07:44

Automatic Hudi Cleaning操作说明

automatic_Hudi Cleaning操作说明(图片来源网络,侵删)

自动Hudi清理是Apache Hudi的一个功能,用于自动删除旧的、不再需要的数据集版本,这种清理基于配置的策略,可以定期或在数据写入时执行。

1. 配置Hudi清理策略

要配置Hudi清理策略,您需要在Hudi表的Spark SQL创建语句中指定HudiTableSink选项,以下是一个示例:

 CREATE TABLE hudi_table (   ... ) USING org.apache.hudi.spark.HoodieSparkSqlQueryableDataSource OPTIONS (   'hoodie.data.publisher'='org.apache.hudi.spark.datasource.write.DataWriterFactory',   'hoodie.cleaner.commits.retained.time'='1d',   'hoodie.cleaner.min.commits'='5',   'hoodie.cleaner.enable'='true',   'hoodie.cleaner.schedule'='10 mins',   'hoodie.cleaner.policy'='COMPACTION' ); 

在这个例子中,我们配置了以下策略:

hoodie.cleaner.commits.retained.time: 保留最近1天的所有提交(即不会删除这些提交)。

hoodie.cleaner.min.commits: 至少保留5个提交,即使它们的时间戳比hoodie.cleaner.commits.retained.time更老。

hoodie.cleaner.enable: 启用自动清理。

hoodie.cleaner.schedule: 每10分钟进行一次清理。

hoodie.cleaner.policy: 使用COMPACTION策略进行清理。

2. 启动Hudi清理

一旦配置了清理策略,Hudi将在后台自动执行清理任务,如果您想手动触发清理,可以使用以下命令:

 CALL system.hudi_clean('hudi_table'); 

这将立即执行清理操作,而不是等待下一个计划的清理周期。

3. 监控和调试Hudi清理

要监控和调试Hudi清理,您可以查看Hudi表的提交历史和清理历史,以下是一些有用的查询:

查看所有提交:

 SELECT * FROM hudi_table.hoodie_commits; 

查看所有清理:

 SELECT * FROM hudi_table.hoodie_cleans; 

查看当前保留的提交:

 SELECT * FROM hudi_table.hoodie_retained_commits; 

通过这些查询,您可以了解Hudi清理是否按预期工作,以及是否需要调整清理策略。

相关内容

热门资讯

勤享科技取得托盘传递装置专利,... 国家知识产权局信息显示,广东省勤享科技有限公司取得一项名为“一种托盘传递装置”的专利,授权公告号CN...
和你一起品味云手机体验良好的平... 在当今数字化时代,云手机作为一项创新性的科技产品,正逐渐走进人们的视野,为游戏玩家和工作室等人群提供...
【财经早报】新型电池,重大突破... 重要新闻提示 我国科学家打造出安全、抗冻、耐热新型电池 速腾聚创:预计2025年第四季度首次实现单季...
8300mAh是真香,但论真实... 讲个道理,对一加手机来讲或许在旁人眼里它真的不是什么主流品牌,最多说句好听的话,它就是一个名副其实次...
热气腾腾晒小家|航天夫妻回乡过... 金山朱泾镇万联村的年味,早早就漫遍了街巷田埂。肉香、酱香味混着糯米的甜,在乡间的风里打转。陈箭驰的车...