kettle随记

  1. 注意排序,作为流处理,排序很重要,想要体会排序,可以理解一下普通排重和 hash 排重的区别。

    普通排重,是需要排序后线性处理,排重的时候只需要比较相邻的就行了,不许要保存状态
    hash排重,对需要排重的字段做 hash,比较 hash 值,所以不需要排序。

    kettle 作为一个流处理工具,还是排序后做处理好一点,很多时候会避免掉很多的莫名其妙,其实是自己理解补充的问题。

阅读更多