1.新建一个text文件,里面包含空记录和重复记录,如:
Web_domain
www.baidu
www.baidu
www.baidu
mysql删除重复的数据保留一条www.baidu
www.yahoo
www.xunlei
www.xunlei
www.letv
le
将该文件作为text file input输入,对该文件进行相关处理。
2.在kettle中建立一个transform,如下:   
  原理:先对输入的数据进行空记录过滤处理,这样就得到了没有空记录的数据,过滤器中配置如下:
然后去掉重复记录,但是这一步之前我们需要进行排序操作:
最后就是去重复记录操作了:
Ok!这就是我做的一个关于去掉空记录和重复记录的transform,希望对你有用。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。