7.3 数据编辑
7.3.1 筛选数据行
用户添加筛选规则,筛选“输入数据集”中的数据
在“筛选数据行”的详情界面,点击“添加规则”:
选择需要过滤的列、运算符,并选择某一列或者某一自定义值进行比较。用户通过此类ETL处理,可以对数据进行前期的清洗、准备工作。
7.3.2 去重
对“输入数据集”中的数据进行去重,可以对多列进行去重转换,如图,添加需要去重的列即可
我们通常使用输入数据集的主键作为去重列(主键:表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录,例如:会员的唯一编号、商品的唯一编号、销售单据编号等)
如下面某会员信息表的部分数据,user_id表示用户编号,date表示会员申请日期,name是姓名
user_id | date | name |
---|---|---|
Vip1102101 | 2015-02-03 | Ricky |
Vip1103321 | 2016-11-12 | Judy |
Vip1104101 | 2017-08-31 | Mark |
Vip1101131 | 2017-05-15 | Fairy |
Vip1101131 | 2017-05-15 | Fairy |
出现了信息重复的情况,如表中等4、5两行,此时我们将user_id作为去重列,进行ETL处理,处理后即可得到以user_id为主键、不再重复的用户信息表:
user_id | date | name |
---|---|---|
Vip1102101 | 2015-02-03 | Ricky |
Vip1103321 | 2016-11-12 | Judy |
Vip1104101 | 2017-08-31 | Mark |
Vip1101131 | 2017-05-15 | Fairy |
7.3.3 值替换
顾名思义,该操作符可以对数据集的某一具体值进行替换,操作界面如下:
1. 选择需要做值替换的列(确定列)
2. 选择替换结果写入的位置(覆盖原始列、新建列)
3. 选择没有替换规则的值的处理方法(若作设定,则没有替换规则的数据均变替换成此处设定的值)
4. 新增替换规则,如图,由于销售区域5区和6区经过决定后进行了合并,后台数据尚未作出相应的更新,此时需要对“5区(xxx区域)”、“6区(xxx区域)”进行值替换:“5区、6合并”,实际情况下,可能仅需将“6区”替换成“5区”即可,此处用“5区、6区合并”方便说明。