7.3 数据编辑

7.3.1 筛选数据行

用户添加筛选规则,筛选“输入数据集”中的数据

在“筛选数据行”的详情界面,点击“添加规则”:

filter

选择需要过滤的列、运算符,并选择某一列或者某一自定义值进行比较。用户通过此类ETL处理,可以对数据进行前期的清洗、准备工作。

7.3.2 去重

对“输入数据集”中的数据进行去重,可以对多列进行去重转换,如图,添加需要去重的列即可

我们通常使用输入数据集的主键作为去重列(主键:表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录,例如:会员的唯一编号、商品的唯一编号、销售单据编号等)

remove duplication

如下面某会员信息表的部分数据,user_id表示用户编号,date表示会员申请日期,name是姓名

user_id date name
Vip1102101 2015-02-03 Ricky
Vip1103321 2016-11-12 Judy
Vip1104101 2017-08-31 Mark
Vip1101131 2017-05-15 Fairy
Vip1101131 2017-05-15 Fairy

出现了信息重复的情况,如表中等4、5两行,此时我们将user_id作为去重列,进行ETL处理,处理后即可得到以user_id为主键、不再重复的用户信息表:

user_id date name
Vip1102101 2015-02-03 Ricky
Vip1103321 2016-11-12 Judy
Vip1104101 2017-08-31 Mark
Vip1101131 2017-05-15 Fairy

7.3.3 值替换

顾名思义,该操作符可以对数据集的某一具体值进行替换,操作界面如下:

data replace

1. 选择需要做值替换的列(确定列)
2. 选择替换结果写入的位置(覆盖原始列、新建列)
3. 选择没有替换规则的值的处理方法(若作设定,则没有替换规则的数据均变替换成此处设定的值)
4. 新增替换规则,如图,由于销售区域5区和6区经过决定后进行了合并,后台数据尚未作出相应的更新,此时需要对“5区(xxx区域)”、“6区(xxx区域)”进行值替换:“5区、6合并”,实际情况下,可能仅需将“6区”替换成“5区”即可,此处用“5区、6区合并”方便说明。

results matching ""

    No results matching ""