观远实时数据引擎
观远实时数据采用Lambda架构,采取批处理数据与实时数据的分开处理,并能支持多数据源的实时融合,实现分钟级的实时数据更新。
构建实时数据集
1. 初始化实时数据集
在数据中心-数据集页面,新建数据集,选择实时数据集。
实时数据集构建需要事先明确实时数据分析维度及实时数据更新周期。例如,需要做到每五分钟更新连锁门店营业及客流数据,则选择更新周期为“5分钟”,指标维度为门店ID。
2. 实时数据建模
初始化实时数据集后进入实时数据集建模界面。
2.1 添加实时数据源
实时数据集的数据来源主要分为实时部分与静态部分(历史数据或主维度字段的辅助字段),分别对应配置界面左侧的实时数据源与静态数据。
实时数据源主要用来提供实时指标数据,因此一般需要连接外部数据库。在“实时数据源”一栏,点击添加,可选择相应的数据库连接器。
选好后,进入下一步,选择数据表。您可以选择一张具有实时数据的数据表,也可以自行定义SQL查询语句,获得一个View Table:
预览数据,并给该实时数据表命名后,可点击下一步,配置关联关系。这边我们需要关联的是实时数据表中与初始化数据集时定义的维度字段一致的那个字段。例如,将实时数据集中的“shopId”与先前定义的“门店ID”做关联。
最后点击“完成”,一个实时数据源就添加好了。
您可以基于实际情况,添加多个实时数据源进来。
2.2 创建实时指标
实时数据源添加好了,就可以基于实时数据源创建实时指标了。
您需要为实时指标指定数据类型、数据来源、聚合方式、关联的时间字段。
同一个实时数据源可以为多个实时指标所用,一个实时指标也可以同时来自于不同的数据源。
2.3 添加静态数据及静态字段
实时数据集中,有一些数据并非需要实时更新的,例如门店基础信息、门店当天的目标营业额等。这些信息您可以在非直连数据集中按T+1的方式更新,然后添加为实时数据集的静态数据来源。
例如您可以添加“门店信息表”数据集为静态数据,关联“store_id”到实时数据集“门店ID”,并添加该数据集上若干字段为实时数据集的静态字段。
2.4 设置更新时间
由于零售行业一般白天营业时间才有业务数据,而晚上系统要做T+1的批量数据处理,为了平衡计算资源,减轻系统的压力,您可以在配置界面右上角为实时数据集设置一个合理的更新时间区间。
使用实时数据集进行数据分析
实时数据集的使用方式跟一般的数据集使用方式一样,也可以用来创建各种图表类型,但目前暂不支持ETL和JOIN。
实际数据处理时,您仅能对当天的数据进行聚合分析处理,而历史数据则可以放在静态数据中做统一处理。
关于实时数据的更多详细信息您可以咨询您的观远顾问。