Author: Heyu Dou, Xinxin Wang
与普通报告不同,A/B测试每次都会收集不同尺寸组合的数据。这也是对巨大数据的复杂分析。在我们的情况下,我们的实时数据量为数百万OP(每秒操作),每个操作都涉及约20个数据标签,并且超过十二个维度。
对于有效的A/B测试,作为数据工程师,我们必须确保快速计算以及高数据完整性(这意味着没有重复,并且没有数据丢失)。我敢肯定我不是唯一一个这样说的人:这很难!
让我向您展示我们与以前基于DRUID的数据平台的长期斗争。
平台体系结构1.0
组件:apache storm + apache druid + mysql
这是我们的实时数据瓦里屋,Apache Storm是实时数据处理引擎,Apache Druid预先聚集了数据。但是,德鲁伊不支持某些分页并加入查询,因此我们定期将数据从德鲁伊(Druid)撰写,使MySQL成为Druid的“物质视图”。但这只是一个胶带解决方案,因为它无法支持我们扩大的实时数据大小。因此数据及时性是无法实现的。
平台体系结构2.0
组件:apache flink + apache druid + tidb
这次,我们用Flink代替了Storm,然后用TIDB代替了MySQL。在语义和功能方面,Flink更强大,而TIDB具有分布式功能,比MySQL更可维护。但是Architecture 2.0远没有我们的端到端数据一致性的目标,因为在处理庞大的数据时,可以使TIDB交易大大减慢数据编写。另外,德鲁伊本身不支持标准SQL,因此使用中有一些学习成本和摩擦。
平台体系结构3.0
组件:apache flink + Apache Doris
我们用Apache Doris代替Apache Druid作为OLAP引擎,这也可以用作统一的数据服务网关。因此,在体系结构3.0中,我们只需要维护一组查询逻辑。我们将实时数据瓦式层次分层以增加实时数据的可重复使用性。
证明弗林克和多丽丝的组合是答案。我们可以利用它们的功能来实现快速计算和数据一致性。继续阅读,看看我们如何实现。
快速计算
作为一个操作数据可以连接到20个标签,在A/B测试中,我们每次仅比较两组数据中心。首先,我们考虑将一块操作数据(带有20个标签)分成20个数据,仅在数据摄入时只有一个标签的数据,然后将它们导入Doris进行分析,但这可能会导致数据爆炸,从而导致巨大的压力在我们的集群上。
然后,我们尝试将此类工作量的一部分移至计算引擎。因此,我们尝试并“爆炸”了Flink中的数据,但很快就后悔了,因为当我们使用flink作业中的全局哈希窗口汇总数据时,网络和CPU的使用也“爆炸”。
我们的第三张镜头是在我们拆分之后,将数据汇总在弗林克本地。如下所示,我们在一个用于本地聚合的操作员的内存中创建了一个窗口;然后,我们使用全局哈希窗口将其进一步汇总。由于两个被链接在一起的操作员是一个线程,因此在操作员之间传输数据会消耗少得多的网络资源。 两步聚集方法与 Aggregate model apache doris结合使用,可以将数据爆炸保持在可管理的范围内。
为了方便A/B测试,我们将测试标签ID作为Apache Doris中的第一个排序字段,因此我们可以使用排序的索引快速找到目标数据。为了进一步最大程度地减少查询中的数据处理,我们使用常用维度创建实质性的视图。随着不断的修改和更新,实现的视图适用于我们的80%的查询。
总结一下,使用分类索引和实体视图,我们将查询响应时间缩短为仅在A/B测试中的几秒钟。
数据完整性保证
想象一下,您的算法设计师汗流和眼泪试图改善业务,只是发现由于数据丢失而无法通过A/B测试来验证其解决方案。这是一个难以忍受的情况,我们尽一切努力避免这种情况。
开发一个水槽到多边形组件
为了确保端到端数据完整性,我们开发了一个接收器到doris组件。它建立在我们自己的Flink Stream API脚手架上,并通过Apache Doris的同性恋写作和Apache Flink的两阶段提交机构实现。最重要的是,我们具有针对异常的数据保护机制。
这是我们长期演变的结果。我们用来通过实现“一个标签ID的一个写作”来确保数据一致性。然后,我们意识到我们可以充分利用Apache Doris中的交易和Apache Flink的两阶段提交。
如上所述,这是两阶段提交的工作方式来保证数据一致性:
- 将数据写入本地文件;
- 第一阶段:apache doris的预订数据。将多丽丝事务ID保存到状态;
- 如果检查点失败,请手动放弃交易;如果检查点成功,请在第二阶段进行交易;
- 如果提交在多次重试后失败,则交易ID和相关数据将保存在HDF中,我们可以通过代理负载还原数据。
我们可以将单个检查点分为多个交易,以便在大型数据量的情况下,我们可以防止一个流负载花费更多的时间。
。应用程序显示
这就是我们实现接收器的方式。该组件已阻止API调用和拓扑组件。通过简单的配置,我们可以通过流载荷将数据写入Apache Doris。
群集监视
对于集群和主机监控,我们采用了Apache Doris社区提供的指标模板。对于数据监视,除了模板指标外,我们还添加了流加载请求号和加载率。
我们关注的其他指标包括数据编写速度和任务处理时间。对于异常情况,我们将以电话,消息和电子邮件的形式收到通知。
关键要点
成功的A/B测试的配方是快速计算和高数据完整性。为此,我们在Apache Flink中实现了两步聚合方法,利用了Apache Doris的汇总模型,实现的视图和简短的索引。然后,我们开发了一个接收器到doris组件,该组件是通过apache doris的同性努力和apache flink的两阶段提交机制实现的。