阿里分析型数据库 阿里云数据库怎么用( 二 )


2.1.2 Proactive主动式触发(基于预测)
解决Reactive被动式触发的方法便是Proactive主动式触发,如图4.所示,通过对实例负载的预测,在预测实例负载即将处于高峰前的一段时间,便提前对实例执行扩容操作,使实例能够平稳度过整个业务高峰期 。周期性workload是基于预测的方式中最典型的应用场景(线上具有周期性特征的实例约占40%),DAS使用了达摩院智能数据库实验室同学实现的周期性检测算法,该算法结合了频域和时域信息,准确率达到了80%以上 。例如对具有“天级别”周期性特征的线上实例,Autoscaling服务会在实例每天的业务高峰期开始之前进行扩容,以使实例更好地应对周期性的业务峰值 。
图4. 主动式触发的扩容资源对比图示
我们同样在RDS-MySQL的存储空间扩容里实现了基于预测的方式,基于实例过去一段时间的磁盘使用量指标,使用机器学习算法预测出实例在接下来的一段时间内存储空间会达到的最大值,并会根据该预测值进行扩容容量的选择,可以避免实例空间快速增长带来的影响 。
图5. 基于磁盘使用量趋势的预测
2.2 Autoscaling的方式决策
DAS的Autoscaling方式有ScaleOut与ScaleUp两种,在给出Scaling方案的同时也会结合Workload全局决策分析模块给出更多的诊断建议(如SQL自动限流、SQL索引建议等等) 。如图6.所示是Scaling方式的决策示意图,该示意图以PolarDB数据库作为示例 。PolarDB数据库采用的是计算存储分离的一写多读的分布式集群架构,一个集群包含一个主节点和多个只读节点,主节点处理读写请求,只读节点仅处理读请求 。图6.所示的“性能数据监测模块”会不断的监测集群的各项性能指标,并判断当前时刻的实例负载是否满足2.1章节所述的Autoscaling触发条件,当满足触发条件时,会进入到图6.中的Workload分析模块,该模块会对实例当前的Workload进行分析,通过实例的会话数量、QPS、CPU使用率、锁等指标来判断实例处于高负载的原因,若判断实例是由于死锁、大量慢SQL或大事务等原因导致的高负载,则在推荐Autoscaling建议的同时也会推出SQL限流或SQL优化建议,使实例迅速故障自愈以降低风险 。
在Autoscaling方式的决策生成模块,会判断采取何种Scaling方式更有效 。以PolarDB数据库为例,该模块会通过实例的性能指标以及实例的主库保护、事务拆分、系统语句、聚合函数或自定义集群等特征来判断集群当前的负载分布,若判断实例当前以读流量占主导,则会执行ScaleOut操作增加集群的只读节点数量;若判断实例当前以写流量占主导,则会执行ScaleUp操作来升级集群的规格 。ScaleOut与ScaleUp决策的选择是一个很复杂的问题,除了考虑实例当前的负载分布外,还需要考虑到用户设置的扩容规格上限及只读节点数量上限,为此我们也引入了一个效果追踪与决策反馈模块,在每次决策判断时,会分析该实例历史上的扩容方式及扩容效果,以此来对当前的Scaling方式选择算法进行一定的调整 。
图6. PolarDB的Scaling方式决策示意图
2.3 Autoscaling的规格选择
2.3.1 ScaleUp决策算法
ScaleUp决策算法是指当确定对数据库实例执行ScaleUp操作时,根据实例的workload负载及实例元数据等信息,为当前实例选择合适的规格参数,以使实例当前的workload达到给定的约束 。最开始DAS Autoscaling的ScaleUp决策算法基于规则实现,以PolarDB数据库为例,PolarDB集群当前有8种实例规格,采用基于规则的决策算法在前期足够用;但同时我们也探索了基于机器学习/深度学习的分类模型,因为随着数据库技术最终迭代至Serverless状态,数据库的可用规格数量会非常庞大,分类算法在这种场景下会有很大的用武之地 。如图7.及图8.所示,我们当前实现了基于性能数据的数据库规格离线训练模型及实时推荐模型,通过对自定义CPU使用率的范围标注,参考DAS之前落地的AutoTune自动调参算法,在标注数据集进行模型分类,并通过实现的proxy流量转发工具进行验证,当前的分类算法已经取得了超过80%的准确率 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: