数据库怎么加索引如何加索引( 二 )

在云化场景下，还有一个主要场景对客户的体验非常重要。我们知道客户的业务要迁移上云，需要对数据进行大规模的迁移（华为云提供了数据复制服务DRS工具支持各类数据迁移场景），数据迁移比较高效的方式为：
1)逻辑导出源端数据
2)在目标端建表（注意，表不含二级索引）
3)将源端导出的数据插入到目标端
4)对目标端的表建立二级索引
如果涉及动态数据同步，相关步骤会更复杂一些，由于和该主题无关，这里不展开。以上步骤中，需要重点注意的是步骤2和4，在目标端创建表的时候先不创建二级索引。这个优化对性能影响很大，尤其是一个表有很多二级索引的场景。我们知道Btree索引的插入如果是有序的，对插入性能和结果的空间利用率是最好的，因为Btree索引的分裂会在插入区域的尾部产生，同时由于分裂算法的优化，分裂产生的页面填充率会比较高；相反地，如果是随机插入，尤其是并发地随机插入，很容易导致Btree索引在不同的节点进行分裂，并且分裂后的页面填充率都处于一个半满的状态，导致Btree最终的一个膨胀。
有了这个背景之后，我们就容易理解上面的问题，插入表数据的时候，我们屏蔽了二级索引，等所有数据都准备好了，再采用批量建立索引的方式创建二级索引，这对于二级索引创建效率是最高的。如果不这么做，每插入一条记录，就要去插入相应的二级索引，那么二级索引就是一个无序的随机插入，并发起来性能会变差很多。
虽然在数据同步准备好后，批量创建二级索引是一个有效的方案，但是如果数据量很大，这么创建二级索引还是非常耗时，导致客户在数据迁移完之后需要等待很长时间才能开展业务，这个等待周期可能是小时甚至天级别的。虽然可以考虑表级别的并发创建索引，但是这个方法也有明显的缺点：应用场景有限，要求有多表；以及表和表之间的并发其实不是一个最有效的并发形式，相互影响比较大。
GaussDB(for MySQL)如何快速创建索引？综上所述，在创建索引这个点上存在两个性能瓶颈点：一个是用户迁移数据之后的批量索引创建；第二个是用户临时需要添加一个二级索引。无论哪个点，我们都需要更快的建立好索引，提升用户的使用体验。
华为云GaussDB(for MySQL)引入了并行创建索引的技术，它改进了社区版MySQL创建索引只用单线程的问题，以此提高创建索引的效率，并一起解决了前述两个痛点。前面提到的社区版创建索引逻辑是单线程的，首先存在资源利用率不够饱满的问题；其次创建索引过程是CPU和IO开销交替进行的过程，在做一个操作的时候，即使不是资源竞争的操作也只有等待。多线程创建索引可以充分利用CPU和IO资源，同时有的线程在做CPU计算时，别的线程可以并发的做IO操作。
GaussDB(for MySQL)使用的并行创建索引，是一个全链路的并行技术。前面提到，创建索引包含了若干个阶段，我们的并行创建算法，对这里的每个阶段都做并行处理，从读取数据、排序、到创建索引，都是并行操作，每一步都由指定的N个线程并发处理。它的逻辑如下图所示：

文章插图
GaussDB(for MySQL)尤其对数据的归并排序做了多种优化，使得我们常规的归并排序能够充分的并行，充分利用CPU、内存和IO的资源。在并行创建索引之后的合并步骤，也使用了一套简化的算法，正确处理各种索引结构的场景。
支持的索引和场景GaussDB(for MySQL)的并行创建索引功能，目前支持的索引为Btree二级索引。对于virtual index二级索引，将会在不久的将来提供全面的支持，而MySQL的spatial index和fulltext index不在该并行创建索引覆盖范围内。

以上关于本文的内容，仅作参考！温馨提示：如遇健康、疾病相关的问题，请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容，希望对您有所帮助：

数据库怎么加索引 如何加索引( 二 )

数据库怎么加索引如何加索引( 二 )