阿里网盘优质资源分享 阿里云管理控制台( 二 )


Hive Metastore:在Hadoop生态为了构建统一的管理视图,用户会在自己的Hadoop集群搭建HMS服务 。AWS Glue Meta:提供多租户的统一数据湖元数据管理服务,配套Serverless的元数据爬取技术生成元数据 。相关功能收费 。Aliyun DLA Meta: Meta兼容Hive Metastore,支持云上15+种数据数据源(OSS、HDFS、DB、DW)的统一视图,提供开放的元数据访问服务,引入多租户、元数据发现、对接HUDI等能力 。DLA Meta追求边际成本为0,免费提供使用 。下面也将重点介绍DLA Meta的相关技术实现 。二、云原生数据湖的元数据管理架构为了解决上面这些挑战,阿里云云原生数据湖分析服务DLA的元数据管理,支持统一的多租户元数据管理视图;数据模型兼容Hive Metastore;提供阿里云OpenAPI、Client、JDBC三种开放模式;同时提供元数据自动发现服务一键异步构建元数据 。下面是各个模块的介绍:
统一元数据视图:支持15+中数据源,OSS、HDFS、DB、DW等;并兼容Hive Metastore的数据模型,比如Schema、View、UDF、Table、Partition、Serde等,友好对接Spark、Hadoop、Hudi等生态;丰富的开放模式:支持阿里云OpenAPi、Client、JDBC三种接口开放模式,方便生态工具及业务集成DLA Meta,比如可以开发Sqoop元数据插件对接OpenAPI,同步数据时构建元数据;目前开源Apache Hudi支持通过JDBC方式对接DLA Meta;DLA内置的Serverless Spark、Presto、Hudi支持通过Client模式对接DLA Meta;支持多租户及权限控制:基于UID的多租户机制进行权限的隔离,通过GRANT&REVOKE进行账号间的权限管理 。支持水平扩展:为了满足海量元数据的管理,服务本身是可以水平扩展,同时底层使用RDS&PolarDB的库表拆分技术,支持存储的扩展 。元数据发现服务:当数据入湖时没有关联元数据,可以通过元数据发现服务一键自动关联元数据 。可以看出在对接多种数据源以及数据集成方式方面提供了友好的开放性,目前Apache Hudi原生对接了DLA Meta;在分析生态方面支持业界通用的数据模型标准(Hive Metastore);同时服务本身具备多租户、可扩展的能力满足企业级的需求 。
三、元数据管理核心技术解析下面主要介绍DLA Meta关于元数据多租户、元数据发现、海量分区管理三方面的技术实践,这几块也是目前业界核心关注和探索的问题 。
1、元数据多租户管理
在大数据体系中,使用Hive MetaStore (下面简称HMS)作为元数据服务是非常普遍的使用方法 。DLA 作为多租户的产品,其中一个比较重要的功能就是需要对不同用户的元数据进行隔离,而且需要拥有完整的权限体系;HMS 本身是不支持多租户和权限体系 。阿里云DLA 重写了一套Meta 服务,其核心目标是兼容 HMS、支持多租户、支持完整的权限体系、同时支持存储各种数据源的元数据 。
多租户实现
为了实现多租户功能,我们把每张库的元数据和阿里云的UID 进行关联,而表的元数据又是和库的元信息关联的 。所以基于这种设计每张库、每张表都是可以对应到具体的用户 。当用户请求元数据的时候,除了需要传进库名和表名,还需要将请求的阿里云UID 带进来,再结合上述关联关系就可以拿到相应用户的元数据 。每个元数据的API 都有一个UID 参数,比如如果我们需要通过getTable 获取某个用户的表信息,整个流程如下:
上面的ACCOUNT 是DLA 中存储用户账户信息的表;DBS 和TBLS 是用于存储元数据的表 。虚线代表他们之间的关联关系 。
权限体系
我们知道,一般大型的企业会存在多个不同部门,或者一个比较大的部门需要区分出不同的用户,这些用户之间又需要共享一些资源 。为了解决这个问题,DLA 将阿里云UID 作为主账号,DLA userName 作为子账号来区别每个用户,同一个阿里云UID 下面的不同子用户访问的资源是有限制的,比如主账号用户可以看到所有的元数据;而一般用户只能看到一部分 。为了解决这个问题,DLA Meta 实现了一套完整的权限体系,用户可以通过GRANT/REVOKE 对用户进行相关的权限操作 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: