如何在TiDBCloud上使用Datab - 竹笋 - Powered by Discuz!NT Archiver

TUhjnbcbe - 2022/8/26 22:40:00

作者丨吴强（PingCAPTiDBCloud团队工程师）

编辑丨CalvinWeng、TomDewan

TiDBCloud是为开源分布式数据库TiDB打造的全托管DBaaS(Database-as-a-Service)服务。

Databricks是一款搭载Spark，并基于网页的数据分析平台。Databricks的数据湖仓架构集成了业界最优秀的数据仓库和数据湖。

借助Databricks内置的JDBC驱动程序，只需几分钟即可将TiDBCloud对接到Databricks，随后可以通过Databricks分析TiDB中的数据。本文主要介绍如何创建TiDBCloudDeveloperTier集群、如何将TiDB对接到Databricks，以及如何使用Databricks处理TiDB中的数据。

设置TiDBCloudDevTier集群

使用TiDBCloud前，需进行以下操作：

注册TiDBCloud账号并登录。

在CreateClusterDeveloperTier菜单下，选择1yearFreeTrial。

设置集群名称，并为集群选择区域。

单击Create。大约1~3分钟后，TiDBCloud集群创建成功。

在Overview面板，单击Connect并创建流量过滤器。例如，添加IP地址0.0.0.0/0，允许所有IP访问。

JDBCURL稍后将在Databricks中使用，请做好记录。

将样例数据导入TiDBCloud

创建集群后，即可导入样例数据到TiDBCloud。我们将使用共享单车平台CapitalBikeshare的系统样例数据集作为演示。样例数据的使用完全遵循CapitalBikeshare公司的数据许可协议。

1.在集群信息窗格，单击Import。随后，将出现DataImportTask页面。

2.按如下所示配置导入任务：

DataSourceType:AmazonS3

BucketURL:s3://tidbcloud-samples/data-ingestion/

DataFormat:TiDBDumpling

Role-ARN:arn:aws:iam:::role/import-sample-access

3.配置TargetDatabase时，键入TiDB集群的Username和Password。

4.单击Import，开始导入样例数据。整个过程将持续大约3分钟。

5.返回概览面板，单击ConnecttoGettheMyCLIURL。

6.使用MyCLI客户端检查样例数据是否导入成功：

$mycli-uroot-htidb.xxxxxx.aws.tidbcloud.