作者丨吴强(PingCAPTiDBCloud团队工程师)
编辑丨CalvinWeng、TomDewan
TiDBCloud是为开源分布式数据库TiDB打造的全托管DBaaS(Database-as-a-Service)服务。
Databricks是一款搭载Spark,并基于网页的数据分析平台。Databricks的数据湖仓架构集成了业界最优秀的数据仓库和数据湖。
借助Databricks内置的JDBC驱动程序,只需几分钟即可将TiDBCloud对接到Databricks,随后可以通过Databricks分析TiDB中的数据。本文主要介绍如何创建TiDBCloudDeveloperTier集群、如何将TiDB对接到Databricks,以及如何使用Databricks处理TiDB中的数据。
设置TiDBCloudDevTier集群
使用TiDBCloud前,需进行以下操作:
注册TiDBCloud账号并登录。
在CreateClusterDeveloperTier菜单下,选择1yearFreeTrial。
设置集群名称,并为集群选择区域。
单击Create。大约1~3分钟后,TiDBCloud集群创建成功。
在Overview面板,单击Connect并创建流量过滤器。例如,添加IP地址0.0.0.0/0,允许所有IP访问。
JDBCURL稍后将在Databricks中使用,请做好记录。
将样例数据导入TiDBCloud
创建集群后,即可导入样例数据到TiDBCloud。我们将使用共享单车平台CapitalBikeshare的系统样例数据集作为演示。样例数据的使用完全遵循CapitalBikeshare公司的数据许可协议。
1.在集群信息窗格,单击Import。随后,将出现DataImportTask页面。
2.按如下所示配置导入任务:
DataSourceType:AmazonS3
BucketURL:s3://tidbcloud-samples/data-ingestion/
DataFormat:TiDBDumpling
Role-ARN:arn:aws:iam:::role/import-sample-access
3.配置TargetDatabase时,键入TiDB集群的Username和Password。
4.单击Import,开始导入样例数据。整个过程将持续大约3分钟。
5.返回概览面板,单击ConnecttoGettheMyCLIURL。
6.使用MyCLI客户端检查样例数据是否导入成功:
$mycli-uroot-htidb.xxxxxx.aws.tidbcloud.