北京看白癜风哪家好 https://wapjbk.39.net/yiyuanfengcai/ys_bjzkbdfyy/分享嘉宾:杨旭阿里巴巴资深算法专家
编辑整理:朱荣
导读:Alink是基于Flink流批一体的机器学习平台,提供一系列算法,可以帮助处理各种机器学习任务,比如统计分析、机器学习、实时预测、个性化推荐和异常检测。除了提供JavaAPI也提供了PyAlink,可以轻松部署到单机及集群环境,通过Jupyter、Zepplin等notebook使用。Alink已在阿里巴巴内部支持了众多的应用场景,并在年11月的FlinkForwardAsia大会上宣布开源,随后不断迭代发布新的版本,增强功能,提升易用性。
本文主要介绍基于Flink平台的机器算法的功能、性能与使用实践,帮助大家快速上手Alink机器学习平台。其中重点介绍了python语言使用的PyAlink的方法和实例,同时对FM算法进行了详细的介绍,帮助大家更好上手Alink并在实际工作中得到广泛应用。
主要围绕下面俩点展开:
Alink基本介绍ALink快速入门01
Alink基本介绍
首先跟大家介绍一下Alink的基本情况:
1.什么是Alink?
Alink是由阿里计算平台事业部研发的基于Flink的机器学习算法平台,名称由AlibabaAlgorithmAIFlinkBlink单词的公共部分组成。
Alink提供了丰富的算法库并天然可以支持批式和流式的处理,帮助数据分析和应用开发人员完成从数据处理、特征工程、模型训练、预测多节点端到端整体流程。
Alink提供JavaAPI和PythonAPI两种方式进行调用,JavaAPI方便工程人员快速将Alink接入到现有系统中,PythonAPI也叫PyAlink是方便提供机器学习同学完成快速的实验。
2.Alink功能介绍
Alink作为一个重要的机器学习的平台,覆盖机器学习各阶段13大类的62项功能点,囊括了机器学习核心的分类算法、聚类算法、回归算法三类算法,并附带了4项模型评估的方法,同时还包括关联规则和协同过滤算法、相似度算法等数据挖掘方面算法。
在算法完成部分后,也提供了评估模型的评估方法,包括二分类评估、多分类评估、回归评估、聚类评估。在算法应用之前Alink为使用者准备了数据预处理、异常检查、文本处理等辅助功能处理工具。在在线学习方面Alink也准备了FTRL,可以在线状态中训练,在实时场景中提供模型实时更新机制,增强学习模型调整等时效性。在机器学习中的模型选择与调试参数服务,为大家提供有效的参数调优。3.Alink性能比对
利用加速比对Alink与Sparkml进行性能评测。具体的测试方法是使用相同的测试数据,相同的参数,用Sparkml的计算时间除以Alink的计算时间。从下图实际测试对比数据可知,Alink在大部分算法性能优于Spark,个别算法性能比Spark弱,整体是一个相当的水平。
4.Alink建设进展
年7月发布Alinkversion1.2.0:
支持Flink多版本1.11、1.10、1.09;支持多忘记系统:本地文件系统,Hadoop文件系统,阿里云oss文件系统;CSV格式读取、导出组件支持各文件系统;推出AK格式读取、导出组件,简化文件数据操作;支持模型信息摘要、输出;FM分类、回归算法;年6月发布Alinkversion1.1.2:
新增30个数据格式转化组件;支持多版本Hive数据源;在Pipline和LocalPredictor中指出SQLSelect操作;年4月发布Alinkversion1.1.1:
提升使用体验,参数检查方面更加智能;年2月发布Alinkversion1.1.0:
支持Flink1.1.0和Flink1.9的平台部署问题,PyAlink增加兼容PyFlink的功能;改进UDF/UDTF功能;支持JAVAMaven安装和PythonPyPl安装;支持多版本的Kafka数据源;年12月发布Alinkversion1.0.1:
重点解决windows系统上的安装问题。年11月首次发布Alinkversion1.0,在FlinkForwordAisa大会上开源。
02
Alink快速入门
接下来为大家详细的介绍Alink的使用方式:
1.使用Maven构建Alink项目简介
Java使用者借助Maven中央仓库,大家只需要4步就可以很容易的构建出Alink项目。第一步:创建项目;第二步:修改pom文件,导入Alink项目jar包;第三步:拷贝修改AlinkJavaDemoCode;第四步:构建运行;
详细过程可以参考: