热点:

    英特尔助力阿里云创纪录背后 大数据与AI在实践中走向融合

      [  中关村在线 原创  ]   作者:徐鹏

    “通过我们和英特尔做的联合优化,使得阿里云MaxCompute与飞天AI平台核心引擎PAI成为了全球唯一一家通过100TB测试的系统。不过由于100TB只有我们一家通过,所以说很难跟其他的系统做一个对比,因此我们把这个维度降低一点,在30TB上跟其他的系统做对比。与第二名相比,我们可以在性能快一倍的同时,成本降低一半。”阿里云计算平台研究员、高级总监关涛提及的测试,是由国际标准组织(TPC)制订的TPCx-BB (大数据性能基准测)——运行在英特尔至强可扩展处理器上的阿里云大数据计算服务MaxCompute和飞天AI平台核心引擎PAI,在TPCx-BB中以100TB的规模创造世界纪录。

    英特尔助力阿里云创纪录背后 大数据与AI在实践中走向融合
    阿里云计算平台研究员、高级总监关涛(图左),英特尔高级首席工程师、大数据分析和人工智能创新院院长戴金权(图右)

    阿里云大数据计算服务(MaxCompute,原名ODPS)是一项大数据计算服务,是一种快速、完全托管的PB级数据仓库解决方案,使用户可以经济高效地分析处理海量数据。源于飞天平台在2009年建立时的三大组成部分之一(另两个是“盘古”和“伏羲”)。对内,MaxCompute存储了阿里巴巴99%的数据量,承接95%以上的计算需求,就像是阿里巴巴经济体的“大数据内存”,淘宝、支付宝、天猫、拍立淘……以及各种人工智能应用的大数据都在这个平台上。对外,面向石油石化、政务交通等各行业部署了200多套系统,服务着数万家公有云付费客户,包括浙江省的税务系统、新浪微博、众安保险等等。

    “我们在2015年的时候开始做最初的测试,当时叫Sort benchmark,是一个在大规模上纯做排序的测试。后来我们发现,如果只做排序的话,无法代表越来越丰富的业务场景,所以就选择了BigBench。”关涛回忆称。作为BigBench的重要贡献者,英特尔与阿里云开发团队展开了深入合作,共同扩展TPCx-BB测试集,增加了对MaxCompute计算引擎的支持。同时,双方还在TPCx-BB委员会中共同推广MaxCompute/PAI,促成TPCx-BB官方测试集升级,继而正式纳入阿里云MaxCompute/PAI计算引擎的支持。

    据了解,TPCx-BB会通过在应用场景中执行30次的分析查询测试硬件和软件组件的性能,查询以SQL表示结构化数据,以机器学习算法表示半结构化和非结构化数据。SQL查询可以使用Hive或Spark,机器学习算法则使用机器学习库,用户定义的函数和过程程序,最终的测试结果会体现为两个分数,即性能分数和性价比分数。与同类的测试相比,TPCx-BB更看重大数据与机器学习的结合,包含了30种不同的维度基准,在数据测试量级上以10TB、30TB、100TB递进。

    关涛对笔者说,MaxCompute在此次测试中有两个唯一性:第一,这是首个以非Hadoop体系的大数据系统接入的测试,在功能和能力上与Hadoop测试的场景无异,但是从存储到计算的系统是完全自研的。第二,阿里云是首家以公有云的形式参与测试的企业,对计价系统甚至是整个BigBench体系都有专门的优化,这源于阿里巴巴对未来云发展趋势的判断。早在10年前筹措系统建立的时候,阿里云就为其注入了云原生的理念。

    “如果看我们的成绩,基本上是每年大约翻一倍,在世界上都是非常领先的。”关涛自信地说。不过,支撑超过10万台服务器规模、并且还在高速增长的集群系统绝非易事。首先,运行在操作系统上的算子优化既要设计得更快,又要对硬件支持得更好;其次,多个系统之间的网络通讯,以及分布式系统的再上层要具备良好的水平扩展能力;此外,服务器数万台量级的增长与性能提升保持线性增长并不容易,需要智能调度系统、负载均衡系统等全面的考验。

    在过去三年多的时间里,英特尔从软件和硬件两个维度全方位支持阿里云MaxCompute,为其提供大数据引擎适配,标准升级,支持云模型以及优化性能,提高最大内存运用率,大幅提升大数据分析的性能和可扩展性,从而增强了云上的大数据挖掘和商业智能分析的能力。通过TPCx-BB,阿里云可以不断检验系统性能是否达到了最优化,而与机器学习相结合的测试,也成为了在AI时代贴近实际业务场景的试验田。

    硬件层面,英特尔在计算(英特尔至强可扩展处理器)、存储(英特尔傲腾数据中心级持久内存)、网络等方面对MaxCompute平台提供了全方位的支持。软件层面,英特尔一方面利用各类分析工具帮助阿里云找到性能瓶颈,另一方面会与阿里云的工程师合作,帮助核心算法和算子提升性能效果。除了在硬件上支持AVX-512指令集以提高对计算密集型工作负载的加速,双方在功能性、扩展性的软硬协作也使得测试成绩有了翻倍的提升。

    “硬件计算架构从趋势来看,会是一个异构或者超异构,包括英特尔也在聚焦标量、矢量、矩阵、空间等等各种超异构架构,来支撑大数据处理分析,包括机器学习等等的计算。”英特尔高级首席工程师、大数据分析和人工智能创新院院长戴金权表示,“我们认为硬件带来一个数量级增长,再加上软件可以带来另外一个数量级增长,软硬件叠加会有翻倍的提升。”

    当然,阿里云与英特尔在大数据领域的合作并不局限于此,在上海的联合实验室,双方推动着一个又一个新产品和新项目上线,在阿里云天池大赛中,英特尔将Flink、Analytics Zoo,以及英特尔傲腾数据中心级持久内存等软硬件一起提供给参赛者使用,诸如此类的合作案例还有很多。“包括BigDL也跑在MaxCompute平台上,为阿里内部提供服务。”关涛说。

    未来,阿里云与英特尔将在大数据与AI的融合之路上持续探索,把更多的新技术应用到大数据处理分析上。在戴金权看来,大数据和AI在实际生产中是紧密联合在一起的,“谈到数据平台,就要想怎样把AI模型应用和大数据处理分析等整套的流水线打通。数据是流动的,要让不同的组件和相互协作,更好的结合在一起,这正是英特尔和阿里云在做的事情

    Intel Xeon Gold 5120

    Intel Xeon Gold 5120

    [经销商] 京东商城

    [产品售价] 12488元


    本文属于原创文章,如若转载,请注明来源:英特尔助力阿里云创纪录背后 大数据与AI在实践中走向融合//bigdata.zol.com.cn/728/7289799.html

    bigdata.zol.com.cn true //bigdata.zol.com.cn/728/7289799.html report 4556 “通过我们和英特尔做的联合优化,使得阿里云MaxCompute与飞天AI平台核心引擎PAI成为了全球唯一一家通过100TB测试的系统。不过由于100TB只有我们一家通过,所以说很难跟其他的系统做一个对比,因此我们把这个维度降低一点,在30TB上跟其他的系统做对比。与第二名相比,我...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐经销商
    投诉欺诈商家: 010-83417888-9185
    • 北京
    • 上海
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错