本文来自微信公众号:原理(ID:principia1687),作者:Takeko,编辑:雯雯,头图:Mike MacKenzie。
人工智能(AI)早已渗透到我们生活的各个角落。
它不仅是围棋、电子游戏等竞技中战无不胜的最强对手,还正帮助各个领域的科学家解决难题,不仅如此,我们通信软件里语音转文字、一键翻译功能,或者购物网站的智能推荐……它们的背后可能都“躲着”AI。
无论是哪种AI,都离不开强大的计算系统的支持。就好像过去的工业革命首先要有精密测量、原材料和制造方面的重大突破来支持一样,AI也需要全新的技术来推动。
在这样一个“AI时代”,来自全球数十家AI领军机构的计算系统“同台竞技”又是一种怎样的体验?
这样的“奥林匹克”真的存在。著名的机器学习开放联盟MLCommons每年都会组织名为MLPerf的基准测试,它们能够在AI计算系统的速度和效率等方面给出统一的测量标准,并让研究人员通过比较各种技术创新,推动最佳创意和解决方案的进步。
今年4月,MLPerf刚刚公布了2022年第一轮推理性能测试(MLPerf Inference V2.0)的结果,让我们对目前顶尖计算系统的性能有了新的认识。
AI的训练与推理
MLPerf测试每年有4次,其中包括训练性能测试和推理性能测试。为了更好地理解这个语境下的“训练”和“推理”,我们可以先简单说一说AI的工作原理,它们为什么如此与众不同,如此富有魅力。
AI学者贾内尔·沙内(Janelle Shane)在《你看起来好像……我爱你:AI的工作原理以及它为这个世界带来的稀奇古怪》一书中举了一个生动的例子:如何训练AI讲笑话。
如果采用传统编程让计算机讲一则笑话,我们就必须把笑话中所有“规则”用程序语言告诉它。无论程序最终变得多么复杂,本质上仍然是我们为计算机设定好了规则,它去具体地解决这个问题。
但训练AI截然不同,许多AI专家都认同,和传统编程相比,编写AI程序更像“教学生”。
用沙内的话说,简单来讲(当然现实情况显然不会这么简单),我们只要丢给AI一些已有的笑话,用一些基本指令告诉它目标是写笑话,再加上一大堆随机的字符。“然后,我就去取我的咖啡了。”而AI便开始了工作。
它可能会从瞎猜开始,一次又一次地研究数据集并自我调整,自行摸索出更多规则。当然,某些规则也可能不小心让它们误入歧途,比如,曾有一个斯坦福大学的研究团队尝试训练AI来区分健康皮肤和皮肤癌的图片,结果最终却一不小心训练出了一个尺子测量工具,因为数据集中许多肿瘤照片上都有一把用来标度大小的尺子。
但更多时候,在得当的训练下,AI能发现程序员甚至任何人都不知道的大量规则,建立起属于自己的“知识体系”。
完成了训练的AI就像掌握了考点的学霸,它们还有能力将这些所学应用到具体的场景中,根据前所未见的新数据,迅速地给出答案,也就是所谓推理的能力。
这就是AI成为最具吸引力的解决方案的关键所在,它具有无穷的潜力和创造力。
然而,整个过程都离不开海量的数据和计算,一切需要在尽可能短的时间内完成。这就对计算系统的性能有了很大的要求。
MLPerf测试就是从训练和推理这两个方面入手,对计算性能展开全面的考察。
MLPerf测什么?
在MLPerf测试中,训练性能测试相对简单。它主要分为单机和集群两种场景,考察计算系统完成主流AI模型训练的时间,完成得越快,自然意味着系统性能越强。
但此次公布的推理性能测试则更加全面,设置上也更复杂,它就像体育比赛中的全能比赛或者铁人三项,更准确地说是“铁人33项”。推理性能测试针对不同场景,设置了各种指标,考察计算系统完成各类AI任务的速度和能力。它也因此成为行业中的权威标杆之一。
推理性能测试可以首先分为固定任务和开放优化两大类。其中,固定任务更强调同类比较,像是让不同的计算系统在同一起跑线上“赛跑”,因此也相对更受重视。
推理性能测试分为固定任务和开放优化两个类型(图片来源:原理)
在固定任务中,为了保证全面性,6大应用场景被囊括其中,每个场景都选取了目前最主流的AI模型作为测试任务。
推理性能测试的6大应用场景(图片来源:原理)
这些场景都非常贴近实际应用,和我们的生活息息相关。举一些最简单的例子,比如在计算机视觉中,图像分类是最基本的问题之一。无论是我们在网上检索图片,还是手机相册帮助我们自动归类照片,或者对视频的智能分析时,计算机的基本任务之一就是根据图像中的信息将不同图片区分开来。
而对计算机和人类的交互而言,语言模型是根本。能够理解人类语言的NLP(自然语言处理)可以应用在翻译、问答、文本生成等各个方面,各类智能助手都离不开它。
除此之外,应用场景中还囊括了一些更专业的方向,比如生物医学图像分割。我们在医院拍摄的CT、MRI这些医学影像和普通的照片不太一样,它们很多时候是“块状”的,也就是说,一整张图由很多个切片构成,这也给图像处理带来了额外的挑战。生物医学图像分割就是对这些医学影像中器官或病变进行分割,从而更精准地识别和分析,这也是计算机辅助医疗中的关键一步。
针对这些应用场景,测试设置了不同考察维度。可以这么理解,这其实就是进一步将应用场景细化,创造出更丰富的贴合实际的情境,从而全方位地检验计算系统在各种可能发生的情况下的表现。
针对不同模型,测试还设置了不同考察维度,包括数据中心和边缘中的不同场景(图片来源:原理)
新的纪录,新的未来
这次MLPerf推理性能测试共有19家机构参与,总计超过千项数据被提交。
其中,浪潮AI服务器在总共33项任务中,斩获了27项冠军,其中包括数据中心全部16项冠军,以及边缘17个单项中的11项冠军,在各项任务中创下了新的AI推理速度纪录。
浪潮AI服务器在本次MLPerf推理性能测试(数据中心离线场景)中创造的各项纪录(图片来源:原理)
这代表着当前最先进的AI计算水平。随着AI应用在各个行业中的持续深化,更快的推理速度将带来更高的AI应用效率和能力,加速产业智能化转型。
相比前一次的测试结果,浪潮AI服务器将图像分类、语音识别和自然语言处理任务的推理性能分别提升了31.5%、28.5%和21.3%,换句话说,系统在自动驾驶、语音会议、智能问答和智慧医疗等各类场景中,都有能力更高效、快速地完成各项智能任务。
在强大算力的驱动下,数字技术会在实体世界得到更深度的应用。将来,我们或许都有机会驾驶着高度自动化的汽车,在智能交通系统的帮助下,用最快捷、最安全的方式到达想去的地方。只要对着智能助手说两句话,我们下单的用品就能在最短时间内即刻送达。有了语音实时识别和翻译,语言的壁垒也逐渐消融,我们有了更多沟通交流的机会,认识更广阔的的世界。
正如浪潮信息所言,智慧时代,计算力就是生产力,智算力就是创新力。它将成为推动新一轮科技革命和产业变革的重要力量。
本内容为作者独立观点,不代表创新湾立场。如有异议,请联系创新湾。创新湾聚焦新科技、新产业,相关内容欢迎投稿。(投稿或转载请联系创新湾小编微信:EnnoBay2020)
领先一步看见未来
创新湾ID:EnnoBay