您已来到:主页 > 经典语录 > >   正文

计算机架构的新黄金时代,为什么到了2021年还没

摘要:机器之心原创作者:泽南一面是客观的技术差距,一面是无法忽视的机会。4 月 21 日,英伟达发布了 A30 和 A10 GPU 系列 GPU,其安培(Ampere

机器之心原创

作者:泽南

一面是客观的技术差距,一面是无法忽视的机会。

4 月 21 日,英伟达发布了 A30 和 A10 GPU 系列 GPU,其安培(Ampere)架构、最新制程的性能和软硬件体系加持,为众多科技公司在 AI 推理和训练时带来了新的选择。该公司预计在今年夏季,新款芯片即将会出现在众多公司的云服务器中。

对于熟悉机器学习领域的人们来说,每隔一两年推出的新一代 GPU,是他们最为关注的新动向。英伟达的旗舰芯片算力也总是其它芯片创业公司用来比较的标杆。

但对那些希望寻找人工智能最合适算力的研究者们来说,GPU 因为「过于通用」,常常会被认为并非 AI 的最终解决方案。但迄今为止,英伟达 GPU 仍然占据市场的主流。在 GPU 引领深度学习技术爆发之后,AI 芯片领域还会出现新的变化吗?

和 AI 算法应该怎么写一样,人们对于芯片应该怎么造的思考其实一直都没有停止,芯片领域里下一个大方向可能在于「特定领域的体系结构(DSA)」。

计算机架构传奇人物、2017 年图灵奖获得者 John Hennessy 和 David Patterson 在 2019 年发表于 ACM 杂志上的文章《计算机架构的新黄金时代》中曾提出:当摩尔定律不再适用之后,一种更加以硬件为中心的设计思路——针对特定问题和领域的架构 DSA 将会展现实力。这是一种特定领域的可编程处理器,它仍是图灵完备的,但针对特定类别的应用进行了定制。

John L. Hennessy 和 David A. Patterson,两人合著有《计算机体系结构:量化研究方法》一书。

从定义上来看,DSA 与专用集成电路 ASIC 不同,后者仅适用于单一功能,运行其上的代码很难进行修改。DSA 板卡通常被称为加速器,因为与在通用 CPU 上执行整个应用程序相比,它们可以加速某些应用程序。此外,DSA 可以实现更好的性能,因为它们更贴近应用的实际需求。DSA 的例子包括最常见的图形加速单元(即 GPU),用于深度学习的神经网络处理器,以及软件定义处理器(SDN)。在特定领域的应用中,DSA 的效率更高,能耗更低。

通常,适用于 AI 推理的 DSA 处理器无法应用于高性能通用计算、光线渲染等任务,但又不像 ASIC 那样只能胜任很少的一些固化算法任务。在人工智能的任务上,DPU 芯片可以有很高的通用性,既支持 NLP,又支持计算机视觉和语音的任务处理,还可以通过 TVM 等工具覆盖各种机器学习框架。

如果说体系架构大师展望的技术方案是 DSA 成立的充分条件,那么科技公司对于 AI 算力的需求就是 DSA 芯片形成突破的必要因素。

目前,想要通过各种方法来构建一块 GPU,与英伟达实现相似的性能仍然非常困难。但在以数据中心为核心的互联网新时代,国内头部互联网公司的规模为整个行业带来了前所未有的 AI 落地场景。如果能够准确找到落地需求,构建高效的 AI 加速器,不仅可以大幅提升机器学习的价值,或许还能催生出潜在的新市场。

在这种情况下,能够搞清应用方向就成为了 DSA 能否成功的关键。如今科技公司需要深度学习推断的业务包括推荐系统、内容审核、AI 教育、人工智能客服、图文翻译等各种方面。围绕这些业务,所有互联网厂商都产生了大量算力需求。

对于一家半导体公司来说,要想打造一块能够完成这些任务的芯片,其设计要符合客户应用场景、底层需求,具备高效的实现方式,同时也要在交付成本、维护服务、更新迭代的速度、软件友好的程度,甚至销售策略上具备竞争力。

体系结构之外,另一个契机在于指令集,RISC-V 兴起也在让芯片领域发生着变化,它的模块化和可扩展性完美地匹配 DSA 灵活高效的技术需求。

诞生于 2010 年的 RISC-V 是一个开源的精简指令集架构,适用于创建微处理器和微控制器。最早由美国加州大学伯克利分校(UC Berkeley)的 Krste Asanovic 教授、Andrew Waterman 和 Yunsup Lee 等开发人员于 2010 年提出,又得到了计算机体系结构大师 David Patterson 的支持。这个架构允许开发者免费开发和使用,包括直接在芯片上进行商业化实现。

今年 1 月,外媒报道称顶级芯片设计大师 Jim Keller 加入了初创公司 Tenstorrent,担任 CTO 以及董事会成员。

据了解,Tenstorrent 设计的是高性能 AI 训练和推理,异构架构 AI SoC。该公司设计了针对机器学习优化的 Tensix 处理器内核,为了运行传统的工作负载,Tenstorrent 的 SoC 使用 SiFive 的新型通用智能 X280 内核,而 X280 是一个 64 位的 RISC-V 内核,集成了 512 位宽的 RISC-V 矢量指令扩展(RVV)。

无独有偶,美国的芯片设计公司 Pixilica 已与 RV64X 团队合作,提出了一套新的图形指令集,旨在融合 CPU-GPU ISA,并将其用于 3D 图形和媒体处理,从而为 FPGA 创建了开源参考实现。Europena 工具开发商 Codasip 的高级市场总监 Roddy Urquhart 表示,这是 RISC-V 生态系统的优势之一:「如果要创建特定于领域的处理器,关键任务之一就是选择符合软件需求的指令集架构(ISA)。」

关键字:
24小时热闻