什么是“Project Brnwave”
就在8月23日,团队推出了一个新的加速平台——
Project Brainwave。该系统专为实时 而设计——这意味着它接到处理请求时,就会以超低的延迟时间来处理。因为云基础设施需要处理实时数据流,无论是搜索查询、、流,还是与用户的交互。所以实时正变得越来越重要。
它可分为以下3个层面:
高性能的分布式系统架构;
整合到 硬件上的深度(DNN)引擎;
编译器和runtime。
分布式架构
首先,脑波(Brainwave)利用在过去几年部署的大量基础设施。通过将高性能的FPGAs直接连到数据中心网络,把DNNs作为硬件微服务,进而使DNN可以映射到一个远程FPGAs池,再由loop中的服务器调用。
由于不需要再处理传入的请求,因此,该系统架构减少了延迟;同时,FPGA处理请求的速度与网络接受请求的一样快,因此允许非常高的吞吐量。
强大的DNN 其次,使用强劲有力的“软”DNN处理单元(DPU),将其整合到商品级的FPGAs上。 许多大公司和许多初创公司正在开发硬化处理单元。 虽然这些具有很高的峰值计算性能,但是它们在设计时必须选择自己的运算符和数据类型,这限制了它们的灵活性。
那Brainwave是如何提高灵活性的呢?
Project Brainwave采用了一种不同的方法,它提供了横跨多数据类型的设计。该设计将FPGAs的数字信号处理模块和合成逻辑结合在一起从而提供了一个更大、更优化的功能处理单元。这种方法充分利用了FPGA的灵活性。
某不愿透露姓名的专家说
神奇的编译器 第三,Project Brainwave整合了一个软件堆,旨在支持广泛流行的框架。支持微软的认知工具箱(CNTK)和的Tensorflow,并计划支持许多其他的工具包。我们已经定义了一个基于图的中间表示,可转换那些常见的框架上训练模型,编译到高性能的基础设施上。
除此之外,还有专家要说话。。。。。。
使用英特尔的 Stratix 10 FPGA,Brainwave 不需要任何 batching 就能在大型 GRU (gated recurrent unit)达到 39.5 Teraflops 的性能。
Eric Chung and Jeremy Fowers
也就是说:
该测试使用Microsoft的定制8位浮点格式(“ms-fp8”),不会遭受准确度损失,测试结果表明使用英特尔的 Stratix 10 FPGA,Brainwave 在大型GRU可达到39.5Teraflops。在性能方面,Brainwava架构每一个周期保持了超过 130000 个计算操作,并且由每 10 个周期发布的宏指令驱动。“Brainwave”项目实现了前所未有的实时AI性能水平。
看了这么多东西,这个玩意现在长什么样子?
废话不说,直接上图!
.
.
.
写在最后
我们正在努力为Azure中的用户提供强大的实时AI系统,从而使我们的用户能够直接从Project Brainwave中受益。我们相信在不久的将来,用户能够在Azure上以让人惊讶的表现运行最复杂的深度学习模型,届时,我们还将做会做一步详细地介绍。
我们相信随着Project Brainwave深入到我们的客户中
Microsoft Azure将具有界业领先的实时AI功能。