第五百七十二章 TPU原班团队全新AI架构，晶体管性能提升6倍_数学心

    2016年底，谷歌tpu团队的十位核心开发者中的八位悄悄离职，创办了一家名为groq的机器学习系统公司。在此后的三年里，这家公司一直很低调。但最近，他们带着一款名为tsp的芯片架构出现在公众视野里。

    tsp的全称是tensorstreamingprocessor，专为机器学习等ai相关需求打造。该架构在单块芯片上可以实现每秒1000万亿（10的15次方）次运算，是全球首个实现该级别性能的架构，其浮点运算性能可达每秒250万亿次（tflops）。在摩尔定律走向消亡的背景下，这一架构的问世标志着芯片之争从晶体管转向架构。

    250tflops浮点运算性能是什么概念？目前的世界第一超级计算机summit，其峰值算力为200，7949tflops，它的背后是28，000块英伟达voltagpu。如果tsp达到了类似的效率，仅需803块就可以实现同样的性能。

    groq在一份白皮书中介绍了这项全新的架构设计。此外，他们还将在于美国丹佛举办的第23届国际超算高峰论坛上展示这一成果。

    「我们为这一行业和我们的客户感到兴奋，」groq的联合创始人和ceojonathanross表示。「顶级gpu公司都在宣称他们有望在未来几年向用户交付一款每秒百万亿次运算性能的产品，但groq现在就做到了，而且建立了一个新的性能标准。就低延迟和推理速度而言，groq的架构比其他任何用于推理的架构都要快许多倍。我们与用户的互动证明了这一点。」

    groq的tsp架构是专为计算机视觉、机器学习和其他ai相关工作负载的性能要求设计的。「对于一大批需要深度学习推理运算的应用来说，groq的解决方案是非常理想的选择，」groq的首席架构师dennisabts表示，「但除此之外，groq的架构还能用于广泛的工作负载。它的性能和简洁性使其成为所有高性能即数据和计算密集型工作复杂的理想平台。」

    一款「简单」的ai芯片架构

    groq的这款架构受到「软件优先」（softwarefirst）理念的启发。它在groq开发的tsp中实现，为实现计算灵活性和大规模并行计算提供了一种新的范式，但没有传统gpu和cpu架构的限制和沟通开销。

    「软件优先」的硬件设计理念

    在groq的架构中，groq编译器负责编码所有内容：数据流入芯片，并在正确的时间和正确的地点插入，以确保计算实时进行，没有停顿。执行规划由软件负责，这样就可以释放出原本要用于动态指令执行的宝贵硬件资源。

    这使得groq的芯片性能具有确定性。编译器动态地重新配置硬件来执行每个计算，因此编译器和芯片之间没有抽象（abstraction）。由于编译器了解硬件和每条指令的速度，所以它可以准确地告诉硬件做什么，什么时候做。

    在传统的体系架构中，将数据从dram移动到处理器需要大量的算力和时间，而且相同工作负载上的处理性能也是可变的。在典型的工作流中，开发人员通过反复运行工作负载或程序来对其进行配置和测试，以验证和度量其平均处理性能。由于处理器接收和发送数据的方式不同，这种处理可能会得到略有差别的结果，而开发人员的工作就是手动调整程序以达到预定的可靠性级别。

    但有了groq的硬件和软件，编译器就可以准确地知道芯片的工作方式以及执行每个计算所需的时间。编译器在正确的时间将数据和指令移动到正确的位置，这样就不会有延迟。到达硬件的指令流是完全编排好的，使得处理速度更快，而且可预测。

    开发人员可以在groq芯片上运行相同的模型100次，每次得到的结果都完全相同。对于安全和准确性要求都非常高的应用来说（如自动驾驶汽车），这种计算上的准确性至关重要。

    另外，使用groq硬件设计的系统不会受到长尾延迟的影响，ai系统可以在特定的功率或延迟预算内进行调整。

    这种软件优先的设计（即编译器决定硬