第130章 Apache 2.0 许可证

如遇到章节错误，请关闭浏览器的阅读/畅读/小说模式并且关闭广告屏蔽过滤功能，稍后尝试刷新。

第130章 apache 2.0 许可证

ppt翻到下一页，出现一个矩阵乘法（gemm）的动画演示。

“不同厂商的gpu，其计算核心、缓存、內存带宽、甚至指令集都有巨大差异，直接为每种架构手写优化內核几乎是不可能完成的任务，这也是过去跨平台方案性能不佳的主要原因。

而我们的“tie分割”技术，可以动態地根据目標gpu的硬体参数配置文件做到这一点。”

隨后，动画演示开始，一个巨大的矩阵被高效地切割成多个大小不一的tie，算法开始自动计算出最优的tie大小、形状，以及数据在全局內存、共享內存、寄存器之间的搬运策略。

“可以看到，即便是同一个gemm计算，针对不同架构，编译器生成的底层机器代码在tile大小、循环展开次数、寄存器分配和使用上都是完全不同的。

这正是为什么，在演示中，我们能在amd显卡上获得接近n卡cuda性能的原因。“

说到这，周昀又笑了笑：“大家可能会说，既然都这么好了，是不是完全可以取代cuda了？虽然我也很希望做到这点，但还是很遗憾地告诉各位，不行，目前，aetosvo.1仅支持有限的核基础算子，如各位所见，relu，gemm，reduce

等等。”

ppt上展示了现有能够支持的算子列表。

周昀等待议论声稍歇，才继续开口：“如各位所见，现阶段想要全面超越cuda，那是不现实的，我们做到的，只是在最核心的矩阵运算上，通过算法和编译器的优化，尽力弥补了硬体架构本身的差异，为其他平台的开发者提供了多一种可能的选择。

我们都知道，构建一个生態困难重重，需要无数开发者的共同努力和时间积累，但不管是aetos还是其他国產的gpu计算生態，或许它们现在就像一颗种子，非常弱小，需要合適的土壤才能生长，但是某些领域，或许正需要这样一颗完全自主的种子。“

他话音落下，整场报告结束。

报告厅內，所有人都被周昀展示的东西所震撼，也不是没有其他厂商想要做这样的事情，比如amd就做过类似的事情，但最终的结果就是大败而归。

其中的困难，所有人都心知肚明。

几秒钟的寂静之后，掌声响起，虽然也有的人並不看好，但这並不妨碍他们对周昀的佩服，能够迈出这一步，已经足够厉害了。

本章未完，点击下一页继续阅读。

www.74txts.com

科研系学霸所有内容均来自互联网，骑士小说网只为原作者佚名的小说进行宣传。欢迎各位书友支持佚名并收藏科研系学霸最新章节。