如遇到章节错误,请关闭浏览器的阅读/畅读/小说模式并且关闭广告屏蔽过滤功能,稍后尝试刷新。
第130章 apache 2.0 许可证
ppt翻到下一页,出现一个矩阵乘法(gemm)的动画演示。
“不同厂商的gpu,其计算核心、缓存、內存带宽、甚至指令集都有巨大差异,直接为每种架构手写优化內核几乎是不可能完成的任务,这也是过去跨平台方案性能不佳的主要原因。
而我们的“tie分割”技术,可以动態地根据目標gpu的硬体参数配置文件做到这一点。”
隨后,动画演示开始,一个巨大的矩阵被高效地切割成多个大小不一的tie,算法开始自动计算出最优的tie大小、形状,以及数据在全局內存、共享內存、寄存器之间的搬运策略。
“可以看到,即便是同一个gemm计算,针对不同架构,编译器生成的底层机器代码在tile大小、循环展开次数、寄存器分配和使用上都是完全不同的。
这正是为什么,在演示中,我们能在amd显卡上获得接近n卡cuda性能的原因。“
说到这,周昀又笑了笑:“大家可能会说,既然都这么好了,是不是完全可以取代cuda了?虽然我也很希望做到这点,但还是很遗憾地告诉各位,不行,目前,aetosvo.1仅支持有限的核基础算子,如各位所见,relu,gemm,reduce
等等。”
ppt上展示了现有能够支持的算子列表。
周昀等待议论声稍歇,才继续开口:“如各位所见,现阶段想要全面超越cuda,那是不现实的,我们做到的,只是在最核心的矩阵运算上,通过算法和编译器的优化,尽力弥补了硬体架构本身的差异,为其他平台的开发者提供了多一种可能的选择。
我们都知道,构建一个生態困难重重,需要无数开发者的共同努力和时间积累,但不管是aetos还是其他国產的gpu计算生態,或许它们现在就像一颗种子,非常弱小,需要合適的土壤才能生长,但是某些领域,或许正需要这样一颗完全自主的种子。“
他话音落下,整场报告结束。
报告厅內,所有人都被周昀展示的东西所震撼,也不是没有其他厂商想要做这样的事情,比如amd就做过类似的事情,但最终的结果就是大败而归。
其中的困难,所有人都心知肚明。
几秒钟的寂静之后,掌声响起,虽然也有的人並不看好,但这並不妨碍他们对周昀的佩服,能够迈出这一步,已经足够厉害了。
本章未完,点击下一页继续阅读。