如遇到章节错误,请关闭浏览器的阅读/畅读/小说模式并且关闭广告屏蔽过滤功能,稍后尝试刷新。

第130章 apache 2.0 许可证

ppt翻到下一页,出现一个矩阵乘法(gemm)的动画演示。

“不同厂商的gpu,其计算核心、缓存、內存带宽、甚至指令集都有巨大差异,直接为每种架构手写优化內核几乎是不可能完成的任务,这也是过去跨平台方案性能不佳的主要原因。

而我们的“tie分割”技术,可以动態地根据目標gpu的硬体参数配置文件做到这一点。”

隨后,动画演示开始,一个巨大的矩阵被高效地切割成多个大小不一的tie,算法开始自动计算出最优的tie大小、形状,以及数据在全局內存、共享內存、寄存器之间的搬运策略。

“可以看到,即便是同一个gemm计算,针对不同架构,编译器生成的底层机器代码在tile大小、循环展开次数、寄存器分配和使用上都是完全不同的。

这正是为什么,在演示中,我们能在amd显卡上获得接近n卡cuda性能的原因。“

说到这,周昀又笑了笑:“大家可能会说,既然都这么好了,是不是完全可以取代cuda了?虽然我也很希望做到这点,但还是很遗憾地告诉各位,不行,目前,aetosvo.1仅支持有限的核基础算子,如各位所见,relu,gemm,reduce

等等。”

ppt上展示了现有能够支持的算子列表。

周昀等待议论声稍歇,才继续开口:“如各位所见,现阶段想要全面超越cuda,那是不现实的,我们做到的,只是在最核心的矩阵运算上,通过算法和编译器的优化,尽力弥补了硬体架构本身的差异,为其他平台的开发者提供了多一种可能的选择。

我们都知道,构建一个生態困难重重,需要无数开发者的共同努力和时间积累,但不管是aetos还是其他国產的gpu计算生態,或许它们现在就像一颗种子,非常弱小,需要合適的土壤才能生长,但是某些领域,或许正需要这样一颗完全自主的种子。“

他话音落下,整场报告结束。

报告厅內,所有人都被周昀展示的东西所震撼,也不是没有其他厂商想要做这样的事情,比如amd就做过类似的事情,但最终的结果就是大败而归。

其中的困难,所有人都心知肚明。

几秒钟的寂静之后,掌声响起,虽然也有的人並不看好,但这並不妨碍他们对周昀的佩服,能够迈出这一步,已经足够厉害了。

本章未完,点击下一页继续阅读。

www.74txts.com
玄幻魔法小说相关阅读More+

推演,道成元始

佚名

清冷直男,被疯批皇帝强制爱了

佚名

天幕宝可梦:曝光小智弒神救世!

佚名

穿越菩提老祖,西游第一劫难

佚名

我有了透视眼之后,运气好到爆

佚名

开局青云宗主,召唤大帝境老祖

佚名