如遇到章节错误,请关闭浏览器的阅读/畅读/小说模式并且关闭广告屏蔽过滤功能,稍后尝试刷新。
凌晨,实验室依然灯火通明,技术验证已进入最后阶段。
陶知行双眼布满血丝,站在两块巨大的显示屏前,左边屏幕显示著在amd/nvidia平台上的性能匯总报告,右边屏幕则是一片飘红的升腾平台初步测试数据。
“陶博,最终数据核对完毕。”一名工程师的声音几分沙哑,“在amd和nvidia平台的復现结果,与周昀博士公布的数据误差在正负百分之二以內,完全吻合,甚至在我们额外增加的分组卷积、layernorm这两个更加复杂的算子测试中,aetos的表现也稳定得惊人,跨平台性能损失远低於我们的预期。
陶知行点点头,这一点从第一天的初步復现他就基本能看的出来,报告上提到的技术指標应该都没有弄虚作假。
只不过...
他看向另一边的工程师:“你们的情况呢?”
“陶博,情况既在意料之中,又比预想的更复杂。”他们是负责升腾平台移植的小组负责人。
说著,他切换屏幕,展示出对aetos在升腾910b上运行的深度性能剖析图。
“移植本身成功了,基础功能无误,这也证明了aetos架构的跨平台能力底子非常好,但是性能並不理想,目前最佳情况,也只有我们cann原生优化版本性能的30%-35%,问题也都很明显。”
他指著性能分析工具捕捉到的热点图继续说道:“看这里,內存访问是最大瓶颈,aetos编译器根据其內置的通用gpu模型生成的“tiie』分割策略和內存搬运指令,完全不符合我们达文西架构的规则,我们的片上存储(ub)利用率极低,大量时间浪费在无效的数据搬运和等待上,这导致了计算单元占用率,波动巨大,根本无法持续饱和,编译器显然不了解我们计算核心的最佳调度粒度和数据復用模式。”
旁边一位技术人员点点头补充道:“我们尝试模仿amd后端的配置文件格式,为升腾编写了一个基础版本,但是其中的参数量太大了,如果不知道其原理,根本无法成功。“
“也就是说,”陶知行总结道,“没有他们的深度介入,我们短期內根本无法在升腾平台上释放aetos的真正潜力?”
“是这样的。”
陶知行轻笑著摇了摇头:“我知道了,准备和徐总匯报吧,技术验证我们都做完了,至於接下来是合作还是怎么样,就不是我们该操心的了。“
他本人其实还是倾向於合作,因为他感觉他们现在遇到的困难就是周昀的有意为之。
心里也对周昀这个年轻人愈发好奇了。
本章未完,点击下一页继续阅读。