写CUDA到底难在哪?

2025-06-25 09:00:18

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?
广告位810*200
相关阅读
怎么评价国内AI企业人肉背15块80TB硬盘,飞去马来西亚用英伟达训练数据,以规避美国禁令?

怎么评价国内AI企业人肉背15块80TB硬盘,飞去马来西亚用英伟达训练数据,以规避美国禁令?

都说了80T硬盘了,怎么还有人想着3.5寸机械的事,跟企业级...

2025-06-26
未来几年,市场对 AI 人才的需求会集中在哪几个方向?

未来几年,市场对 AI 人才的需求会集中在哪几个方向?

最近发现两个有意思的现象。 一个是从25年开始,AI智能体...

2025-06-26
为什么用 electron 开发的桌面应用那么多?

为什么用 electron 开发的桌面应用那么多?

在桌面应用开发的漫长历史中,我们见证了技术范式的演进:从 j...

2025-06-26
你用过的最好用的鼠标是什么品牌的?

你用过的最好用的鼠标是什么品牌的?

之前写过一篇推荐键盘的文章很受大家欢迎,今天呢更新一篇鼠标的...

2025-06-26
为什么公认 macOS 很好用,但实际其市场占有率只有大约17.7%?

为什么公认 macOS 很好用,但实际其市场占有率只有大约17.7%?

我只是个文科生,而且算是个果粉,但工作原因不得不用Windo...

2025-06-26