网站地图官方微信:
网站首页 槐埝乡 江源镇 付垅乡 北郊镇 大则乡 玉蝉镇

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 怎么评价国内AI企业人肉背15块80TB硬盘,飞去马来西亚用英伟达训练数据,以规避美国禁令? |

    再一次印着了那句话: 永远不要低估一辆满载硬盘的货运卡车的带...

    查看详情>>
  • | 雷军为什么不愿意用性价比打法进军NAS? |

  • | 《甄嬛传》中祺贵人为什么和甄嬛反目? |

  • | 大家说一说上海临港未来的发展预期? |

  • | 现在已经有5K、6K、8K分辨率显示器,那么8K之后是什么? |

  • | 内存条两侧明显的变窄是不是不太正常,是什么原因导致的呢? |

  • | NAS噪音太大,大家都吧NAS放置到哪了? |

  • | 微信服务器会保留聊天记录吗,会保存多久? |

  • | NBA 选秀大会杨瀚森首轮第 16 顺位被开拓者选中,他的实力能在开拓者队进入轮换吗?发展前景怎么样? |

  • | 5 月 28 日 DeepSeek R1 模型完成小版本试升级并开源,具体有哪些提升?使用体验如何? |

  • | 《风味人间》里的顺德鱼生是淡水生鱼片,不担心有***吗? |

  • Go往往跟Rust持平甚至超越这个观点是错误的,GO的性能很...

    2025-06-27
  • 啧……斗岩个锤子,这是茶艺带师 半藏森林。 纯欲天花板是谁...

    2025-06-27
  • 有几个答主提到点上了,国外 nodejs 之所以盛行,是因为...

    2025-06-27
  • 台式电脑没有wifi网卡,有一次网络出问题,师傅过来修理搞半...

    2025-06-27

关注我们

添加微信好友,关注最新动态