他俩首会面,“谈了DeepSeek和AI芯片出口”

回复7

  • 关于昇腾和Ds的组合,Ds给出的结论 ---短期:昇腾芯片与DeepSpeed的“完美结合”尚难实现,需依赖华为自研工具链(如MindSpore + 昇腾)或社区部分适配方案,可能牺牲性能和开发便利性。  •  长期:若华为持续优化昇腾的CUDA兼容性(如通过HIP类工具)并加强开源社区合作,昇腾有望成为英伟达的替代选项,但需时间积累生态。   建议方案: •  新项目:若需完全脱离英伟达生态,可基于MindSpore + 昇腾自研分布式训练方案。  •  已有项目:若依赖DeepSpeed/CUDA,可尝试通过兼容层(如TransPL等第三方工具)移植,但需验证性能和稳定性。  •  混合架构:在非关键环节使用昇腾,核心训练仍用英伟达(如合规允许),逐步过渡。   最终选择需权衡技术需求、成本、合规风险及长期生态策略。
  • DS用的老黄更底层的PTX,而且还用了FP8训练,等于深度绑定老黄硬件了。如果用的CUDA还能移植到rocm那些。
    牢厂910适配是为了大规模部署推理用的,不是拿他训练。 
  • 公开的信息提到两件事。1是绕开cuda用更底层的PTX指令解决了特供显卡互联带宽不足的问题;2是采访研发工程师提到改进算法,实现某功能比原装库最少快25%的性能。
    这两件事说明,一方面DS技术很厉害,能他人所不能;另一方面说明他们对NV卡的理解很深,沉没成本也很高。
  • 镜子里的陌生人 人来人往谁还在?潮起潮落我自观
    然而PTX依然是NVdia的
  • 本来AI框架也没有和特定的后端绑定啊
  • 用昇腾就不叫绕过CUDA,那叫弃用……绕过,就必须是硬件继续用N卡,但软件不用CUDA,这才叫绕过。
    补充一下:
    1)用昇腾的方案,肯定有,但进展不明;这种事半道上也不可能有消息。有消息就是干成了,就跟这次DS从天而降一样。
    2)绕过的说法,纯属误传,没影的事,也不值得做。浪费时间和精力。最多,就是用了嵌入式汇编,算是小小的魔改;不存在绕过一说。
  • 英特尔amd都可以了。
返回文章

站务

全部专栏