Sora与人工智能的核心

李若

02-17 11:57

openAI的Sora再次震撼人类。

我想了下这个根据文字生成视频的模型应该怎么训练:

先找到大量的带文字说明的视频，比如电影和对应的剧本，然后给60秒的视频配好合适的文字，这部分有大量工作由人工标注，也可以由人类提取出简单关键词再由GPT扩写。

之所以先选择60秒，后面可以看到，太长了训练难度至少平方级增大，硬件目前支持也不够，但可以想象，后面到120分钟也是很快的事。

然后就可以训练了，根据任意一段文字，从随机噪声开始利用扩散模型生成图片，一次生成60*25FPS，初始生成的图片也基本都是无意义像素，训练的关键在于损失函数。

损失函数可以定为生成视频与文字对应的标记视频之间的差异。

接下来利用反向传播+梯度下降进行训练，不断的降低损失函数就可以了。训练的另一个关键在于，60秒的视频所对应的图片要做为一个整体进行训练，视频长度决定了网络的大小。

而生成视频时，标记文字作为神经网络激活函数的密码，不同的文字激活不同的通道，从而生成对应的图片和视频。

可以大概看下训练数据的维度:

60×25×1920×1080=3110400000

也就是一个训练样本的维度大概是31亿

看着似乎有些恐怖，但是GPT3的参数数量已经是1700亿了，也就是说这个数据量级的参数已经可以操作。

而且，虽然最终生成的是1920×1080视频，但是前期训练和初始生成可以先降维，生成低质量图片，再进行插值，或者用另一个扩散模型进行优化扩充。

这么大的数据量，可能要用几十万上百万个A100之类的GPU训练和推理

站在人工智能背后的是NVIDIA，还是利好NVIDIA，股票还会涨，黄仁勋赚翻了。

可以看到，大体上的思路框架并不需要很复杂，或者多么深刻，就可以实现，当然，中间有很多工程技术和技巧，样本数据预处理技术，软硬件结合能力等。

如果现在要讨论人工智能突飞猛进的基础和最大功臣和里面的核心，那么:

硬件方面应该是NVIDIA的GPU+CUDA配套（咱们国家主要华为在做硬件兼容cuda），软件算法方面，最核心的应该推Hinton和Lecun提出反向传播算法，这个让计算神经网络的梯度成为可能。没有BP算法，梯度计算可太麻烦了，1700亿参数计算一次梯度就得1700亿次前向计算，有了反向传播，梯度计算和前向计算的复杂度差不多同样数量级。

剩下的CNN，Transformer之类的算法模型当然也很重要，但都是在这两个前提下逐步产生的，今年没有，明年也会有的。

所以，对于我们而言，算法基础都是公开的，只要去学，大家都能懂能用。问题的关键就是，我们没有英伟达，RTX4090都被限售了，更有针对性的训练卡，推理卡更不必说，希望我们在并行计算的硬件方面，能尽快取得突破，赶上，超过。至于人工智能的应用方面，迟早是中国的天下。

国际科技教育举报

李若

36篇文章 | 98人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

Sora与人工智能的核心

李若

李若

热点

最近更新的专栏

风闻最热

全部专栏