Sora与人工智能的核心

openAI的Sora再次震撼人类。

我想了下这个根据文字生成视频的模型应该怎么训练:

先找到大量的带文字说明的视频,比如电影和对应的剧本,然后给60秒的视频配好合适的文字,这部分有大量工作由人工标注,也可以由人类提取出简单关键词再由GPT扩写。

之所以先选择60秒,后面可以看到,太长了训练难度至少平方级增大,硬件目前支持也不够,但可以想象,后面到120分钟也是很快的事。

然后就可以训练了,根据任意一段文字,从随机噪声开始利用扩散模型生成图片,一次生成60*25FPS,初始生成的图片也基本都是无意义像素,训练的关键在于损失函数。

损失函数可以定为生成视频与文字对应的标记视频之间的差异。

接下来利用反向传播+梯度下降进行训练,不断的降低损失函数就可以了。训练的另一个关键在于,60秒的视频所对应的图片要做为一个整体进行训练,视频长度决定了网络的大小。

而生成视频时,标记文字作为神经网络激活函数的密码,不同的文字激活不同的通道,从而生成对应的图片和视频。

可以大概看下训练数据的维度:

60×25×1920×1080=3110400000

也就是一个训练样本的维度大概是31亿

看着似乎有些恐怖,但是GPT3的参数数量已经是1700亿了,也就是说这个数据量级的参数已经可以操作。

而且,虽然最终生成的是1920×1080视频,但是前期训练和初始生成可以先降维,生成低质量图片,再进行插值,或者用另一个扩散模型进行优化扩充。

这么大的数据量,可能要用几十万上百万个A100之类的GPU训练和推理

站在人工智能背后的是NVIDIA,还是利好NVIDIA,股票还会涨,黄仁勋赚翻了。

可以看到,大体上的思路框架并不需要很复杂,或者多么深刻,就可以实现,当然,中间有很多工程技术和技巧,样本数据预处理技术,软硬件结合能力等。

如果现在要讨论人工智能突飞猛进的基础和最大功臣和里面的核心,那么:

硬件方面应该是NVIDIA的GPU+CUDA配套(咱们国家主要华为在做硬件兼容cuda),软件算法方面,最核心的应该推Hinton和Lecun提出反向传播算法,这个让计算神经网络的梯度成为可能。没有BP算法,梯度计算可太麻烦了,1700亿参数计算一次梯度就得1700亿次前向计算,有了反向传播,梯度计算和前向计算的复杂度差不多同样数量级。

剩下的CNN,Transformer之类的算法模型当然也很重要,但都是在这两个前提下逐步产生的,今年没有,明年也会有的。

所以,对于我们而言,算法基础都是公开的,只要去学,大家都能懂能用。问题的关键就是,我们没有英伟达,RTX4090都被限售了,更有针对性的训练卡,推理卡更不必说,希望我们在并行计算的硬件方面,能尽快取得突破,赶上,超过。至于人工智能的应用方面,迟早是中国的天下。

全部专栏