因为GPT-4能够一次处理的token数量有上限,那自然它的语言训练效率就高了

【本文来自《中文使用大语言模型的成本,是英文的2倍,我们应如何面对这个问题?》评论区,标题为小编添加】

这上面不是说每个token的训练成本,中文是英文的两倍,而主要说的是GPT-4这样的语言模型的分词器(tokenizers)在以不同语言表示的相同内容下,分出来的训练单词(token)的数量差异很大,所以要获得能懂相同意思句子的模型,英语一个句子只需要17个token,而缅甸语就需要198个token用于训练,这样按每token计算的总体训练成本,后者就会大大高于前者。

不过这里也有疑问,相同意思的一句话,如果分词的话中文的token一般比英文的更少,这样按token计算的训练成本应该比英语语料更少才对,所以这上面写的中文是英文的两倍这个结果不知道是如何计算出来的。

然后左边第2点就接着上面的意思,说因为GPT-4能够一次处理的token数量是有上限的,那自然是token少的语言训练效率就高了。

而右边的what if就提出问题,如果不分词,完全用字符或字节来训练会怎么样。这里没给出结论,而给了一个很有意思的表,上面显示以英语为基准的话,相同内容的句子,按字符计算长度,中文只有不到英文的三分之一,而按字节也只有英文的87%。所以从这个角度也可以看出中文的信息密度比英文要大得多。这里也希望中国人能够研发出适合这个特点的模型训练算法。

全部专栏