我已经用DeepSeek试着写了不少东西,当输出字数过多时,你要学会主动分段

【本文由“加东123”推荐,来自《Deepseek大模型推理算法其实很简单》评论区,标题为小编添加】

leve

希望V4多用点真实数据训练,r1的蒸馏量太大了,上下文严重依赖CoT。

-------------------------------------------------------------------------------------------------------

(字数太多,只能单开)

你先学会自己怎么识别和使用AI吧……看你这说法,就是个外行

DeepSeek-R1, 不是什么蒸馏版本,懂吗?它是DeepSeek-V3的推理版本,与蒸馏无关。

DeepSeek-V3也好,DeepSeek-R1也好,其官方正式版本都不纯在蒸馏一说。

你先搞清楚这个前提。

所谓蒸馏版本,是DeepSeek公司为了减少终端用户的部署门槛,主动发布了几个使用DeepSeek-R1作为教师模型,去蒸馏其它模型,而得到的小规模的蒸馏模型,主要是蒸馏了千问与llama的模型。

所谓蒸馏,就是用教师模型去训练学生模型,将教师模型的一些能力传递给学生模型。所以,DeepSeek公司发布的几个蒸馏模型,并不是DeepSeek自己的模型,而是被蒸馏改造的千问模型与llama模型。

很多人,连这个事情都没理解清楚。张嘴闭嘴就是蒸馏蒸馏,蒸了什么他们完全不懂。

蒸馏模型的目的是为了进行赋能,并得到相对较小的模型,比如DeepSeek公司发布的那几个千问和llama的蒸馏模型,都很小,最小的7B,最大的也就70B

7B就是70亿参数;70B就是700亿参数。DeepSeek-R1的官方完整版是671B,也就是6710亿参数。参数差距一目了然;其使用效果也是大相径庭的,参数越多越聪明,越少越笨,甚至智账。

我已经在本地部署了一些蒸馏小模型,只能说,玩玩还行,当真用还是算了吧。还是继续用官方的完整版吧,现在硅基流动上已经开放了昇腾平台上的DeepSeek-R1满血完整版,使用其开放的API KEY,可以很方便的在本机调用DeepSeek-R1的完整版功能。

由于硅基流动的华为平台相对比较安全,不像DeepSeek官网那样每天被鬼子们围攻,所以稳定性和响应速度明显好的多。本人亲测之后,其算力与官服几乎没有差别,也就是说,昇腾平台跑671B参数的全血版,实际推理能力丝毫不逊色于官服的英伟达算力平台。

只不过这两天随着DeepSeek爆火,响应速度也在眼看着下降,但还是比官服强很多。

希望硅基流动加大投入,扩服扩容啊~~~~

说到上下文问题,你得会用。使用容器类软件加载模型后,要设定相应的模型温度与上下文参数,如果你要让他写小说,那就把上下文调成最大。另外,你要学会给模型做预设,根据你的需求,对其进行能力与身份描述,描述的越精准,它就越接近你想要的“样子”。DeepSeek-R1可以经过你的设置,变成你心目中的那位,或者睿智,或者幽默,或者既幽默又睿智,当然,你也可以让它撒娇卖萌,都可以。

很多人不惜工本,在本地部署DeepSeek,其实不是为了快,是为了“破限”,就是让本地模型不受在线模型的限制,变成一个可甜可盐的角色……当然,这就是个人口味了。

我已经用DeepSeek试着写了不少东西,当输出字数过多时,你要学会主动分段,一次次输出。总之它就是个工具,你得会用。不会用,也不学习,骂工具不灵的人,随处可见,但这有啥意义呢?意义就是证明他追不上技术脚步呗。

站务

最近更新的专栏

全部专栏