给《流浪地球》刷分有用?豆瓣电影评分是怎么来的
如果你问我,豆瓣电影评分是怎么算的,我可以直接告诉你,我不知道。
原谅我,我之所以发帖子说这个话题,是因为看大家写的关于《流浪地球》的帖子,看到评论区有这么一层楼。
这篇帖子的楼主说:
我这个钢铁直男,为了从这些有组织有预谋没下限的黑子们手中保住《流浪地球》的评分,我,注册豆瓣了
我说,兄弟们,先不要急着去给《流浪地球》投票,先搞清楚豆瓣的评分是怎么算的。因为我也不怎么上豆瓣, 但是去豆瓣的时候看到他们在影评下面放了这么一段话。
* 影片上映之前的、与影片无关的或包含人身攻击等内容的短评都将有可能被折叠,且评分不计入豆瓣评分。
* 短评的排序是将豆瓣成员的投票加权平均计算后的结果,通过算法的调校,更好地反映短评内容的价值。
虽然这句话是针对短评的,但是同时也说了影片的评分其实并不是所有用户的打分都计入的,具体怎么算的豆瓣也没给,但至少可以确定是有部分用户的打分剔除的,不是所有用户打分的算术平均分。
至于到底豆瓣是怎么算的,这个就不清楚了。
2015年的时候,有一篇文章比较火,名字叫做《豆瓣电影打分规则竟如此简单粗暴》,就吐槽了豆瓣评分的事情。当然,现在已经2019年了,或许豆瓣的评分已经有所变化,但是这篇文章还是很值得看一看的。
以下为文章全文:
当人们需要对一部电影的好坏做出评价的时候,通常会查找这部电影在影视行业通用标准下的得分。在全球,参考标准一般来说是 IMDb(Internet Movie Database),而在国内大部分人都会相信豆瓣电影和时光网。
你可能以为,来自这些评分标准机构的专业人士们,会使用复杂的加权机制、算法,抑或多重计算标准,来对一部电影进行多维度的立体打分,得出最客观的,最符合大众观影者认知的一个分数。
这的确没错,但并非所有的人们信赖的机构都是这样!如果不是因为今天豆瓣创始人杨勃(阿北)的一篇日志,大部分人可能永远不知道,豆瓣电影居然有着一个简单到不能更简单的评分计算机制:分数加总之后除以人数
在日志的开头阿北这样写道:
我是豆瓣的创始人,也一直是豆瓣的 CEO。我还写过计算豆瓣评分的最早的几版代码(不难,加起来除下人数)。
在文章的第一个章节他具体解释了豆瓣电影的评分标准。仍然没多难,跟“最早的几版代码”几乎没什么区别:
比方说一部电影有 42 万用户打分。我们的程序把这 42 万个一到五星换算成零到十分,加起来除以 42 万,就得到了豆瓣评分。
很难想象,豆瓣电影这样一个在影视行业影响力如此之大的平台,评分机制竟然如此简单,简单到了粗暴的程度……
阿北进一步解释,这个评分会自动出现在豆瓣的各个需要豆瓣电影分数出现的地方,没有审核机制,更没有编辑干预,程序每过一段时间会自动重跑一遍,将新打分者打出的分数加入到计算当中。在他看来,豆瓣一亿多人的大众评审团的意义就在于此。
曾经作为豆瓣用户主力的中国文艺青年,数量显然比一亿多人要少。而这样的评分机制,使得豆瓣电影评分已经不再体现文艺青年的喜好,而是更能反映出大众对于电影的观点看法。一部文艺电影的得分高很正常,因为文艺青年们看过并都打了较高的分数。然而普通用户因为得分高也去看这部电影,结果觉得并不好看,进而觉得豆瓣电影不靠谱。
过去数年时间里豆瓣用户量剧增的同时,无论文青用户还是普通用户都有这样的感触。自己喜欢的电影得不到高分、自己不喜欢的电影得了高分,用户们因此产生了想法,认为豆瓣电影评分规则背后有阴谋。阿北指出,豆瓣电影并没什么阴谋,普遍观点和个人观点之间的不重合,恰恰是用户有主见的体现。
跟豆瓣相比,IMDb 作为中国大陆以外的观众最常参考的电影评分机构,在评选 TOP250 电影的时候却采用了一种繁琐的排名制度:
加权排名 = [经常投票者投票人数 ÷(经常投票者投票人数+进入 TOP250 需要的最小票数 1250)]×普通方法计算出的平均分 +[最小票数 1250 ÷(经常投票者投票人数 + 最小票数 1250)\× 目前所有电影的平均得分
通过这个复杂无比的计算公式,IMDb 的 TOP250 榜单能够排除掉那些只有极少数投票者且得分极高的电影,但又不会给那些投票者较少的优秀小众电影关上入选榜单的大门。
同时,如何将刷票行为排出到最终的分数外,关键点就在于“经常投票者投票人数”这个值上。具体来说,当粉丝为一部电影拉票的时候,号召非用户在 IMDb 上新注册用户并给一部电影打分,这些新增的用户,和 IMDb 上经常打分的老用户是存在区别的,前者打的分数可以显示出来,但只有后者的打分才能被有效计入到最终的榜单当中。
互联网技术专家和学者阮一峰曾经在他的博客整理过 Hacker News、Reddit 等一众带有非简单的贴文排名功能的社区产品,其背后所依赖的排名算法。
比如,Delicious 曾经的热门书签排行榜,曾经使用过去一个小时内被收藏的次数进行排名,每小时重新计算一次。而 Hacker News 的机制类似,但算法稍微复杂一些:
(帖子得票数 - 1) ÷【 (距离发帖的小时数 + 2) 的 1.8 次方】
其中,1.8 次方被称为重力因子,代表着老帖子(无论排名高低)排名下降的速度,重力因子越大,排名下降越快。
此外,阮一峰还总结了基于曾由牛顿提出的冷却定律公式衍生出的排名更新规则。
无论是用极其复杂的算术公式来优化掉所有的干扰因素,还是粗放生硬地使用平均数来反映整体意见,排名规则最终总是要达到两个目的:
1)按照社区的定位,能够体现最广泛或最核心用户的真实想法
2)不易被主观带有恶意的规则破坏者所利用
这样来看,豆瓣的规则的确在第一条上做的很好。阿北也在前面提到的日志里解释,在针对有组织的非正常打分行为上,豆瓣也在使用程序来中和这些打分的体现效果。
反刷分早已经是豆瓣电影日常工作的一部分,不少同事借助更多的程序一直默默在做。
(原文完)
文章内提到,互联网技术专家和学者阮一峰曾写过一些关于互联网社区内投票、评分的算法的文章。阮一峰在2012年还写过《基于用户投票的排名算法》系列文章,这类文章挺有意思的,如果大家感兴趣可以去看看。
基于用户投票的排名算法(一):Delicious和Hacker News 2012.02.24
基于用户投票的排名算法(二):Reddit 2012.03.07
基于用户投票的排名算法(三):Stack Overflow 2012.03.11
基于用户投票的排名算法(四):牛顿冷却定律 2012.03.16
基于用户投票的排名算法(五):威尔逊区间 2012.03.20
基于用户投票的排名算法(六):贝叶斯平均 2012.03.28
说这么多,就是想让兄弟们冷静下,好电影不会因为一群小清新的投票而失去它应该得到的东西。这次投票让我想起一件事,是当年时任财政部部长的楼继伟,评价穆迪下调中国评级一事:
注意到了评级的调整,但市场上并没有因此使得和中国主权债有关的指标发生变化,比如离岸人民币不跌反涨,也没有资金做空中国。希腊危机的时候,希腊评级都比我们高,我们不care他的评级。至于和评级机构沟通,我们不用给他们拜码头。
对于有人故意在豆瓣上给《流浪地球》打低分,说实在的,我也不care。