学霸程序员怒捅马蜂窝,175亿独角兽因此缩水至20亿

源 / 顶级程序员   文 / 江户川雨

马蜂窝数据造假

10月21日,一篇名为《估值 175 亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章在社交网络发酵。

文章抓取的诸多数据信息表明,马蜂窝存在点评大量造假的情况。而点评造假的内容多来自诸多同行网站,并存在自建团队撰写虚拟点评的行为。

500

10月21日下午,马蜂窝对此回应称“正在核实情况,会尽快给出结论。”

随后在 10 月 22 日早上,发出了一则声明称“该自媒体文章所述的马蜂窝用户数量与事实和第三方机构数据都严重不符,并存在误导倾向,已被查证为有组织攻击行为,将采取法律手段维护自身权益。”

紧接着,此前爆料的公众号再次发文《马蜂窝开始毁灭证据了,但这水平真的哈哈哈哈哈哈哈哈》,指出,原文章发出后马蜂窝对发布平台进行了投诉,同时发现“在文章发出来8个小时以后提及的账号从搜索栏屏蔽,点评内容也在个人页被删除了。”而且通过数据查证发现,马蜂窝在核心内容“游记”板块也“已经被水军严重污染”。

500

从旅游社区起步的马蜂窝诞生于2006年,在2011年10月及2013年4月,分别获得A、B两轮融资。2015年1月获得高瓴资本等投资的8500万美元C轮融资,同年发布自由行战略后探索出了一条从内容到数据再到交易的商业模式,目前已在2017年完成1.33亿美元的D轮融资。

彼时,马蜂窝CEO陈罡在D轮融资的内部信里表示,每月有1亿活跃用户,其中85%来自移动应用程序,“三年后,蚂蜂窝将成为中国最大的旅游流量平台”。马蜂窝曾公开表示该网站的用户每月发布超过13.5万篇旅游文章,当时预计2017年个人旅游产品的销售额会超过90亿元人民币。今年公司估值更是高达175亿。

500

但这一次数据造假消息一出,引起行业震荡,甚至有消息称,如果上述质疑最终被坐实,马蜂窝估值或将从175亿元降至20多亿元。

来自程序员的愤怒

说起捅马蜂窝的缘由,该自媒体道:“乎睿数据的团队几个同学回国没多久,参加创业大赛,没想到吃外卖拉了肚子,一怒之下去平台写了一段差评表达自己的愤怒,结果,没有得到有效回复,反而被污蔑诋毁。”

500

而碰巧,这几位同学在美国藤校学的都是数据挖掘、语义分析,这几位归国的程序员一怒之下决定拿马蜂窝训练一个模型,用于筛选餐饮点评中的水军。

结果越爬越奇怪。发现了很多词不达意的评论。

500

经过四个月的详细挖掘,发现马蜂窝的点评存在严重抄袭行为。于是,这家新创业的乎睿数据,拿着75页的完整报告,将马蜂窝给捅了。

那篇来自乎睿数据的研究报告的公号文章,主要质疑的是马蜂窝的核心用户游记以及餐饮、酒店等的点评真实性问题。聚焦马蜂窝引以为傲的数据,也是估值当中投资机构最看重的核心数据。

文章中称,在餐饮和酒店点评领域,在马蜂窝平台上共发现了7454个抄袭账号平均每个人从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221万条酒店点评,占马蜂窝官网声称总点评数的85%。

乎睿数据团队剔除“抄袭账号”后,在余下的所有账号中选择了15000个最活跃的账号,发现用户在答题、点评等行为时间上高度一致,且与其他同类型评论网站发布时间差异较大,大多是工作时间(周一至周五10时至12时、14时至17时)更为活跃。

500

乎睿数据团队还发现,一批在游记攻略中植入广告的商家通过抄袭、拼接等“做号”、“洗稿”手段批量炮制出含有广告内容的游记、问答、回复,再由大量的小号、马甲进行人工置顶,达到以低成本对平台上亿用户打广告的目的。

500

马蜂窝炸了

知乎睿数据团队“捅了”马蜂窝,一时间舆论如潮。业内人士指出,如该事件属实,消费者对于平台的信任度将大打折扣,造成用户流失,品牌形象、未来经营都将受到一定影响。

这一下,马蜂窝炸了。

22日上午7点45分,其微博发布声明称,马蜂窝的UGC内容数据中,游记和攻略占比78.91%,嗡嗡(旅行故事)占比7.92%,问答占比10.26%。这些数据背后是用户真实的情感与回忆,也是马蜂窝内容的真正价值。

针对自媒体指控马蜂窝主流用户撰写评论的时间呈现上班族规律的质疑,马蜂窝方面表示,2016年以前,马蜂窝曾激励用户发表点评,点评数据出现快速增长,但随后以游记、攻略为代表的长内容,以嗡嗡(旅行故事)、问答为代表的短内容产品,成为运营重心。马蜂窝用户记录旅游体验的行为,也与记录本地生活服务不同,人们习惯在旅行完成之后进行回顾分享。

“餐饮点评不是马蜂窝的内容核心,且部分点评来自游记、问答等内容的提取,上述自媒体将马蜂窝用户内容生产的活跃周期,与餐饮等本地生活服务类APP相对比,并解读为马蜂窝员工有组织地抄袭,存在明显的误导倾向。”

马蜂窝方面称,一直以来,马蜂窝严厉打击游记、问答中违规广告的行为,平均每周处理26000条违规广告信息,查封15000个违规账号。自媒体将不法商家的违规行为归结于马蜂窝,与事实严重不符。

对于相关指控,马蜂窝方面表示,该文中歪曲事实的言论,和已被查证的有组织攻击行为,马蜂窝将采取法律手段维护自身权益。

500

对此,自媒体方表示,截至当时只看到马蜂窝对公众号两篇文章的投诉,没有公司联系到他本人。也表示不惧投诉!并且,根据手中详实数据,他们还会进行第三轮的爆料。

此时,想起一首名曲《野蜂飞舞》十分应景。

欺诈有理?

实际上,就此事,业内也有不同的观点。

“马蜂窝承认部分点评来自内容提取,让UGC行业或多或少地暴露出原创内容端的不足、不同端口资源共用等问题。”业内人士分析认为,马蜂窝被疑抄袭的内容存在一定的被“反爬”迹象,比如点评中出现翻译提供方的字样等恰恰说明这是行业比较常见的操作。

业内专家认为,有些平台从其他平台抓数据的目的是为了制造流量很大的假象,既给用户看、商家看,更是给投资人看。

由于不涉及到数据库门槛,在技术上没有难度,任何一个爬虫工程师就可以做到,也可以批量处理,通常是“机器抓取+人工编辑”。

500

互联网公司利用爬虫技术,从其他平台抓取数据的行为应该说较为常见。

爬虫抓取、抄袭和造假在互联网行业并不少见,甚至已经成为很多平台屡试不爽的一大“捷径”,但对于像马蜂窝这样的企业而言,或许入驻马蜂窝平台的商家为吸引人气和流量所为的可能性更大。

究其原因,业内人士认为,正是因为用户原创内容愈发趋于商业化,在此情况下想要获取带有流量的原创内容的成本变得越来越高。“在用户从确定旅游目的地到购买旅游产品的场景中,企业仅仅依赖UGC基础上的广告营收是远远不够的,变现、盈利成为生存难题,而反过来这些客源也势必会成为企业间争夺的核心资源。

500

2014年,携程网和去哪儿尚未合并,马蜂窝CEO陈罡在微博公开炮轰去哪儿通过虚假评论造假,认为去哪儿的刷评行为已经动摇到了行业诚信的根基,但去哪儿未对此进行公开回应;

今年7月,小红书微博发声指责大众点评疑冒用小红书用户名称账号,搬运用户在小红书发布的原创笔记内容,同时表示被搬运的用户已授权其处理维权事宜,大众点评回应称出现这种情况系由于其对新业务的管理疏漏所致,已完成内容排查与清理下线工作,并表示将通过技术手段确保类似问题不再出现。

……

找餐馆吃饭,出门旅游,先上网看一眼点评。网站上的口碑好不好,对消费者线下生活的影响越来越大。用“机器+人工编辑”批量制造假的口碑类评论,甚至雇用职业写手,导致虚假“用户体验”泛滥网络,是对普通消费者的误导,直接损害消费者的利益,更是对网络生态的伤害、对社会信任的破坏。

对企业而言,把生意建立在法律条款的不严谨与行业产业的陋习之上,一味使用虚假手段来维护数据“美观”,即便赢得一时的“好评”如潮,最终仍免不了失去用户。这就叫“搬起石头砸自己的脚”,害人害己。

还有最重要的一条:别惹程序员!

500

站务

全部专栏