关于大数据的一切丨大数据的未来VS大数据预测未来
首发于微信:超级预测
导语:大数据通常有两层含义。首先,它反映了当下不断增长数量巨大的数据洪流。其次,它通常也意味着用于搜集、评估和存储这些海量数据的技术和对其进行分析的方法。以互联网平台积累为代表的大数据因其及时、准确、相对低成本、颗粒度高和样本量大等特点对预测行为有着独特的优势。这也是云猜今天在此与大家一起聚焦大数据的原因所在。数据本身不产生价值,如何分析和利用大数据,令其“增值”才是关键。
“很多人还没搞清楚什么是PC互联网时,移动互联网来了,还没搞清楚移动互联网的时候,大数据时代又来了。”——马云卸任演讲
一个预测:到2025年,大数据容量预计将达到惊人的163ZB,即163万亿GB。对一个ZB的大小感到好奇吗?它可以储存大约20亿年的音乐。
本期导览(建议阅读时间:12分钟)
什么是大数据?
大数据的未来
什么是预测分析:将数据转化为预测
什么是大数据(Big Data)?
“大数据”的定义:
知名研究机构高德纳(Gartner)给出的定义是:“大数据”是需要新的处理模式才能具备的更强决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
管理咨询公司麦肯锡(McKinsey)给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具备海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等特征。
“大数据”通用的定义是:“大数据”是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”
“大数据”的特征:5个V
数据体量巨大(Volume);数据类型繁多(Variety);价值密度低(Value);处理速度快(Velocity);不一致性与不确定性(Veracity)。
“大数据”的类型:
社交数据(Social data);机器和传感器数据(Machine-generated/Sensor data);传统企业数据(Traditional enterprise data)。
仅仅在过去的几年里,人们就创造了今天90%的数据。当下的世界可以说是由大数据驱动的,这些数据主要来自互联网,包括社交媒体、网络搜索、短信和媒体文件。物联网设备和传感器也产生了大量数据,是全球大数据市场增长的关键驱动力之一。但将来会是一样的吗?在将大数据用于预测之前,我们不妨先来预测一下大数据的未来。
IDC最新发布的《全球半年度大数据支出指南,2018H2》预测在2019年度,大数据与商业分析解决方案全球市场的整体收益将达到1896.6亿美元,相比2018年增长12.1%。IDC认为,在2019-2023年预测期内,全球大数据市场相关收益将于2023年达到3126.7亿美元。那么,这种增长将在未来以何种形式呈现给我们呢?
数据量将继续增加
大多数大数据专家都认为,生成的数据量将继续呈指数级增长。IDC预测,到2020年,它将达到44ZB。数据量将每两年翻一番。如此快速的增长速度一方面来自越来越多的互联网用户对在线的商业交流、购物和社交的依赖;另一方面,世界上有数十亿的联网设备和嵌入式系统每天都在创建、收集和共享大量数据。
预测2025年,企业因其具备存储和分析大量的数据的能力,将创造和管理60%的信息。与此同时,个人消费者在数据增长中也扮演着重要的角色。IDC预测,到2020年,每个人每分钟将产生1.7MB的数据。
机器学习的快速发展将改变行业格局
机器学习是另一种有望在不久的将来蓬勃发展的技术,它将在大数据中发挥着巨大的作用。从2017年到2020年,机器学习全球市场的复合年增长率为44%,并有望达到88亿美元,这是由不同类型数据的可用性和该领域的技术进步推动的。英特尔副总裁兼总经理魏磊说道:“机器学习的日趋复杂。而且,除了自动驾驶汽车,欺诈设备检测或零售趋势分析之外,我们还没有看到它的全部潜力。”
“让我着迷的是将大数据与机器学习,尤其是自然语言处理相结合,计算机自行进行分析以发现新的疾病模式,然后在数据中找到它们。”——伯纳德·马尔(Bernard Marr),著有《大数据:用智能大数据分析和度量来做出更好的决策并提高性能》(Big Data: Using smart big data analytics and metrics to make better decisions and improve performance)
数据科学家和首席数据官将会大受欢迎
数据科学家和首席数据官(CDO, Chief Data Officer)的职位相对较新,但市场对这些专家的需求已经很高。随着数据量的持续增长,数据专业人员的需求和可用性之间的差距将大幅增加。领英(LinkedIn)职场报告发现,2018年,美国缺少15万拥有数据科学技能的人才,是2015年的6倍。
数据科学家是那些通过不同的分析和报告工具来收集和分析数据并将其转化为可操作的见解的专业人士,数据科学家与机器学习工程师和大数据工程师一样,都是当今增长最快的职业。首席数据官则是公司中负责数据可用性、完整性和安全性的管理人员,随着这一角色的重要性与日俱增,预测到2019年,90%的大型跨国公司将逐步填补这一职位。
“快速数据”和“可操作数据”将被提上日程
一些专家认为,大数据已经过时,“快速数据”(fast data)将很快取代它。与大数据(通常依靠Hadoop和NoSQL数据库以批处理模式分析信息)不同,快速数据允许实时流处理信息。由于流处理,数据可以在一毫秒内迅速分析和预测任何事件。这无疑更有价值,更加便于在数据到达时立即做出业务决策并采取行动。
“可操作数据”(actionable data)是大数据和商业价值之间缺失的一环。正如前面所提到的,没有分析,数量庞大且结构繁复的大数据本身毫无价值。专家说,99.5%的数据从未被分析过,因此未能提供有价值的见解。然而,通过分析平台分析特定数据,机构可以使信息准确和标准化,从而使得这些见解有助于机构做出更明智的商业决策,并改善自身的运营。
隐私仍将是这一领域的热门话题
专家称,数据安全性和隐私一直是紧迫的问题,而且这个问题将会变得越来越严重。数据保护的水平与数据增长率并不同步,这给保护数据免受入侵和网络攻击提出了新的挑战。雷神(Raytheon)2018年的研究发现,82%的机构认为不安全的物联网设备将在未来三年内导致大规模的数据泄露,更有80%的机构认为这对业务的影响可能是灾难性的。
大数据的未来既令人恐惧,又令人着迷,它有望改变各种行业的经营方式,但海量的信息也会带来一系列未知的挑战。不可否认的是,随着计算机的处理能力的日益强大,数据量越大,能在其中挖掘到的价值就越多。实验的不断反复、大数据的日渐积累让人类发现规律之所在,预测未来不再是科幻电影里的读心术。
电影《预见未来》(Next)
什么是预测分析:将数据转化为预测
2010年《科学》(Science)杂志上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测ta未来行踪的可能性,即93%的人类行为可预测。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。而预测便是大数据最大的用途之一。
这就来到了与大数据息息相关,预测分析的领域。预测分析是一种假设性的数据分析,旨在基于历史数据和分析技术,如机器学习和统计建模,对未来的结果进行预测。在先进的预测分析工具和模型的帮助下,任何机构现在都可以使用过去和当前的数据来预测未来几毫秒、几天或几年的趋势和行为。
根据锡安(Zion)2017年发布的一份报告,预测分析已经获得了各大机构的支持。预计到2022年,全球市场规模将达到约109.5亿美元,在2016年至2022年期间,其复合年增长率约为21%。作为一门学科,预测分析已存在了几十年,随着从人员和传感器采集的数据量以及经济高效的处理能力的增长,预测分析的重要性也在不断增长。
预测分析世界会议(Predictive Analytics World conference)的创始人,畅销书《大数据预测:告诉你谁会点击、购买、死去或撒谎》(Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die) 一书的作者,埃里克·西格尔(Eric Siegel)说,我们能对数据做的最有价值的事情就是“从中学习如何预测”。
在整本书中,西格尔提供了机构如何使用数据和预测分析来推断未知事物的真实例子,它们的准确性也往往十分惊人。例如,流媒体巨头奈飞(Netflix)利用大数据进行深度分析和算法预测,根据用户的观影偏好来做个性化推荐。而为了更专注于“流科学”, 奈飞更是建立了一个新的团队,通过研究数据算法来改善流媒体的体验质量(QoE),进而为每个会员创造个性化的流体验,根据观看记录和用户反馈在目录中提高内容的技术质量。
另外一个例子发生在20世纪90年代中期,一位名叫丹·斯坦伯格(Dan steinberg)的商业科学家帮助大通银行(The Chase Bank)预测数百万份按揭的风险。大通银行采纳了斯坦伯格由数据驱动的预测分析技术,借助斯坦伯格研发的系统来评估、处理大量的银行按揭。这一技术除了应用于定向给用户发送建议贷款的邮件之外,更是精确预测了按揭申请人的未来还款行为,由此极大降低了放贷风险并增加了盈利。不难看出,这些机构均使用了预测分析这一技术来探索未来,并在此过程中定义合理的业务决策和流程。
最后云猜还想提一下剑桥分析(Cambridge Analytica)这家数据分析公司。英国脱欧派和特朗普之所以能在公投和大选中以微弱优势取胜,剑桥分析功不可没。即使我们尚不清楚某类确切的信息到底对英国脱欧公投和美国总统大选具体产生了什么作用,但至少我们了解这家公司做了些什么:它研究了遭到泄露的Facebook数据中用户的点赞行为,进而预测分析用户的政治倾向,再分别向目标读者定向发送相关政治信息。该公司前研究主任克里斯托弗·威利(Christopher Wylie)曾解释:“比较严谨的人希望事事都有结构可依循,所以对他们而言,移民问题的解决方案应当突出秩序,而边境墙便展现了这样的秩序。你发送的信息可能在一部分人看来毫无道理,但在另一部分人眼中则显得明智无比。”威利甚至用“将整个国家玩弄于股掌之间”来描述剑桥分析在一些选举或投票中扮演的角色。
只要分析70个你在Facebook点过赞的内容,剑桥分析公司对你的了解程度将超过你的朋友;分析150个点赞,它将超过你的父母;分析300个点赞,它将比你的妻子或者丈夫更了解你。5月,利维坦式的剑桥分析公司在媒体的负面报道中宣告破产。但不论是在公共领域,还是在私人领域,仍有为数不少的机构在从事类似的数据分析。
剑桥分析公司的前任首席执行官亚历山大·尼克斯(Alexander Nix)曾说:“只要有人愿意相信,真相不一定要是真的。”也许,这又把我们的问题从技术带向了伦理的范畴。“大数据”究竟是在揭露真相,还是在助长偏见呢?可以肯定的是,“大数据”影响的绝不仅仅是技术。任何数字技术都不仅仅改变了社会,改变了行业,也影响了人与人、人与物之间的连接。也许我们对“大数据”的感受之所以真切,是因为在某个意义上来看,人类本身也是数据。我们已经来到了电影《银翼杀手》(Blade Runner) 故事设定的年份和月份,能够在此时思考一下这样的问题,也许不早,也不至于太晚。