人工智能的数据之“困”,谁能带来更优解?
算力诚可贵,数据价更高。
当我们沉浸在算力竞赛的角力之际,或许应该牢记AI大咖Andrew Ng的警句:“数据不是石油,它是土壤——粗暴开采只会留下荒漠,精心培育才能长出森林。”
的确,随着Deepseek R1等大模型水平的突飞猛进,人工智能走向普惠化已不再是水中花、镜中月,而是触手可及的美好。接下来,大模型即将开启真正进入到千行百业的序幕,数据的价值有望得以全面释放的同时,与数据相关的一系列新挑战也接踵而至。
根本原因在于,当下的数据架构已然不适应人工智能快速发展带来的各种需求,而现代化的数据架构,就像是那把打开未来智能之门的金钥匙,决定着这场人工智能变革的走势。
正如Hammerspace全球市场高级副总裁 Molly Presley所言:“人工智能时代,解锁数据价值,才有解锁更多商业价值的可能。人工智能的快速发展,会带来截然不同的工作负载需求,而这一切需要一个面向AI时代的新数据存储架构,并且最好能在不推翻现有环境的基础上融入,真正解决数据孤岛、数据管理、存储利用率等新挑战。”
AI时代,数据架构迎来巨变
2025年伊始,百模大战的喧嚣犹然在耳,关于数据的讨论又沸沸扬扬。前有VAST DATA等一众公司关于针对人工智能对象存储与文件存储孰优孰劣的激烈讨论,后有Deepseek对于数据重要性的关键启示。所有这一切都表明:随着大模型持续进步,人工智能应用的下半场重点看数据。
数据价值要想全面释放,先进的数据架构务必先行。数据无疑是企业在未来市场竞争中构建差异化能力的关键所在,而数据架构又是其中最为重要的拼图。事实上,在人工智能技术快速发展的今天,很多企业依然主要沿用横向扩展NAS或者HPC文件系统及数据架构来应对AI工作负载的需求,随着企业在各类业务场景中部署与应用大模型,传统数据架构均不可避免遇到瓶颈,面临着以下数据挑战:
其一、由于不同数据协议、生命周期、地域等多个维度因素,新的数据孤岛开始大量诞生,尤其是非机构化数据的孤岛,几乎上一套HPC/AI集群,即意味着一个数据孤岛的诞生,加上人工智能涉及数据环节众多,往往需要大量的数据迁移、复制,无形中增加了数据管理的难度,数据保护更是缺位严重。
例如,AI/DL工作负载在数据管道层面涉及到数据采集、数据清洗、训练、推理、精调和应用等多个流程,并且需要访问完整的数据集,而非结构化数据往往又散布在多个存储类型和位置,导致“复制泛滥”现象频发。
其二、传统数据架构的缺陷在人工智能时代在持续放大。面对人工智能的工作负载,横向扩展NAS虽然具备丰富的企业级功能特性,但是在性能上瓶颈明显且成扩展成本昂贵;而HPC文件系统虽然具备出色的性能表现,但在数据迁移、数据保护等企业级功能方面却不足。
“以存储利用率为例,随着NVMe SSD容量越来越大,本地部署的GPU设备必然会面临着存储利用效率的问题。”Molly Presley直言道。
其三、大部分企业的数据架构缺乏云端敏捷和自动化,本地数据架构与云端的对接困难,很难灵活高效地使用云端的算力资源,数据流通与协作更是奢望,加上涉及数据管理、数据保护等工具,使得数据管理与数据治理工作复杂,亟待走向自动化与高效化。
“行业当前沿用横向扩展NAS和HPC文件系统的做法,后面面临的挑战会越来越大。人工智能时代,先进的数据架构必须做减法。”Molly Presley表示,“Hammerspace的解决方案是Hyperscale NAS(超大规模NAS)架构,兼顾了横向扩展NAS和HPC文件系统各自的优势,并且之后成功在Meta等重磅级客户环境中得到了验证与应用。”
什么才是面向人工智能时代的数据架构
“人工智能时代,新数据架构必须采用数据为中心的架构,让数据成为全局资源。”Molly Presley如是说。
那么,如何才能称之为“以数据为中心的数据架构”?
Hammerspace认为,数据分散化已成为常态,未来的趋势是数据移动,而非计算移动,数据应能自由流动并随需部署至最适合的计算资源上。
因此,Hammerspace创新思路始于:以基于开放标准协议的超大规模NAS架构(Hyperscale NAS)为基础,帮助企业构建起全局数据环境;同时,打破数据孤岛,提供统一的命名空间和数据访问入口,让企业用户们无需关注数据底层的各类操作,在任何位置即可完成数据的访问和应用;另外,采用数据编排(Data Orchestration)技术来动态调整数据访问路径,优化存储和访问性能,确保数据能够根据预定义的规则和实时工作负载需求进行高效访问。
“数据与计算的紧耦合很容易形成数据重力,传统的‘计算移动到数据’理念不再适用。”Molly Presley介绍道,“数据需要根据计算资源来进行灵活调度,从而打破数据与计算等基础设施的紧耦合。”
除了超大规模NAS架构,数据编排技术也是Hammerspace产品中的核心技术。与业界广为认知的数据编织(Data Fabric)不同,数据编排技术目的是实现对数据的有效管理和调度流动,将数据移动到最合理的位置,从而实现“数据定义”。
Molly Presley表示:“数据编织是在统一环境中通过全局命名空间将数据聚合起来,而数据编排并不是一个关于数据的视图,而是一项让数据自由移动的技术,让数据更加贴近需求。”
同时,Tier 0技术也是Hammerspace产品矩阵中的一项关键技术。众所周知,GPU算力在当下依然是极为稀缺的资源,如何提升GPU利用率,充分发挥GPU算力性能就成为当前所有用户都面临的挑战。对此,Hammerspace的Tier 0技术通过将GPU服务器本地NVMe存储整合为共享资源池,不仅大幅提升本地GPU服务器存储的利用率,同时优化了本地数据的访问性能,更将GPU存储资源纳入全局数据环境,帮助企业真正构建起一个全局数据平台。
事实上,Hammerspace的产品理念已经在人工智能巨头Meta的业务中得到成功验证与应用。在Meta一个拥有3.2万个GPU的AI集群中,Meta并没有改变现有基础设施,在融入Hammerspace产品之后,进行了包括Llama2/Llama3等大模型的训练工作,不仅很好地满足了AI集群对于性能的苛刻要求,还满足AI开发者对于GPU资源的高效调度与便捷访问。
随着Meta、Blue Origin、JellyFish、Los Alamos实验室等重量级用户采用了Hammerspace的产品,Hammerspace最近几年间名声鹊起,其“以数据为中心”的架构理念、强大且灵活的产品正在赢得越来越多用户的青睐和认同。
针对中国市场,Hammerspace打算这么干
作为一家初创企业,Hammerspace同样在加速全球的业务布局。
日前,Hammerspace已正式成立亚太区,计划重点开拓包括中国、印度、韩国、日本、东盟等国家及地区的市场。其中,中国作为当前全球人工智能创新最为活跃的市场,Hammerspace如何在中国市场布局引发高度关注。
在产品层面,Hammerspace在中国市场将采用预配置设备的销售形式,这样的方式更便于部署与使用,有利于用户们能够快速上手Hammerspace的产品。
”我们非常高兴地宣布,我们已与Hammerspace达成了一项针对亚洲地区市场的战略合作协议。通过将Hammerspace的突破性技术与Hammerspace Asia公司在企业交付和市场知识方面的卓越能力相结合,我们将为整个区域的组织赋能,帮助他们解锁新的效率,扩展AI项目,并以前所未有的方式推动创新。这一合作伙伴关系的建立,标志着我们在投资和致力于为客户提供创新业务解决方案方面,迈出了重要的一步。” Hammerspace Asia中国区业务负责人李睿先生表示。
Molly Presley介绍,Hammerspace的产品除了AI场景外,也非常适合关注数据合规、数据治理、数据隐私保护等场景的行业用户。
在生态层面,Hammerspace非常重视中国市场的本地技术生态,除了与硬件合作伙伴的合作之外,还会重视行业上层应用侧的各类合作伙伴,通过与合作伙伴紧密合作来更好地帮助企业全面释放数据价值。
“Hammerspace软件产品是完全硬件中立的,并且具有充分的灵活性,我们之后会在服务、支持等方面给予中国市场最大的支持。”Molly Presley如是说。
综合观察,随着人工智能技术走向普惠化,数据架构层面的挑战刻不容缓。Gartner最新报告认为,企业在AI就绪的准备中,对于数据相关方面的投资未来可能获得20倍以上的效率提升。显然,在传统数据架构瓶颈日趋凸显的情况下,Hammerspace带来的“以数据为中心”的架构理念正迅速获得业界的认同,其产品也正成为人工智能时代解决数据挑战的更优解。