AI数据也要紧跟MLOps,那个把标注精度提高到99.99%的公司又出手了

  梦晨 发自 凹非寺

  量子位 | 公众号 QbitAI

  当IT行业改变整个世界的时候,DevOps理念从大量产业实践中诞生。

  如今AI也进入产业化新时代,继承者MLOps或者叫AI工程化也越发火热。

  Gartner咨询公司将AI工程化列为2022年十二大战略性技术趋势,IDC则预测到2024年60%的企业将MLOps用于机器学习工作流。

500

  图源:ml-ops.org

  这一波浪潮之中,算法的工程化一如既往的跑在前面,模型的自动部署、持续训练甚至AutoML都有较大进展。

  与之相对的是,数据的工程化稍显落后。

  对此,一直呼吁建设“以数据为中心AI”的吴恩达,今年初在接受IEEE Spectrum采访时也喊出新的口号:

  AI要从大数据转向高质量的小数据。

  吴恩达认为,对于数据中存在的噪声,通常做法是只要量足够大就可以让算法对其做平均处理。

  但这样做不仅限制了算法的能力,有些场景如工业质检、罕见病等更是根本凑不出一个大型数据集,精心标注的高质量数据就成了关键。

500

  实际上,除了碎片场景之外,如何高效构建高质量数据集也是全行业共同面对的问题。

  AI工程化的大背景下,新一代数据标注与管理方法也从实践中逐渐诞生。

  最新解决方案来了

  云测数据,一家以“将数据标注的最高准确率提升到99.99%”而闻名的AI数据服务公司,率先推出「面向AI工程化的新一代数据解决方案」

  方案不仅包括标注数据、管理数据所需的平台工具,还涉及管理体系以及数据安全,总共三个方面。

  平台工具方面,除了基础的标注工具、API集成能力,还有数据流转产线工作台和数据产能管理体系。

  管理体系方面,分为人员管理和项目管理两部分。

  数据安全方面,则从硬件安全、网络安全、物理安全和人员安全管理4个角度提供保障。

500

  为什么是这三个方面?云测数据总经理贾宇航从AI工程化时代的不同特征进行了分析。

  算法进入持续优化期,此时数据也要从瀑布式流转过渡到持续流转。

  在算法预研期只需要基础数据集就能满足需求,针对实际业务场景的算法研发期则需要数据采集、清洗、标注等一系列定制化服务。

  算法进入持续优化期,情况再次发生变化。

  生产环境的回流数据需要持续标注用于迭代,使算法越用越智能;标注数据需要流转至仿真平台用于算法评测,提高重复利用价值;自动化流程中又需要辅以人工检查纠正,降本增效。

  云测数据新一代解决方案中基于这些需求打造了数据处理工作台,支持持续任务处理、人机协作,同时以标准API接口与各类系统对接,将AI数据训练过程中的综合效率提升200%。

500

  算法落地到实际场景中,而高质量的场景数据需要标注人员有领域专业知识。

  举例来说,前一阵谷歌的文本情感数据集GoEmotion就被一位机器学习工程师Edwin Chen指出有30%标注错误,他分析问题出在谷歌请的印度员工不了解美国本土互联网文化。

  像这样的问题,在知识门槛颇高的金融、自动驾驶等领域场景中也有可能发生。

  对此,云测数据推出数据服务体系。其中人员管理体系涵盖招聘、业务培训,以及自动驾驶、智慧金融、AIOT等重点行业的领域知识培训。项目管理体系则以标准化的流程把控数据质量,将数据标注最高精度提升至99.99%。

500

  最后,算法深入到实际业务中,数据安全需要得到保障。

  云测数据推出安全交付体系,全方位保障数据安全和风险治理,同时满足ISO27001和ISO27701标准。

500

  新一代数据解决方案,如何炼成?

  云测数据是AI数据服务领域的领先者,凭借在产品、服务、技术研发等方面的综合实践,已连续三年被评为行业第一,具备丰富的研发及产业化服务经验。

500

  技术能力方面,去年云测数据先后发布云测数据标注平台、AI数据集管理系统等技术成果,率先形成AI训练数据的“采、标、管、存”一站式服务,实现从“数据原料”到最后的“数据成品”全链条打通,输出完整的数据价值,其中更是将数据标注的最高准确率提升到了99.99%。

  又经过一年的打磨完善后,云测数据标注平台&数据集管理系统在工具丰富性与易用性得到升级,并且与各种类型企业系统对接的能力得到增强,整合到最新解决方案里。

500

  行业经验方面,云测数据提供多维度、场景化的数据服务与策略,多年来服务于汽车、安防、手机、家居、金融、教育、新零售、地产等行业,满足AI应用在数据质量、数据丰富度、数据时效性等方面的需求。

  另外正如MLOps继承自软件行业的DevOps,Testin云测结合自身优势,将软件测试业务上10多年ToB服务经验也迁移沉淀至云测数据的AI数据服务中,提质增效的作用十分显著。

  到如今,随着智能化转型的逐渐深入,云测数据的服务对象已扩展至各行各业,正是在大量实践与不断探索中,AI数据服务所需的方方面面被云测数据掌握、整合,最终沉淀成新一代数据解决方案集中发布亮相。

  而随着新一代数据解决方案的发布及云测数据背后更多动作布局,给AI数据服务行业本身也带来一些改变。

  云测数据,带来什么改变?

  先看云测数据给服务对象带来的改变。

  以自动驾驶行业为例,首先是一站式解决自动驾驶领域多场景的数据采集的需求,包括智能驾驶主流应用场景。通过云测数据的DMS与ADAS场景搭建采集能力,来减少数据采集周期、提升数据质量。

  接下来,通过数据标注平台来解决包括2D标注、3D点云标注、2D/3D融合标注、语义分割、目标跟踪等等数据标注需求,同时标注&管理平台支持与企业完成训练、仿真等系统集成。

  数据不必再按批次来回传输,实时处理的同时节省大量时间和成本。数据不出企业内网就能完成流转,同时也支持专业标注员驻场作业,在保证数据安全的基础上,有效降低信息传递损耗,同时兼顾标注作业效率和质量的提升。

500

  据贾宇航透露,以某自动驾驶相关企业为例,原来要花一周时间的AI数据工作,对接新一代数据解决方案后效能至少提升2倍以上

  凭借这样的能力,云测数据与行业内包括自主、合资车企,大型Tier1、Tier2,以及无人出租车等众多自动驾驶企业建立了持久良好的合作关系。

500

  效率的提升同样体现在零售货检行业,通过云测数据标注平台将货柜检测数据持续回流,基于算法预标注结果进行可视化审查并修改,与纯人工标注效率提升3倍。

  而在金融领域,通过云测数据标注平台及集成算法API可进行金融票据标注,通过离岸的安全房进行标注,在保证质量和效率的基础上确保数据隐私安全。

  另外还有建筑行业也可以通过云测数据标注平台对生成建筑CAD图纸进行审查校验。

  云测数据深度合作伙伴覆盖了汽车、手机、工业、家居、金融、安防、教育、新零售、地产、生态系统等行业。这其中包含众多世界500强企业、高校科研机构、政府机构,头部AI企业和大型互联网企业覆盖率超90% ,涵盖了计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域。

  与此同时,云测数据对AI数据服务行业自身的探索也在持续进行。

  比如作为人工智能数据服务领域代表厂商,参与信通院牵头的全球首个MLOps模型开发管理标准,以数据标准化助推AI落地。

  最新能透露的一条进展是, 云测数据正与云服务厂商合作,探讨延展数据服务的边界。

  参考资料:

  [1]https://spectrum.ieee.org/andrew-ng-data-centric-ai

  [2]https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled

全部专栏