开云体育
开云体育小扎豪掷143亿却换不来AI燃料!数据之争下半场中国冲出一匹黑马
【新智元导读】真正决定AI上限的,已从「模型规模」转为「数据质量」。从Meta押注数据平台到xAI裁员转招「专业AI导师」,全球「数据大战」全面进入下半场。中国玩家里,澳鹏数据独占一档,仅2025年上半年营收达3.06亿元。高质量、可追溯、可工程化的数据生产,正成为AI产业的新壁垒。
2025年,大模型持续高速进化,科技巨头在为「燃料」——高质量数据,展开了激烈的角逐。
小扎曾豪掷143亿美金,一举挖走Scale AI创始人,并买下49%股权,只为抢占高质量数据的制高点。
这一「世纪联姻」,原本被视为Meta在AI竞赛中的杀手锏,却很快曝出「尴尬裂痕」:
负责下一代模型训练的TBD Labs,因对Scale AI数据质量大失所望,转向Surge AI、Mercor等竞争对手。
风波未平,Anthropic又因涉嫌盗用版权数据训练Claude,被迫支付15亿美元「天价和解金」。
这一惊人的数字,创下美国版权纠纷最高赔偿纪录,更宣告了AI「野蛮攫取」数据时代的终结。
与此同时,马斯克一夜之间,果断挥刀裁掉500名「通用数据标注员」,转而大力招募10倍「专业AI导师」。
重点覆盖了STEM、金融、医学、安全等领域,直指AI从海量数据堆积,向专业化精炼的深刻转型。
这些科技巨头、AI独角兽们的「数据焦虑」,并非孤例,而是AI生态下的普遍镜像——
在国外,Scale AI、Surge AI、Mercor等新锐,凭借精细化标注和专家资源,成为OpenAI谷歌等巨头的「幕后推手」。
而在中国,这场「数据革命」的先锋——澳鹏数据,正以本土创新和全球视野强势崛起。
鲜有人知,中国十大互联网巨头,十大自动驾驶大厂,450+头部企业背后的高质量数据,全部来自澳鹏的AI数据引擎。
2025年上半年业绩显示,澳鹏中国区创下3.06亿元(RMB)营收新高,堪称行业标杆。
AI最终的竞争壁垒,在于能否构建一个强大的「数据闭环」。它以「数据工程」为引擎,能源源不断地产出稀缺、高质量的数据燃料。
说白了,未来比拼的,不仅仅是算力或模型架构,还有谁能系统性地构造出精准且稀缺的数据。
这正是当前许多行业乱象背后的根源,也为我们指明了AI数据进化的下一个关键方向。
没错,但不止于此。更准确地说,澳鹏数据是融合了「Scale AI+Surge AI」双方优势的顶尖存在。
成立于2019年,总部位于上海的澳鹏数据,是Appen在中国投资,由本土管理团队创立并独立运营的领先数据公司。
它既有Scale AI在自动驾驶和多模态数据上的深度布局,又有Surge AI的高质量标注和垂类精细化服务。
比起另两家,澳鹏更深谙中国市场的脉搏,提供全球化资源与本地化交付的无缝衔接。
早在2023年,澳鹏营收就已超越国内业内友商,一骑绝尘成为中国数据服务「黑马王者」。
今年上半年,澳鹏营收已达到3.06亿元人民币,约等于2020年全年的10倍,毫无疑问是国内规模第一大的AI数据服务提供商!
当时,语音识别、图像标注需求井喷,澳鹏凭借全球资源网络和本土化团队,迅速打下了基础。
其营收从2020年3000+万起步,到21年翻了五倍,达到了约1.6亿元。
到了2022年-2023年,自动驾驶技术的快速崛起,成为澳鹏数据的第二个增长引擎。
通过与中国十大自动驾驶头部公司深度合作,澳鹏营收在此期间持续翻番,2023年达到近2.44亿元。
从ChatGPT到DeepSeek,大模型不仅重塑了全球AI竞争格局,而且给数据服务行业带来了前所未有的发展机遇。
2024年,澳鹏中国的年增长率达到70%以上,其中大模型和生成式AI相关业务增长率更是高达500%以上。
2025年上半年,乘着国内AI行业爆发的东风,澳鹏数据营收再创新高,背后主要靠五大引擎驱动:
产业重心由「模型竞赛」转向「应用落地」,高质量垂类数据需求持续释放、优先级上移。
在降本增效下,头部客户收敛供应链;具备综合能力的服务商承接高难度、高复杂度、高安全项目,集中度提升。
中国互联网企业加速出海,合规与本地化需求激增。澳鹏依托菲律宾、马来西亚、越南、欧洲等交付网络,海外业务占比近40%,提供多语种、跨文化、合规方案。
大模型迭代越来越快,成品数据集需求增长。澳鹏把数据做成模块化、可组合的高品质数据产品,大幅缩短客户开发周期并维持较高毛利。
前瞻布局高端人才与平台(如医疗专家、专业音乐人、竞赛获奖者等),联动技术平台与十大垂类能力,支撑大模型训练与评估——高质量数据正在决定模型能力上限。
面对这些前所未有的机遇,澳鹏究竟做了哪些事儿,才能在激烈的竞争中脱颖而出?
在技术浪潮之巅,澳鹏始终以前瞻视野构筑长期技术壁垒,用创新驱动行业变革。
国内首创 端到端 通用预标注大模型,结合项目级微调,实现自动化数据标注回环,效率提升25%。
首创采集-标注-质检-交付一体化流程,减少冗余存储,提升数据处理效率30%。
最终,修正结果回流,再次优化模型参数,形成「预标注—人工修正—模型优化」的闭环。
这一模式将数据标注效率提升数倍,同时极大降低了人力成本与主观误差,实现了效率与精度的双重飞跃。
这些领域对数据的要求,更加苛刻:要质、要量、要多维度,全都拉满。通用工具,自然跟不上。
MatrixGo、MediGo、RoboGo、AI Agent,以及大模型智能开发平台——各管一摊,又能协同作战。
比如,大模型这条线,提供从多模态数据清洗 → SFT指令微调数据构建 → RLHF偏好标注与评估。
多传感器融合标注、复杂动作轨迹标注、多模态思维链标注……澳鹏RoboGo平台一站式搞定,而Scale AI甚至没有相关业务。
MediGo平台内置智能标注、多模态融合与私有化部署,为医疗大模型与应用提供高精度、合规、安全的数据底座,覆盖诊疗、问诊/导诊、健康科普等八大核心场景。
如今,企业级高精度数据生产平台MatrixGo,已实现一条链打通,加速迭代,稳步优化。
就自动驾驶领域来说,需求更是多样:激光雷达(LiDAR)3D点云、高精地图要素提取、4D时序标注……
不仅如此,他们还正积极研发下一代数据生产智能体,自主进行数据采集、清洗、标注、扩增生成高质量的数据集。
值得一提的是,澳鹏工程团队始终秉持「天下武功,唯快不破」的理念,展现出强大的工程化落地实力:
此外,在成品数据集方面,澳鹏提供800多个专业数据集,包含近10万小时的音频资源、50多万幅图像和超过一亿字/词的文本数据,涵盖80多种语言和方言。
在高难度数据集上,通过庞大的领域专家网络,澳鹏严选了1000+个来自不同细分专业领域的行业专家,构建了超10万条高难度思维链数据集,覆盖数学、计算机、物理、化学、生物、人文科学等学科。
只要肯砸算力,喂给模型足够多的高质量数据,LLM能力随之增强,几乎没有天花板。
可以看到,LLM训练所需的数据规模,早已从传统的TB级跃升至PB级,甚至几乎耗尽了互联网上的公开资源。
统计显示,AI数据中心市场规模,预计到2032年将达789.1亿美元,年复合增长率24.5%。
随着AI竞赛的全面升级,「卖铲子」的三大数据服务商集体迎来「暴富」时刻,估值直线飙升——
NeurIPS 2024大会上,Ilya直言,「预训练时代即将结束,互联网数据枯竭,不会继续增长」。
显然不是。在澳鹏数据采访中,澳鹏数据田小鹏博士的一句话有力地回击了这一点:
现实中,依然存在大量数据未被有效利用。这些数据经过清洗和加工,可进一步作为训练数据,特别是多模态和领域专业数据。
通用AI归根结底,是为人类服务,必须满足不断变化的信息需求。对于普通人而言,近期信息需求远高于远期,这就要求LLM持续接受最新训练数据。
就如同算力一样,AI对数据的需求并未减弱,但行业正迎来转型升级——在规模、质量、复杂度上,发生了巨变。
传统深度学习仅需要GB到TB级的数据,而到了LLM时代,早已达到了PB级数据。
其次,数据质量的要求,也在水涨船高。早期的95%准确率已不足以满足需求,如今在专业领域,如量子力学、医疗健康,标注精度需达到99.5%以上。
从过去的2D/3D标注扩展到包含时间维度的4D标注,以及文本、图像、音频、视频协同处理,复杂度增加。
澳鹏提前研发并储备新兴数据生产平台,比如GUI轨迹采集、多模态标注工具、具身智能平台;通过即插即用的模块化产品设计,支持快速部署与灵活适配,显著提升数据服务效率。
同时,澳鹏构建了标准化成品数据集(如代码、高难度题库等),大幅缩短各细分领域模型的开发周期。
而澳鹏智能化平台,既可快速响应多模态、多场景的标注功能需求,又注重对业务规则的敏捷迭代和精细化管理能力。
此外,澳鹏建立了覆盖多领域的专家资源库和人才标签体系,实现了人才与任务需求的智能匹配。
尤其是,在医学等高壁垒垂类,澳鹏精准调度具备相应资质的专业人员,保障数据交付的质量与专业性。
在多个基准上,AI早已超越绝大多数人类——然而世界并未因此巨变,至少从经济学和GDP维度来看如此。
姚顺雨将此称为「效用困境」(utility problem),并视其为AI领域最至关重要的课题。
他认为,AI下半场的玩家将通过将智能转化为实用产品,打造价值亿万美元的企业。
根据最新数据,截至2025年6月,我国已建设超过3.5万个高质量数据集,总体量超过400PB,甚至高质量数据集的建设已上升为国家战略。
通用大模型的发展,给各垂直领域的AI应用提供了可能,即便是OpenAI也逐渐把目光投向了编程等具体领域。
医疗、法律、金融等专业领域的数据标注需要行业专家参与,标注准确率要求从95%提升至99.5%以上。
预计到2028年,医疗健康数据要素市场规模将突破250亿元,工业制造领域达302亿元。
在许多垂直场景中,缺的是高质量数据,比如自动驾驶极端事故数据,医疗数据难以从公域获取等。
举个栗子,英伟达开源的基础「世界模型」Cosmos,可以合成自动驾驶需要的部分数据。很多场景,缺乏的不是数据,而是高质量数据。
在部分场景,真实数据和合成数据可以相辅相成,甚至完全依赖合成数据,比如游戏中的图片等。
但合成数据总是带有某种假设,无法顾及到一些特殊情况等,而关键行业不容有失。
目前,绝大多数应用场景,还需要用真实数据来训练AI,要想提高性能,要通过专业人士来生产数据,从而赋能模型。
事实上,现在的数据行业对专业要求越来越高,本科早已不能满足数据行业的需求,一些企业开始招聘博士去构造训练数据!
为了应对挑战,除了开发MatrixGo等五大技术平台外,澳鹏同样组建了由行业顶尖专家领衔的垂类团队:
金融团队300多名专家覆盖金融、保险、基金等领域,70%成员具备从业资格认证;
医疗是数据门槛最高的赛道之一:多群体代表性、合规红线、周期/成本压力并存。
全程严格对齐GDPR、ISO等标准,并通过标准化SOP把项目周期缩短30%—50%。
结果是,更快、更准、更合规的医疗AI数据底座,加速产品落地与国际化部署。
过去,外界乃至AI业界往往聚焦于算法、算力突破,却对数据行业抱有诸多刻板印象和误解。
许多人会认为:数据行业没前景、「数据荒漠」马上来了、数据标注没有技术含量,只是体力活......
这个行业正以两位数年增长率迅猛前行,而澳鹏数据作为领军者,更是连续6年保持增速,一举拿下中国市场份额第一的「宝座」。
曾经的那些误解,早已站不住脚:无技术平台寸步难行,纯人工无法应对复杂需求。
如今,AI正在由感知走向认知与推理,能力从2D静态识别扩展到4D时空建模,实现多模态融合。
面向世界模型的高置信度物理世界数据,以及支持企业与个人安全对接的多模态内容平台。
依托全球资源网络、平台化研发与AI原生流程改造,在AI浪潮中澳鹏将持续突破。
展望未来3-5年,澳鹏数据战略重点清晰:深化全球资源网络、垂类深度,以及平台产品化的转型。
采访中,澳鹏全球高级副总裁、大中国区及北亚区总经理田小鹏博士认真分享了指引其未来的三大原则。
首先,数据服务要全球化,以合规的方式完成数据交付。这不仅是风险防控,更是企业出海的竞争力。
也就是说,不止要做数据标注者,更要做数据咨询师,提供超出标注的增值服务,如模型评估和流程优化。
最后,要建设好平台。依靠「技术+人力资源」双平台,澳鹏提供比友商更有竞争力的服务。
只要继续坚持原则、保持过去的增速,在澳鹏看来,下一个20亿的「小目标」绝非空谈。