首页 > 微象观点
首页 > 微象观点

算力可以买,但数据买不到——大模型时代的真正壁垒

湖南微象科技有限公司 发布时间:2026-06-09 09:09

从豆包的数据飞轮到垂直智能体,为什么"谁有数据谁就赢"

如果有人告诉你,一家头部AI公司70%的研发预算花在数据上,而不是算力上,你信吗?

这不是假设。走访一圈大模型企业你会发现一个反直觉的事实:GPU可以排队买、云服务可以按需租、算法模型可以开源下载——但高质量的行业数据,你花钱也未必拿得到。

大模型时代的竞争逻辑正在被重新定义:算力是子弹,模型是枪,而数据,才是你要打的仗本身。

豆包凭什么?数据飞轮的秘密

截至2025年8月,字节跳动的豆包App月活用户突破1.57亿,超越DeepSeek,成为国内移动端用户量最大的AI聊天助手。这不是偶然。

字节做豆包有一条清晰的"数据飞轮"逻辑:用户规模越大,产生的交互数据就越多;交互数据越多,模型训练就越充分、输出就越精准;模型越精准,用户体验就越好,用户就越多——一个正循环一旦启动,后来者很难追上。

1.57亿

豆包月活用户

超越DeepSeek,国内AI助手第一

豆包的数据优势本质上是一个"人"的优势——不是技术人员的"人",而是用户的"人"。越多用户用、越多场景覆盖、越多真实问题被回答,数据的厚度就越难被复制。这就是为什么说"数据买不到"——你可以买一张GPU显卡,但你买不到一个亿用户日复一日积累的交互轨迹。

大模型企业真正的军备竞赛不是谁囤了最多的GPU,而是谁的飞轮先转起来。

3000亿的数据交易市场,还远远不够

中国数据交易市场正在经历爆炸式增长。从2015年的"亿元级"起步,到2024年突破千亿,预计2025年将突破3000亿元。交易标的也从"原始数据包"升级为"数据元件""数据能力",甚至拓展至"数据场景解决方案"。

但一个值得警惕的信号是:目前数据交易所成交的主要还是脱敏后的政务数据,企业核心数据交易几乎为零。

3000亿

2025年中国数据交易市场规模(预计)

从2015年"亿元级"跃升至"千亿级"

医疗AI公司宁愿花高价购买三甲医院的标注数据,也不使用公开数据集;制造业企业愿意付费获取产线数据而不是自己从头收集;金融机构靠的是十年以上的风控数据积累,新玩家即使有最先进的模型,也打不进这个市场。数据,正成为各个行业最深的护城河。

算力可以扩,模型可以调,但数据的厚度只能靠时间去熬。

国家首次为"智能体"出台系统性政策

2026年初,国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》。这是国家层面首次针对智能体出台系统性政策框架,覆盖技术底座、标准协议、场景应用、安全治理和产业生态五大维度。

政策锚点

《智能体规范应用与创新发展实施意见》——国家网信办、国家发展改革委、工业和信息化部联合印发,2026年初。标志着企业级智能体正式进入以治理、协同和规模化为核心的新竞争周期。

这份文件的出台时机耐人寻味——意味着从国家层面看,AI的竞争正在从"谁的模型大"转向"谁的智能体能真正落地"。

垂直智能体:怎么把数据变成战斗力

通用大模型已经"卷"到头了。下一步,必然是垂直智能体——面向特定行业、特定场景、具备领域专业知识的AI Agent。把大模型从"什么都会一点"变成"在这个领域,它比人类专家还靠谱"。

根据行业研究,超过57%的企业已在生产环境中部署多步工作流AI Agent,大型企业的应用比例高达67%。这意味着智能体已经从概念验证进入了规模化商用阶段。

57%

企业已部署

多步工作流AI Agent进入生产环境

67%

大型企业

已将智能体作为数字化转型核心

3000

亿级语料

高质量领域数据是智能体的底座

企业怎么打这场数据战?

第一步,把自有数据盘清楚。任何一个企业,只要运营超过两年,就一定有自己独特的数据资产——客户咨询记录、售后工单、生产日志、合同文本、审批流程。这些数据是公开语料里永远没有的,也是企业做垂直智能体最大的底气。

第二步,把行业知识结构化。数据不等于知识,知识不等于可被AI调用的能力。把散落在老员工脑子里的经验、贴在墙上的流程手册、堆在共享文件夹里的操作规范,变成结构化的知识图谱和指令集,才能真正喂给智能体。

你的企业数据,就是你的智能体天花板。

政务垂直智能体:数据厚度决定服务质量

政务领域是一个更特殊的战场。

政务数据有三个特点:第一,数量大但不开放——一个县级政府掌握的法人数据、不动产数据、社保数据、行政处罚数据加起来可以上亿条,但这些数据分散在不同的系统中,彼此打不通;第二,质量参差不齐——同样是"企业名称"这一个字段,市场监管局和税务局可能写的是两个版本;第三,政策更新快——2025年全国出台的优化营商环境政策文件有数百份,光靠人工根本看不完、记不住。

这就决定了:政务垂直智能体能不能做起来,关键在于能不能把这些散落在各个系统中的政务数据,变成可被AI理解、可被AI调用的知识资产。

这条路需要三个条件:足够深的政务行业积累(知道什么数据在哪、怎么用)、足够多的领域语料(3000亿+的训练语料不是一两年能攒出来的)、足够专的知识库(5000万条专业词库意味着每个政策术语都有准确的定义和关联)。

微象科技在这个方向上深耕了十余年,服务了全国多个政务单位,积累的政务语料和专业词库——正是做政务垂直智能体的"数据底座"。

无论企业还是政府,做垂直智能体的逻辑是一样的:你有多少数据、数据有多干净、数据能不能被AI用起来——这三件事,决定了你的智能体能走多远。

大模型时代最贵的不是GPU,是你没有的数据。