首页  >   研究报告

【报告】合成数据——数据领域正在兴起的新赛道

主要观点

  • 合成数据是指通过算法模型、仿真系统或规则引擎人工生成的数据,具备“低敏感性、高可控性、强设计性”等特征。

  • 合成数据在缓解高质量数据供给不足、降低数据合规成本、提升数据要素流通效率等方面呈现出重大功能性价值,高质量真实数据与大规模合成数据混合驱动的演进范式正在形成。

  • 合成数据处于正在兴起的初级阶段,成长空间巨大。合成数据有望成为政府发展数据产业、推进数据要素公共能力建设的重要切入点。

  • 建议将合成数据作为数据要素市场建设的关键方向,通过功能性平台建设、重点场景牵引、制度与标准先行,推动合成数据新赛道发展。


当前,在AI产业爆发式增长与国家数据要素战略的双重驱动下,高质量真实数据与大规模合成数据混合驱动的新范式正在形成,合成数据产业正从技术探索迈向规模化商业落地,呈现出技术多元化、场景垂直化与商业模式融合化的特征。

合成数据的概念和优势
01

什么是合成数据
合成数据(Synthetic Data)是指通过算法模型、仿真系统或规则引擎人工生成的数据。作为通过算法、模型或规则人工生成的高保真虚拟数据,合成数据已成为破解人工智能发展“数据荒”瓶颈、保护数据隐私安全、降低数据获取成本的关键技术路径。
合成数据不同于传统意义上的“原始数据”和“加工数据”,更接近一种以模型、规则和算力为生产要素的数据生成型产品。其价值不完全依赖于数据来源本身,而更多依赖于生成机制的科学性、场景合理性和结果可信度。

02

合成数据的优势
当前国数据要素市场建设正从“确权与合规”阶段,逐步向“流通与价值释放”阶段演进。但在实践中,真实数据普遍面临敏感性高、流通难度大、场景适配成本高等问题。合成数据通过“间接表达真实规律”的方式,为数据要素市场提供了一条风险可控、效率更高的供给路径,具有突出的优势。



突破数据要素供给瓶颈与成本约束。显著降低数据要素供给对真实数据的依赖度,缓解高质量数据供需结构性矛盾。通过合成数据,能够近乎“无限”地按需生成数据,从根本上解决特定场景(如罕见疾病、极端路况、具身智能)数据稀缺的“长尾问题”。其成本优势显著,例如,生成一张带注释的图像成本可低至真实采集标注成本的1%(约0.06美元对比6美元),有效降低了AI研发门槛。

有效保障隐私安全与促进合规流通。合成数据不包含任何可识别真实个体或敏感商业秘密的信息,天然具备低敏感属性,从源头规避了隐私泄露与合规风险。有助于在个人信息保护、数据安全和行业监管约束下拓展数据应用空间,这使其成为医疗、金融等敏感数据跨域共享、价值挖掘的理想替代方案。

可实现数据的高度可控与定制化。合成数据可以精确控制数据的分布、比例、异常点,定向生成针对性强、边界清晰的训练样本,不仅可以提升AI模型在特定任务上的鲁棒性和泛化能力,更具备标准化和规模化生产潜力,有利于形成可交易、可定价的数据产品形态。


合成数据行业发展情况

在数据要素体系中,数据生产正由“自然生成+人工采集”为主,向“模型生成+仿真生成”延伸。整体而言,合成数据产业正处于快速成长期,尤其是中国的合成数据发展增速最快。大企业纷纷布局,如蚂蚁数科、联影智能,初创型明星企业开始涌现,如光轮智能(聚焦具身智能合成数据)、数创弧光(聚焦小语种、隐私敏感等行业合成数据)。全球合成数据市场规模持续扩大,但仍处于初级阶段,2025年市场规模47.6亿元,近几年复合增长率高达41.8%。中国市场增速最快,潜力巨大,但行业融资基本处于天使轮、Pre-A轮早期阶段,有机构预测未来几年中国合成数据市场将达到200亿元。因此,当前是抢抓合成数据新赛道的关键时期。

1
政府开始关注,促进和监管并行推进


合成数据开始受到政府的关注,在多个国家级文件中都能看到对合成数据的相关内容,涵盖到合成数据的促进和监管。例如,最新的国家数据局《关于加强数据科技创新的实施意见》明确将“数据合成”列为关键数据技术攻关方向,推动其从实验室走向规模化市场应用。国家网信办在《人工智能拟人化互动服务管理暂行办法(征求意见稿)》中明确“利用合成数据进行模型训练和关键能力优化时,应当评估合成数据安全性”。

同样在美国也有类似的政策趋向。如美国商务部在2025年发布的《生成人工智能和开放数据:指南和最佳实践》提出要通过改进政府数据的文档、格式和质量,降低包括使用合成数据在内的AI创新成本。

2
行业积极跟进,初步形成三个服务模式


一是提供共性云端服务。通过SaaS服务,提供灵活、自主的合成数据生成能力,为行业提供公共服务能力,有效降低用户获取和使用合成数据的门槛。典型案例有:奥地利的Mostly AI公司,是专注于合成数据生成的全球顶级平台,通过Mostly AI专有算法生成的高保真合成数据能有效保留原始数据集的基本特征,并且可以作为各种应用(包括分析、测试和机器学习)中真实数据的替代品。以色列的Datagen公司,核心是通过智能模型模拟器加速人工智能模型的构建,并以可视化的方式快速为ML机器提供AI训练所需的图像数据。


二是提供整体解决方案。这种合成数据发展模式是与具体业务场景深度绑定,直接交付解决特定业务问题的数据产品及洞察,而非单纯的数据本身。如在自动驾驶领域(代表企业是Waymo、Tesla),合成数据成为核心训练数据来源之一,大幅降低真实数据采集和合规成本;在医疗领域(代表企业是德国的Ryver.ai),生成合成X光、CT、MRI等影像数据,通过合成数据扩大可用数据规模,加快算法验证与审批进程。在消费领域(代表企业是美国的Qualtrics),模拟生成消费者问卷回答数据,从而更高效的进行商业决策。具身智能领域(代表企业上海的启数光轮、国地人形机器人创新中心),生成机器人训练所需的大量数据,破解具身智能缺数据的难题。


三是提供仿真驱动服务。以仿真平台为核心,推动“仿真—合成—应用”一体化发展,与数字孪生、工业互联网深度融合,在工业和城市治理领域具备显著潜力。代表企业是NVIDIA Omniverse、Unity等。如NVIDIA Omniverse提供 API、SDK 和服务,创作者、设计师和开发者在共享的虚拟空间中进行协作开发。

目前从国内合成数据领域的企业发展来看,除部分在数字化领域已有较强基础的企业已经开始进行布局,如亚信科技、星环科技、海量数据、蚂蚁区块链等,大部分企业处于创业未久的初创阶段,刚受到资本市场的追捧,如光轮智能(北京)、松应科技(北京)、数创弧光(深圳)、深信科创(安徽)、卓印智能(杭州)。上海也有相关的企业正在开展合成数据领域探索,如库帕斯、人形机器人创新中心等。

1773639034710.jpg


相关建议

合成数据已经成为人工智能时代的“数据供给”新模式,建议:

01
图片

探讨建设合成数据功能性基础平台。联合顶尖科研机构与企业,重点围绕合成数据共性技术开发、数据质量验证等方面,率先探索推进建设合成数据功能性基础平台,甚至将其作为未来数字化发展的重要基础设施。


02
图片

积极以应用场景牵引合成数据产业发展。在具身智能、自动驾驶、城市治理、工业制造、医疗健康等领域开放场景,鼓励在确保安全的前提下,开展真实数据与合成数据融合示范应用。


03
图片

促进产业投资与创新机制对合成数据领域的关注和支持。将合成数据作为数据要素市场建设的重要方向,引导多元化资本进行前瞻性布局,将合成数据纳入政府数据创新领域的政策扶持方向。


04
图片

推动合成数据领域的标准体系建设。围绕合成数据共性的生成技术和细分领域的应用需求,将合成数据纳入到数据领域标准体系中,推动制定在合成数据生成、标注、质量管理、交易流通等方面的标准与行业规范。


(注:本文配图来自AI辅助制作)

END
上一篇

下一篇

网址:www.sscdi.cn

地址:上海市浦东新区源深路38弄富源置地广场2号楼4楼

电话:021-50599810

邮箱:info@sscdi.cn

链接

关注我们

微信公众号

智慧城市观察