
【报告】合成数据——数据领域正在兴起的新赛道
合成数据是指通过算法模型、仿真系统或规则引擎人工生成的数据,具备“低敏感性、高可控性、强设计性”等特征。
合成数据在缓解高质量数据供给不足、降低数据合规成本、提升数据要素流通效率等方面呈现出重大功能性价值,高质量真实数据与大规模合成数据混合驱动的演进范式正在形成。
合成数据处于正在兴起的初级阶段,成长空间巨大。合成数据有望成为政府发展数据产业、推进数据要素公共能力建设的重要切入点。
建议将合成数据作为数据要素市场建设的关键方向,通过功能性平台建设、重点场景牵引、制度与标准先行,推动合成数据新赛道发展。
当前,在AI产业爆发式增长与国家数据要素战略的双重驱动下,高质量真实数据与大规模合成数据混合驱动的新范式正在形成,合成数据产业正从技术探索迈向规模化商业落地,呈现出技术多元化、场景垂直化与商业模式融合化的特征。
什么是合成数据
合成数据(Synthetic Data)是指通过算法模型、仿真系统或规则引擎人工生成的数据。作为通过算法、模型或规则人工生成的高保真虚拟数据,合成数据已成为破解人工智能发展“数据荒”瓶颈、保护数据隐私安全、降低数据获取成本的关键技术路径。
合成数据不同于传统意义上的“原始数据”和“加工数据”,更接近一种以模型、规则和算力为生产要素的数据生成型产品。其价值不完全依赖于数据来源本身,而更多依赖于生成机制的科学性、场景合理性和结果可信度。
合成数据的优势
当前国数据要素市场建设正从“确权与合规”阶段,逐步向“流通与价值释放”阶段演进。但在实践中,真实数据普遍面临敏感性高、流通难度大、场景适配成本高等问题。合成数据通过“间接表达真实规律”的方式,为数据要素市场提供了一条风险可控、效率更高的供给路径,具有突出的优势。
在数据要素体系中,数据生产正由“自然生成+人工采集”为主,向“模型生成+仿真生成”延伸。整体而言,合成数据产业正处于快速成长期,尤其是中国的合成数据发展增速最快。大企业纷纷布局,如蚂蚁数科、联影智能,初创型明星企业开始涌现,如光轮智能(聚焦具身智能合成数据)、数创弧光(聚焦小语种、隐私敏感等行业合成数据)。全球合成数据市场规模持续扩大,但仍处于初级阶段,2025年市场规模47.6亿元,近几年复合增长率高达41.8%。中国市场增速最快,潜力巨大,但行业融资基本处于天使轮、Pre-A轮早期阶段,有机构预测未来几年中国合成数据市场将达到200亿元。因此,当前是抢抓合成数据新赛道的关键时期。
合成数据开始受到政府的关注,在多个国家级文件中都能看到对合成数据的相关内容,涵盖到合成数据的促进和监管。例如,最新的国家数据局《关于加强数据科技创新的实施意见》明确将“数据合成”列为关键数据技术攻关方向,推动其从实验室走向规模化市场应用。国家网信办在《人工智能拟人化互动服务管理暂行办法(征求意见稿)》中明确“利用合成数据进行模型训练和关键能力优化时,应当评估合成数据安全性”。
同样在美国也有类似的政策趋向。如美国商务部在2025年发布的《生成人工智能和开放数据:指南和最佳实践》提出要通过改进政府数据的文档、格式和质量,降低包括使用合成数据在内的AI创新成本。
一是提供共性云端服务。通过SaaS服务,提供灵活、自主的合成数据生成能力,为行业提供公共服务能力,有效降低用户获取和使用合成数据的门槛。典型案例有:奥地利的Mostly AI公司,是专注于合成数据生成的全球顶级平台,通过Mostly AI专有算法生成的高保真合成数据能有效保留原始数据集的基本特征,并且可以作为各种应用(包括分析、测试和机器学习)中真实数据的替代品。以色列的Datagen公司,核心是通过智能模型模拟器加速人工智能模型的构建,并以可视化的方式快速为ML机器提供AI训练所需的图像数据。
二是提供整体解决方案。这种合成数据发展模式是与具体业务场景深度绑定,直接交付解决特定业务问题的数据产品及洞察,而非单纯的数据本身。如在自动驾驶领域(代表企业是Waymo、Tesla),合成数据成为核心训练数据来源之一,大幅降低真实数据采集和合规成本;在医疗领域(代表企业是德国的Ryver.ai),生成合成X光、CT、MRI等影像数据,通过合成数据扩大可用数据规模,加快算法验证与审批进程。在消费领域(代表企业是美国的Qualtrics),模拟生成消费者问卷回答数据,从而更高效的进行商业决策。具身智能领域(代表企业上海的启数光轮、国地人形机器人创新中心),生成机器人训练所需的大量数据,破解具身智能缺数据的难题。
三是提供仿真驱动服务。以仿真平台为核心,推动“仿真—合成—应用”一体化发展,与数字孪生、工业互联网深度融合,在工业和城市治理领域具备显著潜力。代表企业是NVIDIA Omniverse、Unity等。如NVIDIA Omniverse提供 API、SDK 和服务,创作者、设计师和开发者在共享的虚拟空间中进行协作开发。
目前从国内合成数据领域的企业发展来看,除部分在数字化领域已有较强基础的企业已经开始进行布局,如亚信科技、星环科技、海量数据、蚂蚁区块链等,大部分企业处于创业未久的初创阶段,刚受到资本市场的追捧,如光轮智能(北京)、松应科技(北京)、数创弧光(深圳)、深信科创(安徽)、卓印智能(杭州)。上海也有相关的企业正在开展合成数据领域探索,如库帕斯、人形机器人创新中心等。

合成数据已经成为人工智能时代的“数据供给”新模式,建议:
探讨建设合成数据功能性基础平台。联合顶尖科研机构与企业,重点围绕合成数据共性技术开发、数据质量验证等方面,率先探索推进建设合成数据功能性基础平台,甚至将其作为未来数字化发展的重要基础设施。
积极以应用场景牵引合成数据产业发展。在具身智能、自动驾驶、城市治理、工业制造、医疗健康等领域开放场景,鼓励在确保安全的前提下,开展真实数据与合成数据融合示范应用。
促进产业投资与创新机制对合成数据领域的关注和支持。将合成数据作为数据要素市场建设的重要方向,引导多元化资本进行前瞻性布局,将合成数据纳入政府数据创新领域的政策扶持方向。
推动合成数据领域的标准体系建设。围绕合成数据共性的生成技术和细分领域的应用需求,将合成数据纳入到数据领域标准体系中,推动制定在合成数据生成、标注、质量管理、交易流通等方面的标准与行业规范。
(注:本文配图来自AI辅助制作)
下一篇
微信公众号

智慧城市观察
