
点击蓝字,关注灸哥更多精彩!
最近对各地基地特别感兴趣,尤其近半年省会城市的区、二三线城市热火朝天搞数据标注基地,虚虚实实,真真假假,看的既兴奋又心酸,于是突发奇想,想用大模型的能力来看七大基地。我们做数据是来伺候模型的,那在 AI 时代用大模型来观察七大基地,是不是也是一种乐趣呢?

当马栏山视频文创遇上 AI 数据标注,长沙讲了一个“文化 + 科技”的故事。
芒果超媒的算料、万兴科技的大模型、湖南广电的数据底座 —— 这张全球高质量音视频文创数据特色开发基地的牌,看起来确实和其他城市不在一个维度上。
但在这条差异化赛道上,那些被反复提及的 4.6 亿元订单、万人岗位需求、36 个高质量数据集背后,藏着多少真实交付?又有多少是“订单待落地、需求待匹配”的意向?
十几年前,马栏山还只是湖南广电的代名词。一档《快乐大本营》,让全国观众记住了马栏山坡姐谢娜,也记住了长沙这座城市娱乐之都的标签。湖南卫视的演播厅里,灯光璀璨、明星云集,那是中国电视娱乐的黄金时代。
那时候的长沙,离数据还很远。
十几年前的另一个场景,是在长沙的某个高校实验室里,一群研究生对着几台服务器,在跑一个刚起步的自然语言处理模型。数据不够用,就手动标注;标注搞不定,就翻文献查规范。没有成熟的标注平台,没有统一的行业标准,一切都是从零开始。
这两个场景,一个代表着内容,一个代表着技术。在很长一段时间里,它们是平行线。
十几年后的今天,这两条线在马栏山交汇了。2024 年 5 月,在数字中国建设峰会上,长沙凭借其丰富的音视频文创等行业数据资源、优质的高校科研人才资源以及完备的人工智能产业链,成功入选承担国家数据标注基地建设任务的 7 大城市之一。
根据计划,到 2026 年,长沙将建成全球高质量音视频文创数据特色开发基地,带动数据相关产业规模达 100 亿元以上。

文娱之都要变成 AI 文娱之都。
芒果 TV 的综艺节目里,可能正在训练新一代的智能剪辑模型;湖南广电积累了几十年的音视频素材,可能在喂养某个大模型的视频理解能力;万兴科技的视频剪辑软件,背后的AI能力可能来自长沙本地标注的数据。
“文化 + 科技” —— 这个口号喊了这么多年,现在终于有了一个新的载体:数据标注。
看起来是一个完美的叙事:别人做标注是从零开始找数据,长沙不一样,长沙有现成的数据金矿 —— 30 万小时高质量音视频算料、1000 万条在库素材、500 万个 3D 模型。这不是从零起步,这是站在湖南广电的肩膀上起跳。
数据标注行业有一个心照不宣的共识:漂亮的发布会和真实的产业运营之间,往往隔着一条巨大的鸿沟。 某个号称万人标注的西南基地,宣传铺天盖地,结果外地订单占比超过 70%,工位使用率不到三分之一。另一个南方基地一度风光无限,如今却传出与主导企业的合作破裂,甚至对簿公堂。
长沙的音视频数据标注故事讲得很动人,但这个故事是已经变成了看得见的数据交付、税收贡献和就业岗位,还是仍然停留在 PPT 和发布会的宏大叙事中?
带着这些问题,让 AI 搜遍了长沙这座国家级数据标注基地近年来的所有公开信息 —— 政府文件、行业报告、新闻报道、供需对接记录,逐一梳理、交叉比对。这篇文章里所有的判断,都有出处可查。
2024 年 5 月,长沙成功入选全国首批 7 个承担国家数据标注基地建设任务的城市之一,与成都、沈阳、合肥等城市同台竞技。不到一年时间,长沙的发展势头相当迅猛。
到 2025 年 2 月,在湖南大数据交易所举办的基地建设成果发布会上,长沙公布了一个亮眼的成绩单:构建了“1 个综合标注基地 + N 个行业标注基地”的产业布局,先后授牌 8 个特色标注产业集聚区;引育标注企业 50 家,建成高质量数据集 36 个,数据规模达 1.6 万 TB;全市数据标注相关产值规模达 85.8 亿元;湖南大数据交易所累计交易额达 31 亿元,总体规模排名全国前列。
在人才方面,长沙建设了 AI 数据应用人才公共实训基地,设立专项补贴 1000万元,举办“星城杯”职业技能大赛和 AI 数据人才专场招聘会,达成就业意向超 305 人次。2024 年新增数据标注岗位 3333个,同比增长 104%。
在技术创新端,芒果数智、万兴科技等企业突破多模态标注、AI 辅助标注等关键技术。马栏山视频文创园建成视频云平台、视频超算中心、共享制作中心等三大公共技术平台,助力文创企业数字化转型,服务 110 余家人工智能企业。
从这些数据看,长沙在七个国家级数据标注基地中,产值规模、数据集建设水平、产业生态活跃度都处于第一梯队。但数据规模大不等于标注能力强,发布订单多不等于交付利润高。这些数据背后真正的含金量,需要拆开来看。
不同于成都依赖中国电信的单点突破、沈阳高度倚仗火山引擎的龙头企业模式,长沙从一开始就走了一条全域覆盖的路线 —— 不是建一个集中式的大园区,而是将整个城市作为一个大基地,以全市数字产业为基础,结合相关园区的资源禀赋,构建了“1 个综合标注基地 + N 个行业标注基地”的产业布局。
2024 年 9 月,长沙首批授牌了三个基地:长沙信息产业园(综合数据标注基地)、马栏山视频文创园(视频文创数据标注基地)、天心经开区(地理信息数据标注基地)。
2025 年 2 月的成果发布大会上,长沙又授牌了第二批 5 个行业标注基地:岳麓高新区为智能网联汽车产业数据标注基地、湖南 5G 应用生态产业园为教育教学数据标注基地、雨花经开区为工业制造数据标注基地、望城经开区为医疗健康数据标注基地、长沙县为工程机械数据标注基地。
这套“1 + N”布局的好处一目了然 —— 避免重复建设、精准匹配需求、分行业深耕。但这种模式的挑战也同样明显:八个基地分布在全市各个区域和园区,如何保证它们不是“各玩各的”?如何实现数据资源、标注能力、市场订单在“1 + N”之间的高效流通?如果只是把一个大的产业规模拆分成若干个小业绩,而缺乏有效的内部协同和资源调度,“1 + N”可能变成“1 个综合基地 + N 个各自为战的行业园区”。
目前来看,长沙在这个问题上已经有了探索。
天心经开区汇聚了地理、气象等 8 大数据中心,拥有遥感、测绘等数据约 700TB,形成从生产、清洗、标注、交易到应用的完整闭环。
湖南大数据交易所就坐落在园区内,交易额已达 31 亿元,这意味着天心经开区不只是做标注,还能通过交易市场实现数据价值的变现。
马栏山视频文创园则凭借湖南广电的基因,积累了超 30 万小时高质量音视频算料,芒果TV、万兴科技、天择微链等企业齐聚,园区已形成 1000 万条在库素材、600 万条标注数据、月产能 600 万条的交付能力。
这些基地各有侧重,但能否真正形成“1 + 1 > 2”的合力,还需要时间来验证。
长沙最核心的差异化优势,是湖南广电和马栏山视频文创园积淀了几十年的内容资产。
据调研,马栏山文创园已形成 1000 万条在库素材,涵盖 50 万小时视频和 50 万小时音频,月产能可达 600 万条。
园区目前已集聚芒果 TV、天择微链、中南出版、中影年年等数据供给企业,网易、万兴科技等大模型头部企业,以及创壹科技、芒果融创等场景应用企业和迅雷百川等数据标注生产企业。
园区建成视频云平台、视频超算中心、数字影棚集群等公共基础设施,实现 2 × 100G 网络全覆盖,推动数据汇聚、处理与交易一体化。
同时,园区还在推动多云融合调度平台、渲染平台、网络平台、数据平台等四大平台和音视频实验室、文博可信数据空间等新基建建设,计划在 2026 年上线散料交易中心,为数据标注和交易提供新通道。
在高质量数据集建设方面,万兴科技天幕大模型音视频数据集、芒果数智文博大模型数据集等 6 个高质量数据集已建成,累计规模达 1 万余 TB。
园区打造的数字资产制作平台,积累了超 10 万套数字资产,500 万个 3D 模型。“中国 V 链”已交易音视频算料百万小时、数千万元。
2025 年 2 月,湖南音视频数据激发媒体活力,促进文创产业融合发展场景成功入选国家公共数据“跑起来”示范场景。
但这里需要关注一个关键问题:这些标注数据是否真正产生了商业价值?几十万小时音视频素材,是不是转化为了可以被模型调用、被企业付费购买的标准化数据产品?还是仍然停留在原始素材的堆积阶段?
从“中国 V 链”的交易数据看,至少方向是对的 —— 音视频算料的交易已经产生了数千万元的市场价值。但数千万元的规模与“全球高质量音视频文创数据特色开发基地”的定位相比,还有相当大的差距。
芒果数智、万兴科技的数据集建设目前更多还停留在自产自用阶段 —— 这些头部大模型企业需要的训练数据,到底有多少是通过本地标注企业完成的?多少是交给其他城市的服务商来做的?这是衡量马栏山数据标注基地真实产能的核心指标。
此外,长沙在音视频标注领域的最大挑战在于:音视频标注对标注员的专业素养要求极高 —— 涉及镜头语言、剪辑逻辑、内容理解、版权合规等多维度知识。目前长沙相关专业人才的储备是否充足?能否支撑如此大规模的音视频标注需求?这决定了长沙能否真正守住这个“文化 + 科技”的独特赛道。
据公开报道,2025 年 9 月 22 日,湖南大数据交易所迎来一个重要节点:长沙智能标注公共服务平台正式上线。
平台由长沙市数据局与中国移动深度合作打造,集成政策咨询、供需超市、技术服务、人才服务、金融服务和标注基地等六大功能模块,面向政府部门、AI 企业、标注服务商、高校等产业链各方,提供全链条、低成本、高价值的公共服务。
截至上线日,该平台已发布数据标注订单需求 5.1 亿元,成交业务 2286 万元,汇聚数据集 118 个,数据规模达 3.7PB,并开设综合标注、视频文创、地理信息、工业制造等八大专业标注基地入驻窗口。
从 4.6 亿元订单需求到 5.1 亿元订单需求,说明长沙的需求池在持续扩大。但 2286 万元的成交业务与 5.1 亿元的发布需求之间的差距,揭示了一个深层问题:供需双方存在明显的匹配鸿沟。企业有标注需求,服务商有交付能力,但中间的对接并不顺畅。要么是需求方对交付质量不放心,要么是服务商对订单价格不满意,要么是双方对标注标准和数据安全等条款迟迟谈不拢。要么还有其他可能吗?各位看官可以留言交流一下~
这个平台如果真的存在,真的可用,那它的价值毋庸置疑 —— 它解决了信息不对称的问题,让供需双方有一个公开透明的对接渠道。但平台解决的只是发现环节,信任和交付才是决定性的因素。
2286 万元的成交与 5.1 亿元的需求之间的鸿沟能否在未来一年内被填平,将直接决定长沙数据标注产业的真实交易活跃度,也是我们接下来重点追踪的指标。

在让 AI 交叉比对数百条公开信息后,几个值得玩味的矛盾信号浮现了出来。
据报道, 2025 年 2 月的供需对接大会上,长沙发布了总值达 4.6 亿元的数据标注及数据集订单、共计 10200 人次的数据人才需求,并达成了 16 项合作协议。
这些数字看起来很振奋人心。但订单发布和订单交付之间,存在着不小的差距。
AI 在交叉比对 2024 年岳麓峰会期间发布的 3.9 亿元合作意向和后续报道后,发现这些意向被媒体广泛转载为合作成果,而后续实际落地的金额和具体项目细节,公开报道中并没有持续的披露和追踪。
行业的真实逻辑是这样的:一场对接会上发布的需求、意向签约金额,与最终实际转化为合同、按期交付、款项到账的真正订单,中间的漏斗相当深。
如果订单发布后半年、一年都没有后续的成效追踪报道,外界就无从判断这些订单的真实含金量。平台数据显示,截至目前成交业务 2286 万元。这说明 4.6 亿元的需求的确在转化为成交,但转化率还很低,距离真正消化 4.6 亿元的需求还有很长的路要走。
据报道,长沙目前建成 36 个高质量数据集,规模达 1.5 万TB,文旅领域的数据集规模就占了 1 万余 TB。仅看规模数据,长沙在全国七个基地中确实名列前茅。
但 AI 在交叉比对企业信息时发现:万兴科技天幕大模型、芒果数智文博大模型等主导开发的数据集,目前的主要使用者是谁?是这些企业自身用于模型训练的内需,还是已经通过湖南大数据交易所等平台对外销售和授权?
如果大部分数据集还停留在自产自用或小范围合作的阶段,而没有形成规模化的市场化交易,那么高质量数据集带来的产业价值可能远低于宣传的规模数据所暗示的那样。
公开信息来看,湖南大数据交易所累计交易额 31 亿元,数据集交易只有 1.5 亿元,优质数据的资产化流通才刚刚起步,还有很长的路要走。
长沙的供需对接会、产业联盟、行业协会等活动频繁,热闹的场面从一系列报道中可见一斑。
但在 2025 年 9 月上线的智能标注公共服务平台上,供需双方的活跃度分化明显:发布需求 5.1 亿元、成交 2286 万元,成交额仅占发布需求的 4.5%。与此同时,平台汇聚数据集 118 个,数据规模 3.7 PB,但开张的明显是需求端,成交端仍然冷清。
如果供需双方的对接无法转化出规模化的交易量,那么产业园区的物理聚集就可能停留在企业搬进来、单子没进来的尴尬阶段,这也是其他基地正在经历的沉痛教训。
所以我个人会觉得现在热闹非凡的各地动不动的数据标注供需对接大会,它的真实意义到底是什么?比如阿里、腾讯这些企业会不会去这样的大会上发布需求?

在讨论长沙基地时,有必要再把那面万人标注的西南基地的镜子擦得更亮。
那个基地的问题,前面几篇都已经剖析过:外地订单占比超过 70%,产业长期依赖外部订单输入,内生需求不足;人员流失率高达 30%,工位整体使用率不到三分之一;大量中小标注企业陷入低价内卷,难以向高附加值服务升级。
长沙的情况与那个基地既有相似之处,也有本质区别。
相似之处在于,两个基地的本地订单占比都需要进一步提升。在那个万人标注基地,一个标志性的问题就是产业看得到,订单在外地。长沙虽然拥有湖南广电、万兴科技等本土头部企业,但这些企业的标注需求究竟在多大程度上交给了长沙本地的服务商来满足?如果大量核心标注任务仍然由一线城市的专业服务商或者企业内部的研发团队完成,那么长沙本地标注企业只能承接外围的分包业务,同样会面临看着产业热,订单没落到自己身上的困境。
然而,长沙与那个基地最本质的区别在于,长沙拥有一个那个基地不具备的“文化 + 科技”融合的独特场景。
长沙不需要像其他基地那样从零招商 —— 它本身就拥有湖南广电、马栏山这样的内容产业高地,数据是现成的,场景是真实的,标注需求是扎根本地的。即使外地订单出现波动,长沙的内生需求 —— 芒果 TV 的数据治理、万兴科技的大模型训练、湖南广电的媒体数字化转型 —— 仍然能够稳定支持本地标注企业的运转。这是长沙最核心的安全垫,也是那个万人标注基地可望而不可即的底牌。
那个万人标注基地的教训告诉我们:产业可以靠“热闹”启动,但不能靠“热闹”续命。长沙现在的“1 + N”布局、智能标注平台、文化科技融合战略,都是为构建内生订单生态而设计的——只要这些措施落实到位,长沙完全有能力走出与那个基地不同的可持续之路。
湖南大数据交易所,是长沙数据标注产业有别于其他基地的关键基础设施。
2024 年,天心经开区被授予地理信息数据标注基地的同时,园区内的湖南大数据交易所已发展数商 806 家,上架数据产品 5489 个,交易总额突破 33.8 亿元,总体规模排名全国前列。
数据集交易专版上架数据集产品 284 个,交易额达 1.5 亿元。
一个繁荣的数据交易所,意味着标注企业不仅能做交付赚服务费,还能把标注成果包装成数据集产品挂牌销售,进入一次标注、多次变现的资产化阶段。
如果这条路能走通,长沙标注企业的商业模式将彻底超越其他基地的搬砖模式。

长沙在顶层设计上的布局相对全面和系统。
市数据局牵头制定了《长沙市关于推进国家数据标注基地建设的工作方案》和 14 条专项扶持政策,聚焦加快培育标注产业、支持技术创新攻关、加强专业人才培育、促进数据服务赋能四大方向。
设立 3 亿元创业投资基金和 1 亿元供应链金融专项,政府投资基金累计认缴规模 48.55 亿元。这种“政策包 + 资金池”的组合,对于资金敏感的数据标注企业,吸引力不言而喻。
数据标注,尤其是视频、大模型等复杂场景的高精度标注,离开算力寸步难行。
据报道,长沙建成规模以上算力中心 21 个,总算力 6726P,其中智算 2589P,超算 200P。
马栏山视频文创园的视频云平台、视频超算平台等公共技术平台,为入驻企业提供低成本、高效率的算力基础设施。
长沙人工智能创新中心率先部署 DeepSeek 大模型,已服务 110 余家人工智能企业。
这意味着,来长沙做数据标注的企业,拥有充沛且优惠的算力后援,不仅在降低成本,更在提升高精度标注场景下的交付品质。
尽管上述挑战值得警惕,长沙仍有一些值得其他基地学习的亮点:
在所有国家级标注基地中,长沙是唯一一个将视频文创数据作为主攻方向的城市。
这种错位竞争,让长沙避开了与成都拼技术、与沈阳拼产业规模、与合肥拼语音生态的红海竞争,开辟了一个其他基地短期内难以复制的独特赛道。
长沙没有把鸡蛋放在一个篮子里,而是根据各园区资源禀赋,将标注能力深度嵌入长沙的八大优势产业。
这种布局既能分散单一行业波动带来的产业风险,也为标注企业提供了多行业、多场景的客户触达机会。
湖南大数据交易所 31 亿元的总交易额和 284 个数据集产品的上架,让长沙的标注企业不仅有机会成为数据工厂,更有可能成为数据银行 —— 将标注数据资产化、挂牌、交易。这条路如果走通,将为长沙数据要素市场的发展打开一个巨大的发展空间。
AI 写到这里,我一直在想一个问题:长沙的“全球高质量音视频文创数据特色开发基地”这个定位,野心很大,不过看这些公开报道消息后,我觉得距离同样也很远。
论数据的量,长沙无疑拥有其他基地羡慕的存量优势:湖南广电几十年的内容积累、马栏山文娱产业的集聚效应、超 30 万小时的音视频算料 —— 这是其他基地花多少钱都买不来的天然禀赋。
论生态的形,长沙已经搭好了框架:“1 + N”布局覆盖重点产业、智能标注平台上线运营、湖南大数据交易所持续活跃。
论资源的势,长沙的政策力度、人才基础、算力支撑、交易生态在七个基地中均属上游。
但全球二字的分量,不只是靠量和形就能撑起来的。
它意味着长沙必须解决几个核心的“最后一公里”问题:
音视频标注的专业人才够不够 —— 标注员不仅需要了解数据,还要懂得镜头语言和版权合规,目前相关人才培养体系尚处于起步阶段;
高质量标注数据的国际化水平够不够 —— 全球要求长沙能够服务国内外各类大模型企业和文娱内容平台的多语种、多文化的音视频标注需求,目前出口型业务占比几乎为零;
供需两端的高效匹配机制够不够完善 —— 5.1 亿元的需求发布与 2286 万元的成交业务之间的巨大差距,说明供需热、交付冷的现状仍然需要产业链各方共同破解。
长沙的数据标注产业,正处于一个华丽转身的关键节点。
那个万人标注的西南基地,用它的经历证明了:产业可以靠龙头企业启动,但不能靠龙头企业续命。
而长沙今天走的路,比任何一个基地都更接近于构建一个以内生需求为核心的产业生态 —— 湖南广电的数字化转型、万兴科技的 AI 化升级、芒果 TV 的内容治理 —— 这些都是长沙的标注企业能够在本地持续获得订单的根本保障。
从马栏山到 AI 山,故事讲到这里,接下来的看点是:长沙能不能把这个故事真正变成产业交付、变成税收贡献、变成人才落户、变成一个可以复制给全国其他基地的数据标注长沙样本?
我想没有人能在一开始给出肯定的回答。但至少,长沙的故事比那个万人标注基地的故事,看起来要有后劲得多。
写作说明:本文所有信息均来自公开资料,并借助 AI 进行整理、交叉验证与趋势分析。观点仅代表个人对行业的观察,旨在促进产业健康发展,欢迎交流。

END
关于灸哥:
十年阿里技术人、五年数据创业人
资深产品技术专家与数字化转型架构师,高质量数据集场景挖掘与构建、数据标注产业生态建设的积极推动者。主要研究方向为 AI数据工程化平台、多模态高质量数据集构建、数据标注产业生态协同与标准化。
拥有十余年技术架构与战略管理经验,具备卓越的业务洞察力与跨领域协同能力。曾于阿里巴巴任职十年,历任技术专家、架构师与技术管理者,主导过多个大型分布式系统与云原生架构的设计与落地;后于多个 AI 数据创业企业担任技术总监、业务负责人与产品技术顾问专家,具备从 0 到 1 的业务构建、组织建设与产业化运营能力。
核心贡献:
高质量数据集场景挖掘与构建:主导完成智能座舱、自动驾驶、大语言模型、具身智能、智慧医疗等多个前沿领域的高质量数据集项目,构建从场景定义、数据采集、智能标注到评测交付的全链路标准化体系,推动数据集与模型训练的深度适配与价值闭环。
数据标注产业生态构建:参与多个国家级与地方级数据标注产业基地/园区的规划与落地工作,推动数据标注产业从人力密集向技术密集、从单点作业向全链协同转型,在人才体系搭建、产教融合、订单撮合、政策衔接等方面形成系统性解决方案。
技术架构与平台建设:主导自研全国首个 DataOps 工程平台的架构设计演进与规模化落地,支持多模态数据、万人在线协同、AI 辅助标注与自动化质检,显著提升数据生产效能与质量可控性。
连续创业者与战略践行者,致力于以数据工程能力驱动 AI 产业落地,推动高质量数据集与数据标注生态成为 AI 基础设施的关键支柱。

AI 数据人多交流!

欢迎关注灸哥,交流高质量数据集、 AI 数据服务(数据采集、数据标注等)、DataOps、 数字化转型、系统架构设计等的任何想法,可扫码下方二维码添加个人微信,备注“公众号”和您的个人介绍可深度链接,一起探讨技术与管理心得。


长按二维码识别
添加灸哥
了解更多

你的赞和分享,是灸哥的动力
