成千上万个看似毫无关联的人类日常碎片,
正被标上精细的价格,
成为硅谷和中关村最炙手可热的工业原料。
文|张雪莹
栏目|Vista天下奇点
全职妈妈丽子最近有了一份特殊的兼职。
在家里,她戴上一款配有摄像头的头戴设备,像往常一样择菜、洗碗、擦地。
两岁的宝宝凑过来,她轻声说:“不要打扰妈妈,妈妈正在教机器人做饭呢。”
这份兼职的时薪大约20元。丽子觉得很划算,因为她每天都要做家务,戴上摄像头并不额外占用时间。
丽子不是一个人。随着AI的飞速发展,供AI学习的有效视频素材面临短缺,在这场“数据饥荒”中,成千上万个看似毫无关联的人类日常碎片,正被标上精细的价格,成为硅谷和中关村最炙手可热的工业原料。
从南非到美国,从印度到中国,一个庞大的“幽灵劳动力”网络正在暗中运转。
27岁的南非青年雅各布斯·洛乌每天出门喂海鸥,顺手拍下“城市导航”视频,一段十几秒能换14美元;22岁的印度学生萨希尔·蒂加让手机麦克风长期开启,专门到酒店大堂录制环境音,每月收入100多美元;18岁的芝加哥焊接学徒拉梅利奥·希尔出售的是自己和朋友的通话录音,每分钟价值0.5美元。
他们正把自己的生活片段,打包卖给AI。隐私,是这场数据交易中被默认忽略的代价。
01
生活就是最好的教材
丽子入行的契机极为偶然。经朋友介绍,她才了解到这份特殊的“教师工作”。
为了验证这份兼职是否靠谱,丽子曾去苏州的具身智能基地实地考察。看着基地里的机器人有模有样地机械运转,她决定试一试。对方告诉她,只要在家边干家务边录制即可,报酬按小时结算。
在“五一”假期期间,丽子接到了第一份任务,佩戴装置,录制48小时。
头戴设备并不重,戴上后完全不影响日常生活。“把机器直接戴在头上就好了,不需要刻意低头,正常干活就可以。”
不过,录制视频有一个硬性要求,必须是第一视角,绝不能把机器挂在墙上或固定在台灯上。“一开始我们不懂,以为像摄像机那样挂墙上就行。后来看了教程视频才知道,机器人要的是人戴上眼镜时、以人类双眼审视这个世界的分辨率与角度。”
具体怎么录?丽子解释说,只要双手出现在摄像头下方即可。
她在家择菜、洗菜、刷锅、洗碗、带孩子,全都戴着设备。实在没活干了,拿个魔方在手上转也可以。她还有一个闺蜜弹钢琴,一口气录了7个小时。但敲键盘、打游戏这种重复动作不行,这类活动手部动作太单调,机器人学不到新东西。
为了凑够48小时,丽子动员上初中的孩子帮忙。“小孩写作业也可以录,我跟他说,录视频赚的钱都给你,他可开心了。”这个设备并不绑定某个人,家里谁有空,谁就戴上接着录。
丽子很好奇这些视频有什么作用。
兼职的负责人向她解释称,人类怎么拿东西、怎么旋转手腕、怎么延伸手指,机器人都得从头学起。这些第一视角的数据“投喂”给机器人,就能让机器人的手部动作变得越来越像人,越来越灵活。
02
数据矿场的全球版图
丽子只是全球数据采集大军中的一个缩影。这场淘金热的背后,是AI行业日益严峻的“数据饥荒”。
非营利研究机构 Epoch AI 预测,今年,AI公司将耗尽互联网上可用于训练的新鲜文本资源。
让AI自己生成数据来训练自己,已被证明是一条死胡同。英国和加拿大的研究人员在《自然》杂志上发表了一项实验,他们先用真实的手写数字数据集训练AI,再让AI生成数字,然后用这些生成的数据继续训练下一代。
结果显示,到第5代,数据缺陷开始放大;到第20代,数字变得模糊;到第30代,所有数字收敛成一个难以辨认的单一形状。模型彻底丧失了多样性,这种现象在学术界被称为“模型崩溃”(Model Collapse)。
在更宽广的视频与物理交互领域,缺口更加惊人。
英伟达(NVIDIA)的具身智能训练平台 Cosmos 使用了2000万小时的视频语料,这一数字仅相当于 YouTube 全球27天的视频上传总量。公网上的视频不是数量不够多,而是高信息密度、第一视角、展示物理因果关系的优质数据极其稀缺。
在这种背景下,真实场景的第一视角数据成为了适配物理AI的“原生语言”。
行业实践表明,仅靠50条机器人遥控操作数据,机器人的任务成功率只有45%;而一旦引入200条人类第一视角数据,成功率便能跃升至95%。巨大的缺口催生了庞大的市场,全球数据采集与标注市场规模2025年为44.1亿美元,2026年预计达56.4亿美元,到2030年或将突破150亿美元。
然而,在这张庞大的全球数据版图上,不同坐标轴里的“矿工”们,体验截然不同。
4月,京东发布了行业首个具身数据全链路基础设施,宣称两年内动员60万人,采集1000万小时真实场景视频数据,仅江苏宿迁一地就有10万人参与。
居民只需经过简单培训即可上岗,在养老院录制照顾老人的细节,在田间录制摘果子、握农具的姿势,在服装厂录制踩缝纫机的动作。居家采集员一个月能挣3000元到3500元,比在本地打零工划算得多。
这份工作不耽误正常生活,干这行的主力,正是像丽子这样的宝妈和居家群体。
而在印度古鲁格拉姆的一家服装厂里,工人头上绑着环形摄像头,每天必须在上午10点到下午4点之间戴着它工作。工人一周干6天,一天工作12小时,月薪折合人民币仅1400元到2100元。
这些设备属于一家名为 Egolab AI 的印度数据公司,他们将打包好的数据卖给特斯拉、波士顿动力等科技巨头。工人们对此充满怨言:“那个东西就在太阳穴旁边,电池发烫,感觉像在吸血。”还有人抗议道,“去洗手间之前必须摘下来,戴着的时候不能跟家里人说话,它会偷听。”更让人寒心的是,公司甚至从未征得过他们的授权同意。
但在欧美,呈现出的又是另一番景象。
一家名为Micro1的公司在71个国家签下了大约4000名零工,让他们录制铺床、洗碗、叠衣服等家务动作,时薪达15美元。美国本地人的数据更贵,有时甚至是越南或印度同行的3倍——因为科技公司固执地认为,第一批买得起高价机器人的必然是美国消费者。这些居家录制的人签署了严格的保密协议,在行业内被称为“幽灵劳动力”(Ghost Work)。
有人类学家将这种现象称为“数据殖民主义”,佩戴者的日常生活细节被提取出来,封装成科技巨头几百亿美元的估值资产,而当事人甚至不知道自己的生活被卖给了谁。
牛津大学教授马克·格雷厄姆指出,AI数据市场极度依赖“工资的逐底竞争”和对人类数据的“暂时性需求”。一旦技术跨过临界点,这种过渡性需求消失,劳动者将很被动,赢家只有资本和平台。
尽管2025年全球范围内迎来了一波劳动者数据权益的觉醒。例如中国新修订的《反不正当竞争法》增设了数据专款,明确不得以不正当方式获取他人数据,同时强化了个人对自身数据的授权同意机制。
但在更深层的法理上,数据生产者的贡献究竟是劳动本身,还是仅仅属于一次性的用户同意授权,这一核心问题至今未能得到颠覆性的司法厘清。
今日互动
新刊预告