几个月前的一个下午,郑雯至今记忆犹新。那天,她一个小时仅赚了2毛钱。毕业于湖南某专科学校,身为大模型数据标注师,她的工作并不复杂——为领取的原始数据(如图像、视频、文本等)添加标签。然而,大模型对数据质量要求极高,一张图片需反复修改8次才能通过,耗时整整一小时,收入却只有2毛钱,远低于正常情况下可赚到的12元(即拉600个框的报酬)。她反复强调:“钱并不好赚。”
这几乎是所有数据标注从业者的共识。他们承载着不足5000元的月薪,如同蚂蚁雄兵般构建起大模型的基石,而另一端则是互联网大厂们的AI梦想,他们渴望借此超越ChatGPT 4。数据标注采用最原始的计件制算工资,不存在职场上的勾心斗角,但枯燥的工作让大多数人难以坚持超过3个月。几乎所有人都劝Tech星球:最好别涉足此行。
然而,他们不知道的是,不久的将来,他们中的大部分人可能会失去这份工作。因为,简单的数据标注即将被AI取代。
从5毛降至4分,价格暴跌
林双在2017年赚了一笔“快钱”:15天内收入6000多元。对于专科毕业的林双而言,这收入颇为可观。那时人们对AI寄予厚望,几乎无人怀疑其未来,所有投资机构都坚信这里能诞生十亿、百亿甚至千亿规模的企业。
几乎所有AI技术的背后都是算法、算力、数据的竞争,庞大的数据是技术优劣的基础。光鲜的程序员们坐在“北上广”的办公室里,通过代码迭代算法描绘AI蓝图,而大专生、宝妈等在三四线城市的格子间处理庞大数据包中的图片、文字、语音等。ChatGPT也不例外。一位百度文心一言项目组的员工透露,大模型本身并无新技术,技术壁垒也不高,关键是算力壁垒形成的参数壁垒。
大模型时代的数据标注员与过去并无太大区别,主要差异可能是更舒适的办公环境和更高的标注质量要求。一位数据标注从业者向Tech星球介绍,刚入行时通常会组建一个10人左右的团队,其中一人负责质检,不合格则打回重做。而数据质量决定大模型的优劣。
数据标注员并不关心AI技术的新分支,更在意单价,因为这是计件工资。“那会儿单价高时,拉一个2D框就有1毛多,我最高时一天赚了600多元”,林双回忆道。但这不是最高价,一位标注人员称,早期2D拉框价格最高达5毛钱。然而,随着涌入者增多及AI行业整体发展不顺,标注单价越来越低,林双称现在最低只有4分钱。
“如果是拉框,行业平均单价约0.15元,但要看项目。如果能接到一手单,最低要求应是100人入职员工,3D框可能达到3毛钱一个,但很少能达到5毛。”当然,具备医疗、金融专业知识的人单价更高。例如,很多医疗大模型要求标注员是临床专业且有相关经验。
大部分从业者月收入不超过5000元,但也有幸运儿。杨硕原在四川经营服装店,因疫情转型做大模型数据标注,现每月收入8000元。“我签了合同,交了9500元加盟费,合同中写明每月最低收益7000元。”
究竟谁赚到了钱
阿里、腾讯、字节等大厂及车企是数据标注业务源头。想要以最佳价格直接从源头获取订单,数据标注公司需具备一定规模。一位数据标注公司员工称,他们直接从大厂拿订单,但大厂要求有500人规模。因此选择通过加盟或子公司方式达到要求。加盟适用于初入行者组建工作室;若成立子公司则区域独家代理需缴纳5万元费用且保证订单充足并负责技术培训这些工作室或子公司组成大型工会成员数百至数千不等。上述员工表示大模型热潮再次推高数据标注行业关注度现在几乎每天都有人拜访公司。但经营数据标注公司并不容易。员工需爬坡期前期仅需5-8人稳定是首要因素但大部分标注员工因枯燥在3个月内离职新员工无法立即到岗实操导致质量和周期不稳定“缺钱的宝妈”是最爱招纳的群体。“找兼职不行会有空档期房租和电脑投入会亏钱最好全员坐班”开过工作室的魏铭介绍。大部分公司回款周期3个月起步最多半年但月付工资需一定资金储备“一人3500元100人3个月就是105万”。张建曾加入一个200多员工的工会第一年赶上爆发期2D拉框单价高达5毛赚了400多万但第二年行情急转直下单价变低员工流动性快空档期增加两大项目未结算一整年亏了300多万。“老板都说短时间内不碰数据标注”张建表示“他们正在和上游打官司”。这是利润微薄的生意海天瑞声是首家主板上市公司去年营收2.63亿元但利润仅2945万元净利润率超10%但今年上半年因客户减少陷入亏损。随时可能被替代的“螺丝钉”依靠肯尼亚工人蚂蚁搬家式积累OpenAI语言对话大模型脱颖而出这些被称为数据民工的普通人支撑起山姆奥特曼(OpenAI创始人)的AI梦但不出意外他们的大部分工作很快会被新产品取代在国外Open AI前员工于2021年成立Anthropic今年已融资51.5亿美元是其过去两年融资总额的7倍还多这家公司提供了一种新方法可在较少人工参与下训练模型今年AI初创公司refuel推出Autolabel开源工具使用主流大模型进行标注测试结果显示其效率比人工标注提高100倍成本仅为人工成本的1/7在国内视智未来公司也在打造标注大模型他们表示有些项目已用GPT交付准确率高达80%多接近人工水平不过海天瑞声认为AI不会实现完全自动化标注因为机器若持续演进更接近于人类判断和理解就需人类引导几乎所有从事过数据标注的人员都向Tech星球透露相同观点:数据标注是无门槛工作只需熟练使用电脑即可但事实上如果简单标注可用AI完成人工将参与难度更高的筛选和标准工作这也意味着行业门槛将不断提高尤其是ChatGPT、文心一言类大语言模型作为对照早在ChatGPT走红前OpenAI就组建十几位博士生“打标”而百度在海口的数据标注基地拥有数百名专职大模型数据标注师本科率达100%这类大语言模型特点是标注员需具备一定知识储备和逻辑分析能力根据《财经十一人》报道标注师需判断问题类型给5个回答分别打分并排序分数区间为0-5分若打分低于3分还需标注具体原因如“答非所问(0分)”、“严重跑题(1分)”、“存在逻辑问题存在事实性错误比例较小给2分”等数据标注另一热门领域是自动驾驶据德勤报告显示2022年自动驾驶领域标注需求占整个AI下游应用38%预计2027年比例将上涨至52%相较于大语言模型自动驾驶领域模型对简单拉框操作学历要求较为宽松标注员是人类从移动互联网时代到人工智能时代的基石Tech星球接触到的从业者大多不清楚AI将带给他们哪些改变也不知道他们为AI发展做出的贡献他们只是互联网时代的新一代螺丝钉而且随时可能被替代。(备注:文中人物均为化名。)