来源:互联网2025-06-19 08:31:19 热度:

斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

AI中国网 https://www.cnaiplus.com

导读:AI未来指北特约作者|郝博阳编辑|郑可君2025年1月到5月间,斯坦福大学的研究团队完成了一项本应在AI热潮开始时就进行的调查。他们采访了1500名美国员工和52名AI专家,评估了104个职业中的844项具体任务。这项由经济学家Erik Brynjolfsson和Yijia Shao领导的研究,第一次系统地量化了一个简单却被忽视的问题:人们到底想要什么样的AI?在这844项职业任务中,研究者让员工们用1 ......

AI未来指北特约作者|郝博阳

编辑|郑可君

斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

2025年1月到5月间,斯坦福大学的研究团队完成了一项本应在AI热潮开始时就进行的调查。他们采访了1500名美国员工和52名AI专家,评估了104个职业中的844项具体任务。这项由经济学家Erik Brynjolfsson和Yijia Shao领导的研究,第一次系统地量化了一个简单却被忽视的问题:人们到底想要什么样的AI?

在这844项职业任务中,研究者让员工们用1到5分评价他们对AI自动化的渴望程度。结果呈现出一幅复杂的图景:

仅有7.11%的任务得分大于等于4分意味着员工希望大部分由AI来接管;另有6.16%的任务得分在2分以下,表明员工强烈抵触自动化。总体而言,46.1%的任务获得了3分以上的正面评价,但这个看似中性的数字掩盖了巨大的行业差异。

在计算机和数学领域,超过半数的任务受到欢迎;而在艺术、设计和媒体领域,这个比例骤降至17.1%。更关键的发现在于,当研究者将这些员工需求数据与硅谷的实际投资流向对比时,一个令人不安的错配模式浮现了出来。

需求与供给的断层斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

“需求-能力”矩阵

研究团队创造性地构建了一个“需求-能力“矩阵,基于员工的自动化意愿(Aw(t))和AI专家评估的技术可行性(Ae(t)),将所有844项任务划分为四个象限。

“自动化绿灯区“代表那些员工想要且技术可行的任务;“红灯区“则是技术可行但员工抵触的领域;“研发机会区“包含员工渴望但技术尚未成熟的任务;“低优先区“则是既无需求也无能力的任务。

通过将Y Combinator孵化的,723家AI相关公司映射到这些任务上,研究揭示了一个惊人的事实:41.0%的公司-任务映射落在了“低优先区“和“红灯区“。换言之,近一半的AI创业努力都投向了员工既不需要也不想要的方向。

具体数据更能说明问题。在“绿灯区“,平均每个任务对应117.63家YC公司;“研发机会区“是134.57家;而“低优先区“和“红灯区“分别是118.87家和134.35家。这种近乎均匀的分布表明,投资决策与实际需求之间几乎不存在相关性。

以税务准备为例。“安排客户会见“这项任务获得了员工给出的满分5.0分,意味着所有受访税务准备人员都迫切希望AI能接管这项工作。技术上,这是一个相对简单的日程管理问题。然而,专注于此类“绿灯区“任务的创业公司寥寥无几。相反,客户服务聊天机器人一个超过40%员工明确表示不需要的“红灯区“却吸引了大量投资。

研究团队获得了Anthropic提供的Claude.ai使用数据,涵盖2024年12月至2025年1月的使用情况。对比分析揭示了另一层错配:员工自动化需求最高的前10个职业(包括税务准备员、公共安全调度员、计时员等)仅占Claude.ai总使用量的1.26%。

这个数字的含义是双重的。一方面,它表明当前的AI工具可能没有触及真正需要帮助的人群;另一方面,它也暗示着巨大的未开发市场。那些每天忙于安排会见、维护文件、处理工资调整的员工们,可能根本不知道AI能够帮助他们,或者现有的AI工具并不适合他们的具体需求。

这就是典型的资源错配。

更有趣的是,学术研究显示出了与产业界不同的关注点。通过分析截至2025年4月24日arXiv上的17,064篇相关论文,研究团队筛选出1,222篇真正涉及AI智能体系统的论文。这些论文在四个任务区域的分布显示,学术界更多地关注“研发机会区“那些员工需要但技术尚未成熟的领域。

这方面,他们比产业界反而嗅觉灵敏,但也太过追求前沿。

然而,即使是学术研究也存在严重的领域集中问题。获得最多论文覆盖的三项任务全部属于“计算机和信息研究科学家“职业:应用理论专业知识和创新来创造或应用新技术(1,169篇)、分析问题以开发涉及计算机硬件和软件的解决方案(1,132篇)、执行或指导现有程序的修订、修复或扩展(1,109篇)。

就算是科学家,也更关心自己家的事情。

在工作替代这件事上,专家意见不一定能代表从业者斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

人类参与度量表

斯坦福团队的一个重要贡献是引入了“人类参与度量表“(Human Agency Scale, HAS)。这个从H1到H5的五级量表,量化了从“AI完全自主“到“人类完全主导“的不同协作模式。

斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

HAS的分布揭示了不同职业中人工智能体整合的多样化格局

数据显示,在104个被研究的职业中,有47个(45.2%)将H3级“人机平等伙伴关系“作为最受欢迎的模式。只有2个职业(1.9%)偏好H1级的完全自动化,1个职业(1.0%)坚持H5级的人类完全主导。356%的职业倾向于H2级(AI主导但需要关键人类输入),16.3%选择H4级(人类主导但AI辅助)。

更引人深思的是员工期望与专家评估之间的系统性偏差。在844项任务中,仅有26.9%在两个群体间获得了相同的HAS评级。在剩余的任务中,47.5%显示员工期望的人类参与度高于专家认为技术所需的水平,25.6%则相反。

通过计算两个分布之间的距离,研究识别出员工的意见和专家意见分歧最大的职业。电力调度员以0.830的JSD值位居榜首,其次是医疗转录员(0.675)和证券销售代理(0.615)。这些职业的共同特点是,AI专家认为许多任务已可实现H1级自动化,但从业者坚持需要更高的人类参与。

这再次显示出了具体领域中的某些复杂细节可能与专家评估的简单流程化操作完全不同。按照专家的思路走,这些AI初创公司很可能会掉进复杂细节,难以统一化的泥潭。

艺术、设计和媒体领域算是从业者抵抗AI入侵的最前沿了。在该领域的所有任务中,只有17.1%获得了超过3分的自动化意愿评分。具体来看,“编辑:撰写故事、文章、社论或通讯“的平均得分仅为1.60分;“平面设计师:基于布局原则和美学设计概念创建设计、概念和样本布局“得分1.78;“制片人和导演:剪辑电影或录像带“得分1.75。

他们也有足够的理由。通过分析1500份音频访谈记录,研究团队使用LLM辅助的主题建模技术提取了员工们的核心关切。在被问及“你如何设想在日常工作中使用AI“时,28.0%的受访者表达了某种形式的担忧或负面情绪。

这些担忧可以归纳为三大类:45.0%的人不信任AI系统的准确性、能力或可靠性;23.0%担心工作被取代;16.3%认为AI缺乏人类特质或能力。

一位拥有6-10年经验的艺术总监的表述颇具代表性:“我想要它用于无缝地优化工作流程,让事情变得不那么重复、乏味和艰苦。不要内容创作。“另一位3-5年经验的艺术总监说得更直接:“我绝不会用AI来取代艺术家。“

但好莱坞可能有别的想法,最后市场会验证到底哪边更对。

数据背后的深层逻辑

斯坦福最新研究:硅谷的AI创业潮,其实是一场大型的资源错配

基于薪资均值与人类自主性需求的技能排行对比

研究通过统计分析揭示了一些深层模式。员工的自动化需求(Aw(t))与其对失业的担忧呈显著负相关,与工作享受度的相关性更强。这意味着员工们想要自动化的,恰恰是那些他们不享受且不太担心会因此失业的任务。

更深入的分析显示,拥有博士学位的员工比本科学历者对自动化的需求高0.236分;工作经验超过10年的人比1-2年经验者的需求高22.9%;强烈同意“AI能减轻繁琐工作“的人比中立者的自动化需求高0.685分。

这既显示出了人们对AI的诉求,即利用它们去除繁琐的工作,专注更多有价值的高级事物。也在另一方面显示出,教育、经验对于AI时代的工作者而言可能更为重要,他们能更好的确认什么是重复、缺乏创新的部分,去发挥AI更大的作用。

那去除掉繁琐工作之后,人们工作和技能发展的中心可能会转移到哪里去呢?

研究通过将任务映射到O*NET数据库定义的27项通用工作活动,研究揭示了AI可能如何重塑职场技能的价值体系。研究者计算了每项技能相关任务的平均工资(基于美国劳工统计局2024年5月数据)和平均所需人类参与度。

结果显示了一种深刻的价值倒置。“分析数据或信息“目前平均工资最高的技能在需要高人类参与度的任务中排名仅第17位。

AI中国网 https://www.cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容