AI模型 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Wed, 09 Apr 2025 12:04:48 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 斯坦福:2025 AI Index报告 中美AI模型差距缩小至0.7% //www.otias-ub.com/archives/1749586.html Wed, 09 Apr 2025 12:04:48 +0000 //www.otias-ub.com/?p=1749586 中美AI模型差距正在缩小。

由李飞飞联合领导,斯坦福大学以人为本人工智能研究所(HAI)最新发布了2025 AI Index,用整整456页追踪了2024年全球AI行业的发展趋势,并得出了这样的结论。

至今,HAI已发布了8份(含本次)AI年度报告,不过今年的这份却尤为特殊。

这是我们迄今为止最全面的版本,人工智能对社会的影响从未如此明显。

虽然报告信息量爆炸,但手快的网友已经提前为大家划了重点:

AI推理成本降低了280倍开源模型正在迎头赶上AI基准测试成绩飙升……

话不多说,下面我们详细展开报告中提到的一些重要结论。

中美AI模型差距正在缩小

从官网消息来看,鉴于报告内容较多,HAI直接为大家挑出了其中最重要的12个结论。

我们先来看与国内最相关的部分。

中美AI模型差距正在缩小

首先就是AI模型方面,中国模型虽然数量不及美国,但质量方面已迅速缩小差距。

报告显示,2024年美国机构一共开发了40个值得关注的AI模型,远高于中国开发的15个和欧洲的3个。

不过,中美模型之间的性能差异正在快速缩小。具体表现为,在MMLU和HumanEval等主要基准测试上,二者的性能差异由2023年的两位数缩小到2024年的接近相等。

同时,从中美模型过去一年在大模型竞技场中的表现也能看出这一追赶趋势:

当然,这一性能差距正在缩小的趋势也不局限于中美之间。

报告提到,排名第一和第十的模型之间的得分差距在一年内从11.9%降至5.4%,排名前两位的差距现在仅为 0.7%。

也就是说,顶尖模型之间的竞争越来越激烈。

顺带一提,国内在发表AI论文和推出AI专利方面继续保持领先地位。

中国是对AI最乐观的国家

其次是在对AI的态度方面,中国始终是全球主要国家和地区中最乐观的。

报告显示,2024年中国有83%的人认为AI产品和服务利大于弊,排在后面的是印度尼西亚(80%)和泰国(77%)。

相比之下,美国(39%)、加拿大(40%)等的乐观情绪远低于国内。

不过从整体趋势来看,自2022年以来,几个之前对AI持怀疑态度的国家乐观情绪增长显著,比如美国(+4%)、加拿大(+8%)、法国(+10%)等等。

除了以上两点,还有一些AI整体趋势变化也值得关注。

AI基准测试成绩飙升,表现逐渐接近人类

一个比较符合大家日常感受的结论是:AI模型在各大基准测试上的得分越来越高了。

报告显示,研究人员在2023年引入了一些如今大家已耳熟能详的基准——MMMU、GPQA和SWE-bench,以此测试更高级AI模型的能力极限。

然而仅仅一年之后,从测试得分来看,其性能呈现大幅提升趋势,分别在MMMU、GPQA和SWE-bench上提高了18.8、48.9和67.3个百分点。

从整体趋势来看,AI各大能力表现逐渐接近人类,甚至在某些场景下,智能体能在限时编程任务中超越人类。

推理成本下降了280倍,开源模型正在迎头赶上

另一个符合大家印象的趋势是:AI正变得更加高效、经济实惠和易于获取。

过去两年间,追求更具性价比的小模型逐渐成为一股潮流。

比如报告中提到的,在MMLU中得分超过60%的小模型:

数据显示,由越来越强大的小模型驱动,对于性能达到GPT-3.5水平的系统的推理成本,在2022年11月到2024年10月间下降了280倍。

遗憾的是,复杂推理仍然面临挑战。

截至目前,AI模型在国际数学奥林匹克竞赛问题等任务中表现出色,但仍无法很好应对PlanBench等复杂推理基准测试。

不过与此同时,开源模型也在缩小与闭源模型的差距。

报告中特意提到,在某些基准测试中,它们一年内的性能差异就从8%减少到仅1.7%。

另外在硬件层面,成本每年下降30%,而能效每年提高40%。

以上趋势共同降低了人们获取高级AI的门槛。

AI正在融入日常生活,企业投资增长强劲

正是由于AI获取门槛降低,我们的日常生活也逐渐被AI改写。

报告显示,从医疗保健到交通运输,AI正迅速从实验室走向日常生活。

比如2023年,美国FDA批准了223种AI医疗设备,而2015年仅为6种。

另外在自动驾驶方面,美国最大的运营商之一Waymo每周提供超过15万次自动驾驶出行,而百度的经济型“萝卜快跑” (Apollo Go)自动驾驶出租车车队现在已在中国多个城市提供服务。

整体而言,AI的应用落地正在加速。

2024年,有78%的组织报告自己正在使用AI,这比前一年增长了55%。

当然,以上服务也离不开企业对AI的大力投资。

报告显示,2024年美国对AI的投资为1091亿美元,这几乎是中国(93亿美元)的12倍和英国(45亿美元)的24倍。

其中生成式AI尤其强劲,吸引了全球私营投资339亿美元,这一数字比2023年增长了18.7%。

BTW,除了上述主要结论,报告还提到了:

各国政府正在加强对AI的监管和投资;负责任的AI生态系统正在不断发展,但不均衡;目前有2/3的国家提供或计划提供K-12计算机科学教育(数量是2019年的两倍),其中非洲和拉丁美洲的进步最大;2024年近90%的知名AI模型来自工业界,高于前一年的60%。

自 量子位
]]>
斯坦福大学:2025年全球AI竞争格局显示中美差距缩小至0.3% //www.otias-ub.com/archives/1749415.html Tue, 08 Apr 2025 12:50:47 +0000 //www.otias-ub.com/?p=1749415 近日,Nature发文,斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》显示,人工智能领域的竞争日益激烈:中国高性能AI模型的数量和质量不断提升,对美国的领先地位构成挑战,顶级模型之间的性能差距正在缩小。

美国此前在模型质量方面的领先优势已经消失。中国是人工智能出版物和专利产出最多的国家,如今其开发的模型在性能上已经与美国的竞争对手不相上下。2023年,在大规模多任务语言理解测试(MMLU)中,中国领先的模型落后于美国顶级模型近20个百分点。然而,到2024年底,美国的领先优势缩小到了0.3个百分点。

 

世界各顶级AI模型之间性能已无太大差距

该报告强调,随着人工智能的快速持续发展,没有一家公司能够脱颖而出。在聊天机器人竞技场排行榜上,2024年初排名第一的模型比排名第十的模型得分高出约12%,但到2025年初,这一差距缩小到了5%。报告称:“前沿领域的竞争越来越激烈,也越来越拥挤。”

该指数显示,通过使用更多决策变量、更强的计算能力和更大的训练数据集,生成式人工智能模型平均而言仍在变得更“大”。但开发人员也在证明,更小、更精简的模型也能有出色的表现。由于算法的改进,如今的模型性能与两年前规模大100倍的模型性能齐平。该指数称:“2024年是小型人工智能模型的突破之年。”

纽约伊萨卡康奈尔大学的计算机科学家巴特・塞尔曼表示,很高兴看到像中国的DeepSeek这样相对小型、低成本的研究成果证明了自己的竞争力。他说:“我预计我们会看到一些由五人甚至两人组成的独立团队,他们会提出一些新的算法想法,从而改变现状。这很好。我们不希望世界只由一些大公司掌控。”

报告显示,如今绝大多数强大的人工智能模型是由工业界而非学术界开发的:这与21世纪初神经网络和生成式人工智能尚未兴起情况正好相反。报告称,2006年之前,工业界开发的著名人工智能模型不到20%,2023年这一比例为60%,2024年则接近90%。

美国仍然是强大模型的最大生产国,2024年发布了40个模型,中国发布了15个,欧洲发布了3个。但许多其他地区也在加入这场竞赛,包括中东、拉丁美洲和东南亚。

塞尔曼说:“2015年左右,中国走上了成为人工智能领域顶尖参与者的道路,他们通过教育投资实现了这一目标。我们看到这开始有了回报。”

AI领域还出现了“开放权重”模型在数量和性能上的惊人增长,如DeepSeek和Meta的LLaMa。用户可以自由查看这些模型在训练过程中学习到的并用于预测的参数,不过其他细节,如训练代码,可能仍保密。最初,不公开这些因素的封闭系统明显更优越,但到2024年初,这些类别中顶级竞争者之间的性能差距缩小到了8%,到2025年初则缩小到了1.7%。

加利福尼亚州门洛帕克的非营利性研究机构SRI的计算机科学家、该报告的联合主任雷・佩罗特说:“这对任何无力从头构建模型的人来说肯定是好事,包括许多小公司和学者。”OpenAI计划在未来几个月内发布一个开放权重模型。

2022 年ChatGPT公开推出后,开发人员将大部分精力投入到通过扩大模型规模来提升系统性能上。该指数报告称,这一趋势仍在继续:训练一个典型的领先人工智能模型所消耗的能源目前每年翻一番;每个模型使用的计算资源每五个月翻一番;训练数据集的规模每八个月翻一番。

然而,各公司也在发布性能非常出色的小型模型。例如,2022年在MMLU上得分超过60%的最小模型使用了5400亿个参数;到2024年,一个模型仅用38亿个参数就达到了相同的分数。小型模型比大型模型训练速度更快、回答问题更迅速,且能耗更低。佩罗特说:“这对各方面都有帮助。”

塞尔曼说,一些小型模型可以模仿大型模型的行为,或者利用比旧系统更好的算法和硬件。该指数报告称,人工智能系统使用的硬件的平均能源效率每年提高约40%。由于这些进步,在MMLU上得分超过60%的成本大幅下降,从2022年11月的每百万个token约20美元降至 2024年10月的每百万个token约7美分。

尽管在几项常见的基准测试中取得了显著进步,但该指数强调,生成式人工智能仍然存在一些问题,如隐性偏见和“幻觉”倾向,即吐出虚假信息。塞尔曼说:“它们在很多方面给我留下了深刻印象,但在其他方面也让我感到恐惧。它们在犯一些非常基本的错误方面让我感到惊讶。”

]]>
麻省理工学院研发AI模型可从会话方式诊断抑郁症 //www.otias-ub.com/archives/767679.html Sun, 02 Sep 2018 14:19:52 +0000 //www.otias-ub.com/?p=767679 医生诊断抑郁症通常会问病人一些具体的问题,比如情绪、精神疾病、生活方式和个人病史等,然后根据做出的答案进行诊断。如今,麻省理工学院(MIT)的研究人员建立了一个人工智能模型,可以在不需要回答这些特定问题的情况下,根据人们的自然会话和写作风格来判断他们是否患有抑郁。

据该项目的首席研究员图卡·阿尔哈奈说,“一个人是快乐的、兴奋的、悲伤的,或者有一些严重的认知状况,比如抑郁,我们得到的第一个暗示就是通过他们的语言。如果要想部署抑郁检测模型……希望对正在使用的数据进行最小化约束,那就尝试在任何常规的对话中使用它,让模型从自然的交互中获得个体的状态。”

研究人员将这种模型称为“上下文无关”,因为在可以被问的问题类型或将被查找的响应类型中没有约束。研究人员使用一种被称为序列建模的技术,从与抑郁者和非抑郁者的对话中输入模型文本和音频。随着序列的累积,模式就出现了,比如“sad”或“down”等词的自然使用,以及更平更单调的音频信号。

阿尔哈奈说:“这个模型能观察到一系列的词汇或说话方式,并确定这些模式更可能出现在抑郁或不抑郁的人身上。”“然后,如果它在新受试者身上看到同样的序列,就能预测他们是否也会抑郁。”在测试中,该模型识别抑郁症的成功率达到77%,超过了几乎所有其他模型——其中大多数依赖于高度结构化的问题和答案。

研究团队称,这个模型是将成为临床医生的一个有用的工具,因为每个病人说话都不一样。“如果模型看到了变化,也许它会成为医生诊断的证据,”共同研究员詹姆斯·格拉斯说。“在未来,该模型还可以为移动应用程序提供动力,这些应用程序可以监控用户的文本和语音,以备精神困扰,并发送警报。这对于那些由于距离、费用或缺乏对可能出现问题的认识而无法找到临床医生进行初步诊断的人来说尤其有用。”

研究人员还打算在更多患有其他认知疾病(如痴呆症)的受试者身上测试这些方法。阿尔哈奈说:“这并不是检测抑郁症,而是一个类似的概念,从日常语音信号来判断一个人是否有认知障碍。”

]]>