我要编集,我要写,我要写,我要写,我要写
编辑剪贴板
6月7日的明智消息是6月4日,OpenAI(OpenAI)前超级相关成员Leopold Aschenbrenner于6月4日被Dwarkesh播客开除,声称他因与董事会共享一份安全备忘录而被OpenAI开除。
OpenAI作为一个超级同步团队的工作经验使Ashembrenner能够目睹这一技术在AI发展的最前沿的机会和风险。他6月还在自己的网站上张贴了165页的PDF文件,对AI趋势作了一个猜测。他还澄清说,他在OpenAI工作时,预测是基于公开信息、他自己的想法、一般的实地知识和工作中的流言。
在这份文件的开头,Ashembrenner向前首席科学家伊利亚·苏茨卡夫(Ilya Sutskever)和开放国际公司超级和解团队的其他成员致以特别的敬意。 在伊利亚从开放国际公司退伍到离任的几个月中,许多网民质疑:伊利亚看到了什么?也许这能让我们从顶尖的AI研究人员的角度看待AI的未来。
根据Ashembrenner的说法,AGI竞赛已经悄悄地开始了,我们很有可能能在2027年实现AGI系统。 而且,AI研究不是在人类层面停止,而是在数亿AGI的带领下进行,也许在一年之内实现自动化,在最初的10年中可以实现的算术进步,也许在2030年左右,我们将会有一个真正意义上的超级智能。
但AI系统的快速进步也将给人类带来许多挑战。 Ashembrenner认为控制超人水平的AI系统仍然是一个尚未解决的技术问题。
Ashambrenner将他的论文 " 情况认知 " 命名为 " 情况认知 ",他认为,现在世界上只有几百人有真正的人工智能发展感,主要集中在旧金山地区和全球范围内的人工智能实验室,他是其中的数百人之一,主流专家仍然认识到,人工智能只是一个 " 低字预测 ",但人工智能可能会成为远远超出互联网范围的巨大技术变革。
I. AGI极有可能在2027年没有基准测试了。
在这份PDF文件中,Ashembrenner首先预测GPT-4至AGI的发展路径,他认为,计算和算术效率是按每年0.5个数量级(一个数量级=10倍)的速度发展起来的,加上可能的技术突破释放模型性能,我们最有可能在2027年之前实现AGI,这意味着模型将完成AI研究人员或工程师的工作。
Ashambrenner对AI发展水平的估计是基于从GPT-2到GPT-4的趋势。 2019 GPT-2模式可能只是将一些合理的句子捆绑起来,但不能从1到5计算,也不能完成简单的任务。 GPT-2模式的水平可能与学龄前儿童相似。
2020 GPT-3 模式可以产生更长的模型,并完成一些基本的算术任务和语法错误,GPT-3 模式大致在小学生一级。 2年后,GPT-4 模式可以制定复杂的代码并对其进行审问,完成高中数学竞赛,击败大多数高中学生,并达到与聪明高中学生相似的水平。
然而,Ashembrenna还提到,将大赦国际的能力与人类情报能力相比较是困难和有缺陷的,但这种类比仍然有用。
仅仅十年前,深层学习系统识别简单图像的能力就是一个革命性的过程。 但今天,我们不断尝试提出新的、更严格的测试,但每一个新的基准测试都很快被打破。
过去,要打破广泛使用的基准测试需要几十年的时间,而现在只需几个月的时间。
上图显示,在一系列基准测试中,AI的绩效正在以极快的速度超过人的标准。 据Ashembrenner说,现在广泛使用的MMLU基准测试的设计者认为,测试可以经受时间测试,但三年后,GPT-4和Gemini等模型已经取得了90%的正确率,远远高于人类的绩效。
目前最困难的基线测试是类似GPQA的博士级生物、化学和物理问题测试。 但Ashembrenner估计,经过一代或两代模型后,基准测试将被放弃。
Ashembrenner认为,AI模式取得迅速进展有三个主要原因:
1. 算术增长
理性增长不仅仅是摩尔法律造成的。 即使在摩尔法律的漫长时期,算术增长增长相对缓慢,每10年约增长1-1.5个数量级。
另一方面,大赦国际研究所Epoch AI评估了2019年至2023年的算术升幅,它表明,GPT-4培训的最初计算值比GPT-2的计算值高出大约3 000倍,比10 000倍。
目前,计算能力的增长几乎是摩尔法律的五倍,这主要是因为对计算基础设施的巨额投资。 阿什姆班纳估计,到2027年底,计算能力将出现两个规模的增长。 这意味着该组将从目前的10亿美元规模增长到数千亿美元。
2. 提高算法效率
算法的进展分为两类,而算法效率的提高是 " 范式内 " 算法的改进,使我们能够以较少的计算实现同样的性能,从而相应提高总体有效计算。
这一范式中算法的改进速度几乎是不变的。 图像网络的最佳数据表明,在2012-2021年的九年期间,计算效率继续以每年0.5个数量级的速度提高。 这意味着,四年后,我们可以以目前的1%计算实现同样的效果。
然而,目前,大多数AI实验室已不再公布此类数据,因此很难衡量过去四年中在LLM(大语言模型)前列算法方面的进展。 然而,Epoch AI的最新论文估计,LLM算法效率的提高仍然与图像网络相似,图像网络每年约为0.5级。 到2027年底,模型算法效率预计将比GPT-4提高一至三级。
3. 改进示范潜力的释放
这些算法上的改进极难量化,但在过去几年里,AI行业确实在释放模型的潜力方面取得了一些改进,人类的反馈和强化学习(RLHF)大大提高了模型的效用。 根据OpenAI出版的关于教程GPT的开拓性文件,在由人类评分员评估时,RLHF模型被使用到比现在多100倍的功能上,但没有使用大型RLHF模型。
同样,两年前广泛使用的思维链技术也导致数学和推理模型的有效计算增加了10倍。 此外,工具的使用、超长背景窗口和训练后技术也导致模型的巨大改进。
目前的模式没有长期的记忆,不允许长期思维和长期内容产出,也没有足够的个性化。 据阿什伯伦纳(Ashembrenner)说,如果我们能在这些领域取得突破,那么就有可能在模型性能上取得飞跃。
但Ashembrenner强调,这些估算远非正确。 培训数据可能面临瓶颈,而且算法何时会破解也不清楚。 但我们现在正在经历快速的量化增长。
二、AI 发展不会以AGI为止,增长可能遇到四大瓶颈
Ashambrenner认为AI的进步不会停留在人类的顶层。 比如,在首先了解了人类最好的棋局之后,阿尔法戈开始自相残杀,它迅速超越了人类的层次,采取了人类无法想象的最有创意和最复杂的步骤。
一旦实现了AGI,人类将能够利用先进的AGI系统实现AI研究自动化,这可能会将人类算术进步缩短10年到不到一年。 与现有主要AI实验室的数百名研究人员和工程师相比,未来的AI实验室可能拥有数以万计的AGI系统,日复一日地工作以实现算法突破,继续自我改进并加速目前的算法进步趋势。
然而,这一增长可能存在若干瓶颈。
1. 解释限制:AI研究不仅需要良好的想法、思维或数学计算,还需要验证想法的实验,尽管AI研究是自动化的,而且已经大大加速,但这并不意味着计算将以同样的速度增长。
长尾效果:人类可能能够迅速使70%的人工智能研究自动化,但剩下的30%有可能成为瓶颈。
3. 算法进步的内在局限性:算法进步可能无法达到与过去相同的五级规模。
4. 创新的挑战越来越大:目前,AI实验室每年只需要几百名顶尖研究人员维持5级规模;但是,随着模型性能的改善,实现同样的增长范围的困难也随之增加;为了跟上与过去类似的算术进展速度,我们可能需要大量研究。
尽管存在种种可能的限制,但Ashembrenner认为我们可以在2030年左右建成一个强大的超级AI系统。 2030年前后,GPU的数量可能达到数十亿,而AGI运行的系统数量甚至可能超过人类数量。 几周后,他们可以获得相当于数十亿年人类经验的经验,并且可以高度集中地工作。
AI的激增能力将产生若干影响。 这有可能促进机器人技术的快速发展,用机器人取代工厂中的所有工人,促进经济的快速发展和其他科学研究的快速进步。
Ashambrenner认为,智能爆炸和超级情报后时期将是人类历史上最不稳定、最紧张、最危险和最疯狂的时期之一。 他认为,在这个AI技术快速发展的时期,我们没有时间做出正确的决定。 挑战将是巨大的,我们需要竭尽全力实现这一转型。
三. 激进AI投资:预计到2030年将达到8万亿美元
实现AGI是一个代价高昂的游戏,在2024年,伊韦斯塔的数据中心业务每季度达到250亿美元,即每年1 000亿美元,这意味着通过伊韦斯塔对数据中心投资100亿美元,其中不包括数据中心地点、建筑物、冷却和电力的投入。
大型技术公司也一直在大幅增加资本支出:微软和谷歌可以在资本上花费500多亿美元,而亚马逊云技术(AWS)和梅塔今年可以在资本上花费400多亿美元。 尽管并非所有这些支出都花在AI上,但由于AI的繁荣,它们的资本支出总额将在同一年增加500亿至1000亿美元。
根据Ashembrena的粗略估计,AI投资在2024年将达到1 000亿至2 000亿美元。 到2026年,年度投资将达到500亿美元,到2030年,可能达到近8万亿美元。
但AI的增长可能受到电力供应的制约。 电力预计将在2028年左右成为一个重要的制约因素。
尽管公用事业公司已经意识到AI的发展对电力需求的影响,但它们对电力需求的规模并不完全确定。 事实上,六年后,一个以万亿美元为单位的100千兆瓦计算组将需要美国目前发电量的20%左右;需求将增加几倍,加上巨大的推理能力。
此外,芯片是AI行业的一个重要部分,但可能不如电力那么有限。 AI芯片的全球产量目前只占先进发电能力的10%以下,这意味着仍然有很大的空间可以改善AI芯片的生产。
四. 当现有的调整技术正在崩溃时,如何调整超级AI系统?
目前用来指导AI系统确保AI行为符合人类价值观的技术是 " 人类对强化学习的反馈 " (RLHF ), 这是ChatGPT成功的关键。 人类评估可以支持AI系统,加强良好行为,惩罚不良行为,让AI学会遵循人类的偏好。
但随着AI系统变得更加智能,RLHF将崩溃,我们将面临不同性质的新技术挑战。 想象一个超人类水平的AI系统以它发明的新编程语言生成了百万条代码线。
AI 情报水平的升级可能导致AI系统从正常的RLHF系统迅速发展到完全崩溃的RLHF系统。 这使得我们没有多少时间进行重叠,找出和解决问题,相关研究极有可能脱轨。 但是,Ashin Brenner谨慎乐观地认为我们可以解决匹配问题并提出若干可能的研究方向:
评估比一代人容易:一份文件的撰写时间要长得多,比一份文件的质量评估要长得多。 同样,如果我们让一组专家花很多时间评估每个RLHF案例,即使AI系统比他们聪明,他们也能发现许多错失行为并提供反馈。
2. 可扩展监视:我们可以使用人工智能助理帮助人类监测其他人工智能系统。
3. 概括化:在评估问题时,有些问题超出了人类的理解范围,但我们可以研究AI系统在简单问题上的绩效,然后推广到更复杂的问题上。
解释性:如果我们能够了解AI系统的具体内容,我们就能够对AI系统进行有效的监督和协调。
Ashembrenner还提到,调整只是智能爆发增长的第一道防线,我们需要其他形式的保护。 比如,提升模型的安全性,防止其自我渗透,开发专门的监测模式,监管其他AI模型,或者有意识地限制其能力。
超级情报即将到来,人类真的准备好了吗?
在这份文件中,Ashembrenner分享了当前AI行业的一个悖论:现在每个人都在谈论AI,但很少有人知道会发生什么。 英国的Weida分析师仍然认为2024年可能是顶峰。
虽然这份文件 " 情况认知 " 在发布后迅速在互联网上引起辩论,许多在线用户同意Ashbrunner的观点,但也有人认为,他的案文中对情报的定义和计量令人困惑,判断趋势的依据不足。
也许只有时间告诉我们答案了,但阿什姆布伦纳文本中提出的问题并不是捏造的。 人类确实需要应对超级智慧可能带来的艰巨挑战。
资料来源:S I T U AT I O NA AL AWA R E N E S。
注册有任何问题请添加 微信:MVIP619 拉你进入群
打开微信扫一扫
添加客服
进入交流群
发表评论