你的位置：宁夏思丰电子商务有限公司 > 新闻动态 > >Llama版o1来了，来自上海AI Lab，强化学习代码已开源

热点资讯

新闻动态

Llama版o1来了，来自上海AI Lab，强化学习代码已开源

发布日期：2024-11-09 10:02 点击次数：144

梦晨发自凹非寺

量子位 | 公众号 QbitAI

复刻OpenAI o1推理大模子，开源界传来最新线路：

LLaMA版o1技俩刚刚发布，来自上海AI Lab团队。

简介中明确：使用了蒙特卡洛树搜索，Self-Play强化学习，PPO，以及AlphaGo Zero的双重战略范式（先验战略+价值评估）。

在2024年6月，o1发布之前，团队就运行探索蒙特卡洛树搜索提魁岸模子数学智力，累积了一些关爱。

此次最新开源代码，也在设立者社区引起热议。

OpenAI o1系列发布后，团队运行升级算法，专注于数学奥赛问题，当作OpenAI草莓项方针开源版块。

10月初，团队上传新论文，使用成对优化（不凯旋给出都备分数，而是比拟两个谜底的相对优劣）普及Llama模子数学奥赛智力。

在最难的AIME2024基准测试30说念题中，原版LLaMA-3.1-8B-Instruct作念对2说念，优化后作念对8说念，突出了除o1-preview和o1-mini除外的其他生意闭源决策。

10月底，团队文告在基于AlphaGo Zero架构复刻OpenAI o1的奋发中取得了紧要线路：

已得胜使模子在学习历程中通过与搜索树交互取得高等念念维智力，无需东说念主工标注。

不到一周时辰，技俩便开源了。

LLaMA版o1最新线路

当今已开源本色包括：预本质数据集、预本质模子、强化学习本质代码。

OpenLongCoT-Pretrain数据集，包含10万+条长念念维链数据。

每条数据包含一个好意思满的数常识题推理历程，包含念念考本色和评分舍弃。

举例一个几何问题，包含了问题描写、图形坐标、揣摸打算历程和论断推导等好意思满的推理链路，以及对各个推理设施的月旦和考据本色，对推理历程进行评价和指引。

在此数据集赓续预本质后，模子可读取和输出同样o1的长念念维链历程。

预本质代码尚未发布，当今推选使用LLaMaFactory代替。

故意念念的是天然技俩名为LLaMA-O1，但当今官方给的预本质模子基于谷歌Gemma 2。

当今在预本质模子基础上，不错赓续进行强化学习本质，从代码中不错看出本质历程如下：

使用蒙特卡洛树搜索进行自我对弈(self-play)以生成训诫将训诫存储在优先训诫回放缓冲区中从缓冲区采样批次数据进行本质更新模子参数和训诫优先级

论文中也给出了本质历程的图示。

同期本质代码中使用了以下关节技能点：

使用LoRA进行参数高效微调使用PPO算法当作战略优化措施竣事了GAE(Generalized Advantage Estimation)算法用于揣摸打算上风函数使用优先训诫回放普及本质成果

临了，LLaMA-O1代码发布在名为SimpleBerry的GitHub账号下，并莫得颠倒简介，还比拟玄机。

其他与SimpleBerry相关的账号和官网中，只可看出性质是一个扣问实验室，也并未显现更多扣问目的信息。

其他o1复刻技俩线路

除LLaMA-O1除外，另一个公开线路的o1复刻技俩O1-Journey来自上交大团队。

团队在十月初发布了第一份线路讲明，其中先容了改进Journey Learning范式，以选取一个得胜将搜索和学习整合到数学推理中的模子。

O1-Journey中枢设立团队主要由上交大大三、大四本科生，以及上交大GAIR实验室（生成式东说念主工智能扣问实验室）的一年龄博士生构成。

指引教师包括上交大副教养刘鹏飞，姚班学友、斯隆奖得主李远志等。

LLaMA-O1：

https://github.com/SimpleBerry/LLaMA-O1相关论文：

https://arxiv.org/abs/2406.07394https://arxiv.org/abs/2410.02884

O1-Journey：

https://github.com/GAIR-NLP/O1-Journey/

— 完 —

量子位 QbitAI · 头条号签约

关爱咱们，第一时辰获知前沿科技动态