Vicuna：与ChatGPT 性能最相匹配的开源模型

2023-08-16 大全 26 作者：考证青年

(由 2.1生成) 前言

最近由UC 、CMU、, 和 UC San Diego的研究人员创建的 -13B，通过在收集的用户共享对话数据中微调 LLaMA获得。其中使用 GPT-4 进行评估，发现-13B 的性能达到了和 Bard 的 90% 以上，同时在 90% 情况下都优于 LLaMA 和等其他模型。训练 -13B 的费用约为 300 美元。训练和代码[1]以及在线演示[2]已公开。

到底怎么样？

在官网中通过和、LLaMA、和Bard对比，然后通过GPT4当裁判来打出分数，具体如下。

问题

-13b vs

LLaMA-13b vs

Bard vs

可以看出，的回答还是非常棒的，让GPT4来打分，和是十分接近的，远远高于和LLaMA。

如果大家想试试别的问题，可以自己去尝试[3]哈。

可换不同类型的不同问题

然而，官方认为评估聊天机器人绝非易事，听过GPT4进行评估是一件十分不严格的事情，但是目前还是无法解决评估的问题，需要后续学者进行进一步探索。

图1 GPT-4 评估在线demo

可以在线品尝：。

概述

图2 工作流

图 2 介绍了整体工作流程。训练是在一天时间在 8 个 A100 上使用 FSDP 完成的。 LLaMA、、和的详细比较如表 1 所示。

表1 一些模型的对比训练

是通过使用从使用公共 API 收集的大约 7万用户共享对话微调 LLaMA 基础模型创建的。为了确保数据质量，将 HTML 转换回并过滤掉一些不合适或低质量的样本。此外，将冗长的对话分成更小的部分，以适应模型的最大上下文长度。

训练方法建立在斯坦福的基础上，并进行了以下改进。

图3 通过GPT4来评估打分

通过GPT4评估得出的总分

-13B: #-

进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。

加入星球，你将获得：

1.每日更新3-5篇最新最优质的的论文速读

2.最新入门和进阶学习资料

4.每日1-3个NLP、搜广推、CV等AI岗位招聘信息

参考资料

[1]

代码:

[2]

demo:

[3]

官方blog:

tags: 评估模型星球样本裁判

Vicuna：与ChatGPT 性能最相匹配的开源模型

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

2023结婚成家，2024借势起飞

巴纳姆效应：要明确你的思维，你才能不被忽悠

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

Vicuna：与ChatGPT 性能最相匹配的开源模型

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

李飞飞两位高徒联合指导：能看懂「多模态提示」的机器人，zero

论文笔记——Deep Residual Learning for Image R

On the Opportunities and Risks of Founda

2023结婚成家，2024借势起飞

巴纳姆效应：要明确你的思维，你才能不被忽悠

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡