首页 >> 大全

Vicuna:与ChatGPT 性能最相匹配的开源模型

2023-08-16 大全 26 作者:考证青年

(由 2.1生成) 前言

最近由UC 、CMU、, 和 UC San Diego的研究人员创建的 -13B,通过在 收集的用户共享对话数据中微调 LLaMA获得。其中使用 GPT-4 进行评估,发现-13B 的性能达到了 和 Bard 的 90% 以上,同时在 90% 情况下都优于 LLaMA 和 等其他模型。训练 -13B 的费用约为 300 美元。训练和代码[1]以及在线演示[2]已公开。

到底怎么样?

在官网中通过和、LLaMA、和Bard对比,然后通过GPT4当裁判来打出分数,具体如下。

问题

-13b vs

LLaMA-13b vs

vs

Bard vs

可以看出,的回答还是非常棒的,让GPT4来打分,和是十分接近的,远远高于和LLaMA。

如果大家想试试别的问题,可以自己去尝试[3]哈。

可换不同类型的不同问题

然而,官方认为评估聊天机器人绝非易事,听过GPT4进行评估是一件十分不严格的事情,但是目前还是无法解决评估的问题,需要后续学者进行进一步探索。

图1 GPT-4 评估 在线demo

可以在线品尝:。

概述

图2 工作流

图 2 介绍了整体工作流程。训练是在一天时间在 8 个 A100 上使用 FSDP 完成的。 LLaMA、、 和 的详细比较如表 1 所示。

表1 一些模型的对比 训练

是通过使用从 使用公共 API 收集的大约 7万 用户共享对话微调 LLaMA 基础模型创建的。为了确保数据质量,将 HTML 转换回 并过滤掉一些不合适或低质量的样本。此外,将冗长的对话分成更小的部分,以适应模型的最大上下文长度。

训练方法建立在斯坦福的基础上,并进行了以下改进。

图3 通过GPT4来评估打分

通过GPT4评估得出的总分

:

-13B: #-

进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。

加入星球,你将获得:

1.每日更新3-5篇最新最优质的的论文速读

2.最新入门和进阶学习资料

4.每日1-3个NLP、搜广推、CV等AI岗位招聘信息

参考资料

[1]

代码:

[2]

demo:

[3]

官方blog:

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了