首页AI 新闻
复旦版 ChatGPT开源了!160亿参数,MOSS 新增多项新能力

复旦版 ChatGPT开源了!160亿参数,MOSS 新增多项新能力

好说新闻
好说新闻
2023-04-22 13:08

今年2月份,我们曾报道了复旦大学推出中国版ChatGPT的消息,引起广泛关注。在当时,邱锡鹏教授就曾表示会在4月开源Moss。在昨天,开源版 Moss 终于和我们见面了。

MOSS 是一个支持中英双语和多种插件的开源对话语言模型,但参数数量比ChatGPT少得多。在v0.0.2之后,团队持续对其进行调整,推出了MOSS v0.0.3,目前开源的版本也正式这个版本。

相比于早期版本,功能也实现了多项更新。

最初的测试中,MOSS 的基础功能与 ChatGPT 类似,可以按照用户输入的指令完成各类自然语言处理任务,包括文本生成、文本摘要、翻译、代码生成、闲聊等等。在开放内测后,团队继续加大中文语料的预训练:

「截止目前,MOSS 003的基座语言模型已经在100B中文token上进行了训练,总训练token数量达到700B,其中还包含约300B代码。」
在开放内测后,我们也收集了一些用户数据,我们发现真实中文世界的用户意图和OpenAI InstructGPT论文中披露的user prompt分布有较大差异(这不仅与用户来自的国家差异有关,也跟产品上线时间有关,早期产品采集的数据中存在大量对抗性和测试性输入),于是我们以这部分真实数据作为seed重新生成了约110万常规对话数据,涵盖更细粒度的helpfulness数据和更广泛的harmlessness数据。

目前,团队已将moss-moon-003-base、moss-moon-003-sft、moss-moon-003-sft-plugin三个模型上传到 HuggingFace。而在后续,还会有三个模型将会开源。

根据项目主页介绍,moss-moon 系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行。

插件增强显神通,MOSS有了新能力

在MOSS v0.0.3中,团队构造了约30万插件增强的对话数据,包含搜索引擎、文生图、计算器、方程求解等,为 MOSS 带来了不少新能力。关于插件版MOSS该如何使用,团队后续将在GitHub公布。

那么,我们先一睹为快,到底有哪些插件能力将带我们挖掘:

调用搜索引擎的能力:

调用方程求解器的能力:

从文本生成图片的能力:

关于插件能力,项目作者孙天祥补充说,MOSS 003支持启用插件的能力是通过meta instruction 来控制,类似gpt-3.5-turbo里的system prompt。

「因为是模型控制的,所以并不能保证100%控制率,以及还存在一些多选插件时调用不准、插件互相打架的缺陷,我们正在尽快开发新的模型来缓解这些问题。」

如何安装

下载 MOSS.git 仓库内容至本地/远程服务器:

git clone https://github.com/OpenLMLab/MOSS.git cd MOSS

创建conda环境:

conda create --name moss python=3.8 conda activate moss

安装依赖:

pip install -r requirements.txt

注意:torch和transformers版本不建议低于推荐版本。

根据协议,开源版 MOSS 可用于商业用途:

目前,已有开发者根据开源内容进行创新,例如通过VideoChat来尝试视频问答。

大家可以通过这个网址进行体验。

VideoChat是一款多功能视频问答工具,结合了动作识别、视觉字幕和StableLM的功能。该工具可为视频中的任何对象和动作生成密集的描述性字幕,提供一系列语言风格以满足不同的用户偏好。它支持用户进行不同长度、情绪、语言真实性的对话。

参考链接:

MOSS 项目地址:https://github.com/OpenLMLab/MOSS

video_chat_with_MOSS 项目地址:https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat_with_MOSS

全部讨论

no data来都来了,坐下聊聊