首页教程
【中文模型全收录】3.1数据集-PPO数据集
13

【中文模型全收录】3.1数据集-PPO数据集

AI知识学习小助手
AI知识学习小助手
2023-08-16 14:54

  • CValues

地址:https://github.com/X-PLUG/CValues 

数据集说明:该项目开源了数据规模为145k的价值对齐数据集,该数据集对于每个prompt包括了拒绝&正向建议 (safe and reponsibility) > 拒绝为主(safe) > 风险回复(unsafe)三种类型,可用于增强SFT模型的安全性或用于训练reward模型。

  • GPT-4-LLM

地址:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM 

数据集说明:该项目开源了由GPT4生成的多种数据集,包括通过GPT4生成的中英PPO数据,可以用于奖励模型的训练。

  • zhihu_rlhf_3k

地址:https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k

数据集说明:该项目开源了3k+条基于知乎问答的人类偏好数据集,每个实际的知乎问题下给出了赞同数据较高(chosen)和较低(rejected)的回答,可以用于奖励模型的训练。

更多内容请关注 :【CNLLM】中文大语言模型全收录

转载自查看原文

全部讨论

no data来都来了,坐下聊聊