MPT-7B 是一种解码器式转换器,在 1T 英文文本和代码标记上从头开始预训练。该模型由 MosaicML 训练,并 开源用于商业用途( Apache-2.0 )。
MPT-7B 是 MosaicPretrainedTransformer (MPT) 模型系列的一部分,该模型使用为高效训练和推理而优化的改进型变压器架构。
这些架构变化包括性能优化的层实现和通过将位置嵌入替换为具有线性偏差的注意力 ( ALiBi ) 来消除上下文长度限制。由于这些修改,MPT 模型可以以高吞吐量效率和稳定收敛的方式进行训练。 MPT 模型也可以通过标准的 HuggingFace 管道和 NVIDIA 的 FasterTransformer 高效地提供服务。
该模型使用 MosaicML LLM 代码库,可在 llm-foundry 存储库 中找到。它由 MosaicML 的 NLP 团队在 MosaicML 平台 上进行训练,用于 LLM 预训练、微调和推理。
MPT-7B是
以下模型在 MPT-7B 上进行了微调:
首先,克隆这个 repo 并安装要求:
git clone https://github.com/mosaicml/llm-foundry.git cd llm-foundry pip install -e ".[gpu]" # or pip install -e . if no NVIDIA GPU
这是一个端到端的工作流程,用于准备 C4 数据集的子集、训练 10 个批次的 MPT-125M 模型、将模型转换为 HuggingFace 格式、在 Winograd 挑战中评估模型以及生成对提示的响应。
如果您有可写入的 HuggingFace 身份验证令牌,您可以选择将您的模型上传到 Hub!只需像这样导出您的令牌:
export HUGGING_FACE_HUB_TOKEN=your-auth-token
并取消注释包含 --hf_repo_for_upload ...
行。
(请记住,这是一个快速入门,只是为了演示工具——为了获得良好的质量,LLM 必须接受超过 10 个批次的训练 😄)
cd scripts # Convert C4 dataset to StreamingDataset format python data_prep/convert_dataset_hf.py \ --dataset c4 --data_subset en \ --out_root my-copy-c4 --splits train_small val_small \ --concat_tokens 2048 --tokenizer EleutherAI/gpt-neox-20b --eos_text '' # Train an MPT-125m model for 10 batches composer train/train.py \ train/yamls/mpt/125m.yaml \ data_local=my-copy-c4 \ train_loader.dataset.split=train_small \ eval_loader.dataset.split=val_small \ max_duration=10ba \ eval_interval=0 \ save_folder=mpt-125m # Convert the model to HuggingFace format python inference/convert_composer_to_hf.py \ --composer_path mpt-125m/ep0-ba10-rank0.pt \ --hf_output_path mpt-125m-hf \ --output_precision bf16 \ # --hf_repo_for_upload user-org/repo-name # Evaluate the model on Winograd python eval/eval.py \ eval/yamls/hf_eval.yaml \ icl_tasks=eval/yamls/winograd.yaml \ model_name_or_path=mpt-125m-hf # Generate responses to prompts python inference/hf_generate.py \ --name_or_path mpt-125m-hf \ --max_new_tokens 256 \ --prompts \ "The answer to life, the universe, and happiness is" \ "Here's a quick recipe for baking chocolate chip cookies: Start by"
官网