这个项目是基于GPT Decoder-only架构的大规模预训练模型名为BigBang Transformer[乾元]。它的核心优势包括:
– 开源:模型开源后所有开发者可以直接调用大模型进行对话、在训练的基础上使用自由语料库继续训练、对大模型进行微调训练以满足各种下游任务。
– 大规模:BBT-2-12B-Text基于中文700亿tokens进行预训练BBT-2.5-13B-Text基于中文+英文2000亿tokens进行预训练。
– 多数据源:预训练语料库覆盖14个高质量数据源覆盖书籍、百科、论文、小说、新闻、政策文件、中文博客、社交媒体等多个数据源种类。
– 高性能:BBT-2-12B-Text经过指令微调的BBT-2基础模型可以回答百科类和日常生活的问题。
应用场景包括:
– 对话系统:可以直接调用大模型进行对话。
– 自然语言处理:在通用模型上继续训练或进行下游任务微调。
– 金融领域:BBT-1-0.2B是2亿参数金融模型包括三个不同预训练方式进行训练的模型训了600亿Tokens。
相关项目包括:
– BBT-1-0.2B:2亿参数金融模型包括三个不同预训练方式进行训练的模型训了600亿Tokens。
– BBT-1-1B:10亿参数金融模型T5 Encoder+Decoder架构使用金融中文语料库1000亿tokens进行预训练包含社交媒体财经新闻券商研报公司公告财报等数据。
– BBT-2-12B-Text:120亿参数基础模型GPT Decoder-Only架构未经指令微调完成700亿中文tokens预训练模型性能还有较大提升空间开发者可在通用模型上继续训练或进行下游任务微调。
– BBT-2.5-13B-Text:130亿参数基础模型GPT Decoder-Only架构未经指令微调完成2000亿中文+英文tokens预训练。