GPT-2-基于 transformer 的大型语言模型

自然语言处理神经网络/人工智能

授权协议: MIT

操作系统: 跨平台

开发语言: Python

GPT-2 是一种基于 transformer 的大型语言模型，具有 15 亿个参数，在 800 万网页数据集上进行训练。

它是论文《语言模型是无人监督的多任务学习者》（Language Models are Unsupervised Multitask
Learners）的代码实现。

目前发布了 GPT-2 的小型（117M 参数）和中型（345M
参数）版本，还没有发布更大的模型，但已经发布了一个数据集供研究人员研究行为。该存储库旨在成为研究人员和工程师尝试使用 GPT-2 的起点。

软件首页