AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B

35小吃技术网 推荐阅读 2023年10月04日06时54分56秒 101 0

IT之家6月25日消息,AI初创公司近期发布了其语言模型MPT-30B,该模型拥有300亿个参数,训练成本“仅为其他同类竞争模型的一小部分”,有望推动业界逐步降低此类模型训练的成本,拓展了AI模型在更广泛领域的应用。

▲ 图片来源

AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B-第1张图片

该公司CEO兼联合创始人Rao表示,MPT-30B的培训成本为70万美元(约502.44万元人民币),远低于GPT-3等同类产品所需的数千万美元。 此外,由于MPT-30B成本较低、体积较小,也可以更快地训练,更适合部署在本地硬件上。

据悉,利用Alibi和技术优化模型可以实现更长的文本长度和更高的GPU计算利用率。 也是少数能够使用H100 GPU的实验室之一。 与之前的成果相网比,当前每个GPU的吞吐量增加了2.4倍以上,可以带来更快的完成时间。

除了让人工智能技术更容易使用之外,还重点关注提高数据质量和提高模型性能。 他们目前正在网开发一种工具,帮助用户在预训练期间对特定领域的数据进行分层,以确保训练期间的多样化和高质量的数据组合。

AI 公司 MosaicML 推出 300 亿参数模型 MPT-30B-第2张图片

该公司表示,将模型扩展到300亿个参数只是第一步,接下来他们将在降低成本的前提下推出更大、更高质量的模型。

IT之家注意到,网开发者可以从 Face 上下载并使用开源的 MPT-30B 基础模型,开发者还可以利用自己在本地硬件上的数据对模型进行微调。