据了解,自 Meta 在 2022 年 5 月宣布大语言模型 OPT-175B 以来,已收到全球超过 4500 名个人和机构的访问请求。
OPT-175B 是首个供研究界免费使用的同类模型,这为加速 AI 领域的工作提供了重要的新工具,并有助于最终创建更安全、更有用和更强大的语言生成系统。
大语言模型一般指参数超千亿的自然语言处理(NLP,Natural Language Processing)系统。该类模型在近几年对 NLP 和 AI 等领域研究带来了深刻影响。
在接受大量文本信息的训练后,语言模型可具备内容生成与总结、解答科学问题等多方面能力。
(来源:Meta)
在大语言模型的利用上,公众有时可通过付费 API(Application Programming Interface,应用程序编程接口)的方式,但很难拥有完整的研究访问权限。
如果不能直接获得这些模型,将在很大程度上制约研究人员理解大语言模型的运行机制。同时,会阻碍模型稳健性等的提升,也不利于解决 AI 系统可能会输出偏见和有害内容等问题。
因此,为让更多的社区参与进来,Meta 开放了其 1750 亿参数的 OPT-175B。
OPT 指的是开放式预训练变换(Open Pretrained Transformer)。Meta 对外表示:“为了保持完整性并防止滥用,我们将在非商业许可下发布我们的模型,以专注于研究用例。OPT-175B 的访问权限将授予学术研究人员和隶属于政府、民间社会和学术界组织的人员,以及世界各地的工业研究实验室。”
据悉,截至当地 7 月 26 日,Meta 已授予 49 个不同国家和地区的 668 个实体访问权限,其中包括约 300 所大学和 80 个行业研究实验室。
研究人员的请求主要集中在以下任务上:科学问答、涉及临床仓库数据的分类和预测、在数理逻辑中的应用:引理和定理的证明、实用量子物理研究新思路的启示、在线平台的审核、量子“游戏”的产生(交互式证明系统)、生成蛋白质设计、低资源翻译、通过语言界面对其他模式的可解释性、调查访谈研究中的偏差分析。
Meta 在其发布的博文中表示:“我们对 OPT-175B 的初步反应感到兴奋,并期待看到该模型如何帮助推进这些不同研究领域的工作。”
值得一提的是,Meta 不仅发布了模型权重和代码,还发布了他们的注释和详细说明训练过程的完整日志。
通过提供有价值的幕后研究,该公司希望这些额外的资源可以帮助 NPL 领域的新人,了解已发表论文中不容易捕获的实施细节。这也允许其他研究人员能更便捷地进行模型构建。
此外,这些训练过程的完整日志还体现了模型背后的计算量和人工成本等。Meta 在还发布了 OPT-175B 参数较少的版本,包括“1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿”等参数版本。
虽然大语言模型有很多令人兴奋的功能,并会促进多方面研究的进步,但它们目前还是存在一定局限性和风险,仍有不少问题需要处理。这不能只靠少数有实力和足够资金的实验室来解决。而 OPT-175B 或提升大语言模型的开放度,为该领域带来更多前沿发展。
Meta 在博文中还提到,采用逐步推出对 OPT-175B 的初始访问的方法,是为了有条不紊地扩大对更广泛研究社区的访问,以便更好地定义语言模型的风险、局限性和适当的应用。
随着从研究人员那里获得的反馈,此策略将进一步完善,之后会考虑将访问权限扩展到研究用例之外。
值得一提的是,Meta 还与第三方组织合作,以建立有关何时及如何发布这些模型的全行业规范。
在博文中,Meta 表示:“整个 AI 社区——学术研究人员、公民社会、政策制定者和行业——必须共同努力为构建负责任的 AI,特别是负责任的大语言模型制定明确的指导方针。”
值得注意的是,Meta 在对外公开信息中还提到“负责任的计算”。其表示,AI 研究会需要大量的计算,这会产生难以计量的碳足迹。虽然有些机构已着手评估模型的碳足迹,但它们很少将研发阶段也考虑在内。而该阶段相比模型训练的过程,所耗费的能源或要高一个数量级。
Meta 告诉媒体:“由于考虑到了能源效率,我们在开发 OPT-175B 时产生的碳足迹,只相当于OpenAI 研发的同级别模型 GPT-3 的 1/7。”
最后,该公司还认为,大语言模型要想向前发展,需要科学界开展更为广泛的合作,以有效探索它们的发展潜力和相应缺陷。此前 Meta 已经拥有一些开放科学项目,比如“图像相似性挑战”“深伪检测挑战”“可恶的模因挑战”等。这种跨机构的合作对 AI 的负责任发展同样有重要意义。
参考资料:
https://ai.facebook.com/blog/opt-175b-large-language-model-applications/
https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
https://partnershiponai.org/resource/recommendations-in-practice-meta-researchers-apply-pai-guidance/