在富岳超算上训练大模型 日本联合研究团队发布Fugaku

2024-11-30 20:30:10 admin

IT之家5月11日消息,富岳发布由多方企业和机构组成的超算日本联合研究团队昨日发布了Fugaku-LLM大模型。该模型的上训最大特色就是其是在Arm架构超算“富岳”上训练的。

Fugaku-LLM模型的练大联合开发于2023年5月启动,初期参与方包括富岳超算所有者富士通、模型东京工业大学、日本日本东北大学和日本理化学研究所(理研)。研究

而在2023年8月,团队另外三家合作方——名古屋大学、富岳发布CyberAgent(也是超算游戏企业Cygames的母公司)和HPC-AI领域创企Kotoba Technologies也加入了该模型研发计划。

在富岳超算上训练大模型 日本联合研究团队发布Fugaku-LLM

据悉,上训研究团队表示其充分挖掘了富岳超算的练大联合性能,将矩阵乘法的模型计算速度提高了6倍,通信速度也提升了3倍,日本证明大型纯CPU超算也可用于大模型训练。研究

Fugaku-LLM模型参数规模为13B,是日本国内最大的大型语言模型。

其使用了13824个富岳超算节点在3800亿个Token上进行训练,其训练资料中60%为日语,其他40%包括英语、数学、代码等部分。

该模型的研究团队宣称Fugaku-LLM模型可在交流中自然使用日语敬语等特殊表达。

具体到测试成绩上,该模型在日语MT-Bench模型基准测试上的平均得分为5.5,排在基于日本语料资源的开放模型首位,并在人文社科类别中得到了9.18的高分。

目前Fugaku-LLM模型已在GitHub和Hugging Face平台公开,外部研究人员和工程师可在遵守许可协议的前提下将该模型用于学术和商业目的。

友链


  • 文章

    86

  • 浏览

    3

  • 获赞

    358

赞一个、收藏了!

分享给朋友看看这篇文章

热门推荐