フューチャー、日本語530万件を含むLLM向けインストラクションチューニングデータを無償公開 - アンドエンジニア

（画像提供フューチャー株式会社）

フューチャーは9月2日、生成AIのソフトウェア開発で活用できる大規模な日本語インストラクションチューニング(Instruction-Tuning)データを無償公開した。

インストラクションチューニングデータは、LLM(大規模言語モデル)のファインチューニング手法の1つで指示(Instruction)と回答のデータセットを学習することで精度を上げるもの。通常、こうしたデータ構築には多額のコストがかかるため、一般公開されている学習用データセットは少なく、日本語に特化したソフトウェアに関するインストラクションチューニングデータの数も限られていたという。

今回公開したのは、シングルターンの日本語530万件、英語610万件、マルチターンの英語85万件のデータセットで、日本語インストラクションチューニングデータでは世界最大規模になるという。LLM(大規模言語モデル)と日本語によるソフトウェア開発領域の研究に活用できる。

フューチャーは、2024年10月に経済産業省とNEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)が実施する国内生成AIの開発力強化プロジェクト「GENIAC（Generative AI Accelerator Challenge）」に採択され「日本語とソフトウェア開発に特化した基盤モデル」の研究開発を行ってきた。

今回公開したインストラクションチューニングデータは、このプロジェクトの研究過程においてベンチマークとしたLLMをもとに自動生成したものとなる。

また、フューチャーによると、今回のインストラクションチューニングデータを活用して、GENIACのプロジェクトで開発した「Llama 3.1 Future Code Ja」は、様々なプログラミング言語において比較対象となるベースモデルに対し、高い生成能力を実現し、特に日本語の指示によるソースコード補完能力に優れていることも確認したという。

img_future_01