(画像提供:Stax公式サイト)Googleは現地時間8月27日、Google Labsにて、LLM(大規模言語モデル)などの生成AIを活用してAIサービスを自社開発する際に、AIを評価するテストツール「Stax」を発表した。
Googleによると、AIの評価は「バイブコーディング(vibe coding)」のような感覚的な判断によって行われているのが現状だという。プロンプトの微調整を繰り返すと出力が良くなったと感じられるが、実際に良くなっているかは確実に判断できない。そこで、微調整を続けることになり、「エンジニアリングというよりアートのように感じる、バイブテスト(感覚で判定するテスト)のループに巻き込まれる」ことになる。
また、こうしたバイブテストでは、同じ入力に対して出力が常に同じとは限らないため、テストの際に、データセットのラングリングや、API呼び出しの管理、出力の解析、評価パイプライン全体の構築が必要になる場合がある。
そのため、AIアプリケーションが特定のユースケースで本当に機能するかどうかを確認するには、独自のAI評価ツールが必要になる。そのAI評価ツールとして提供するのがStaxとなる。
Staxでは、AIサービス開発者が、テストケースのCSVなどをアップロードするだけで評価が可能だ。モデルやプロンプトを比較して、最も優れたパフォーマンスを発揮するものを把握したり、管理されたデータセットとカスタム評価ツールを使用して評価を行ったりできる。
また、独自の自動評価ツールを作成することもできる。例えば、自社開発したAIサービスが自社ブランドのあり方と一致しているか、独自に定めたルールに準拠しているかなどについて、独自の基準を定義し、カスタム自動評価ツールを作成できる。
Staxは試験運用版(Experiment)として「stax.withgoogle.com」で公開されており、Googleにサインインすることで利用できる。
【参考】:Stop “vibe testing” your LLMs. It's time for real evals. - Google Developers Blog
ライター