Google、自社開発のAIサービスを評価するAIテストツール「Stax」を発表

thumb_stax(画像提供:Stax公式サイト)

Googleは現地時間8月27日、Google Labsにて、LLM(大規模言語モデル)などの生成AIを活用してAIサービスを自社開発する際に、AIを評価するテストツール「Stax」を発表した。

Googleによると、AIの評価は「バイブコーディング(vibe coding)」のような感覚的な判断によって行われているのが現状だという。プロンプトの微調整を繰り返すと出力が良くなったと感じられるが、実際に良くなっているかは確実に判断できない。そこで、微調整を続けることになり、「エンジニアリングというよりアートのように感じる、バイブテスト(感覚で判定するテスト)のループに巻き込まれる」ことになる。

また、こうしたバイブテストでは、同じ入力に対して出力が常に同じとは限らないため、テストの際に、データセットのラングリングや、API呼び出しの管理、出力の解析、評価パイプライン全体の構築が必要になる場合がある。

そのため、AIアプリケーションが特定のユースケースで本当に機能するかどうかを確認するには、独自のAI評価ツールが必要になる。そのAI評価ツールとして提供するのがStaxとなる。

Staxでは、AIサービス開発者が、テストケースのCSVなどをアップロードするだけで評価が可能だ。モデルやプロンプトを比較して、最も優れたパフォーマンスを発揮するものを把握したり、管理されたデータセットとカスタム評価ツールを使用して評価を行ったりできる。

また、独自の自動評価ツールを作成することもできる。例えば、自社開発したAIサービスが自社ブランドのあり方と一致しているか、独自に定めたルールに準拠しているかなどについて、独自の基準を定義し、カスタム自動評価ツールを作成できる。

Staxは試験運用版(Experiment)として「stax.withgoogle.com」で公開されており、Googleにサインインすることで利用できる。

【参考】:Stop “vibe testing” your LLMs. It's time for real evals. - Google Developers Blog

【参考】:Stax - The complete toolkit for AI evaluation

ライター

齋藤 公二 (さいとう こうじ)
インサイト合同会社 代表社員 ライター&編集 コンピュータ誌、Webメディアの記者、編集者を経て、コンテンツ制作会社のインサイト合同会社を設立。エンタープライズITを中心とした記事の執筆、編集に従事する。IT業界以前は、週刊誌や月刊誌で、事件、芸能、企業・経済、政治、スポーツなどの取材活動に取り組んだ。
齋藤 公二の記事一覧を見る