AI News Briefing の Arena Snapshot で扱う5カテゴリ Text/Vision/WebDev/Code/Image について、それぞれが「何を測っているのか」「どの業務に効くのか」を、業務の現場目線でまとめました。リーダーボードの順位が、ご自身の仕事のどこに紐づくのかを判断する材料としてご活用ください。
Arena(旧 LMArena / さらに前身は Chatbot Arena)は、AIモデルの実力を 人間の比較投票 によって順位付けする世界最大級のリーダーボードです。同じ質問を2つのモデルに匿名で投げ、どちらの回答が良かったかを利用者が選び、その勝敗を Eloレーティング(チェスや囲碁で使われる方式)に換算しています。2026年1月、運営会社 Arena Intelligence Inc. が ブランド名を「LMArena」から「Arena」へ変更 しました(ドメインも arena.ai に統一)。本ガイドでは現名称の「Arena」で統一しています。
従来の自動ベンチマーク(MMLU や HumanEval など)と違い、実際の使い手の好み を直接スコア化しているのが特徴です。一方で、評価できる用途ごとにリーダーボードを分けてあり、本ガイドでは AI News Briefing で日々ご紹介する 5カテゴリ に絞って解説します。
最も基本かつ最も注目される「総合力」指標。自由質問への回答の質を、推論・創造性・正確性・文章の一貫性といった観点で比較します。一般的に「どのAIが今いちばん賢いか」と言われたとき参照されるのが、このTextカテゴリです。
画像を「見て考える」能力を測ります。画像を生成するのではなく、写真やスクリーンショット、図表を読み取って質問に答える力です。書類処理・図表解釈・OCR・現場写真の判定など、業務での出番がもっとも多いマルチモーダル能力です。
自然言語の指示から、動くWebページ(HTML / CSS / JavaScript)を一発で生成する力。Vercelの v0 や Lovable などプロトタイピング系の用途と直結します。次のCodeカテゴリと違い、「見た目の完成度」「UI/UXの妥当性」が評価軸に入るのが特徴です。
アルゴリズム・バックエンド・スクリプト開発などのプログラミング全般の実力。WebDevが「見た目寄り」だとすると、Codeは「ロジック寄り」。データ処理、API実装、テストコード、リファクタリングなど、エンジニアの実務に直結する評価です。
画像を「編集・加工する」能力。1枚の画像とテキスト指示を渡して、新しい画像を作り出します。「画像生成」というカテゴリは独立しておらず、ArenaではこのImage Editに統合されています。マーケ・デザイン・商品撮影の現場で出番が増えているカテゴリです。