Arena 5カテゴリの読み方

はじめに ― Arenaとは何か

Arena（旧 LMArena ／さらに前身は Chatbot Arena）は、AIモデルの実力を 人間の比較投票 によって順位付けする世界最大級のリーダーボードです。同じ質問を2つのモデルに匿名で投げ、どちらの回答が良かったかを利用者が選び、その勝敗を Eloレーティング（チェスや囲碁で使われる方式）に換算しています。2026年1月、運営会社 Arena Intelligence Inc. がブランド名を「LMArena」から「Arena」へ変更しました（ドメインも arena.ai に統一）。本ガイドでは現名称の「Arena」で統一しています。

従来の自動ベンチマーク（MMLU や HumanEval など）と違い、実際の使い手の好み を直接スコア化しているのが特徴です。一方で、評価できる用途ごとにリーダーボードを分けてあり、本ガイドでは AI News Briefing で日々ご紹介する 5カテゴリ に絞って解説します。

評価方式

2モデルの回答を匿名で比較し、人間が投票

スコア

Eloレーティング（数値が高いほど強い）

運営

Arena Intelligence Inc.（旧 LMSYS）／ Apache 2.0 公開

Textテキスト・チャット

最も基本かつ最も注目される「総合力」指標。自由質問への回答の質を、推論・創造性・正確性・文章の一貫性といった観点で比較します。一般的に「どのAIが今いちばん賢いか」と言われたとき参照されるのが、このTextカテゴリです。

arena.ai →

何を測っているか

論理的に筋の通った推論ができるか
創造的な提案や文章を書けるか
事実を正確に述べられるか
長文での主張のブレが少ないか

業務での使いどころ ― 質問例

分析添付した競合の決算資料から、注目すべき変化を3点に絞って

提案新人エンジニアの3か月オンボーディング計画を作って

要約この100ページのRFPの要点を1ページに

代表的なモデル

Claude Opus 4.7/ Anthropic GPT-5.5 Thinking/ OpenAI Gemini 2.6 Pro/ Google Grok 4.20/ xAI DeepSeek V4/ OSS

このカテゴリが特に効く読者

経経営・企画 ― 意思決定の壁打ち ★★★

営営業・PM ― 提案・要約 ★★★

技エンジニア ― 設計議論 ★★★

Vision画像理解

画像を「見て考える」能力を測ります。画像を生成するのではなく、写真やスクリーンショット、図表を読み取って質問に答える力です。書類処理・図表解釈・OCR・現場写真の判定など、業務での出番がもっとも多いマルチモーダル能力です。

arena.ai →

何を測っているか

画像の内容を正確に説明できるか
図表やグラフから数値を読み取れるか
手書きや傾いた文字を読めるか（OCR）
複数のオブジェクトの位置関係を把握できるか

業務での使いどころ ― 質問例

書類処理このレシートをエクセル行に変換して（日付・店舗・金額）

図表読解この決算資料のグラフから、最大の伸び率の項目は？

現場判定建設現場のこの写真、安全違反になりそうな点は？

代表的なモデル

GPT-5.5 Vision/ OpenAI Gemini 2.6 Pro/ Google Claude Opus 4.7 Vision/ Anthropic Qwen2.5-VL/ OSS

このカテゴリが特に効く読者

経経理・総務 ― 書類デジタル化 ★★★

現現場業務 ― 安全・品質チェック ★★★

企企画・調査 ― 図表からの分析 ★★★

WebDevWebページ生成

自然言語の指示から、動くWebページ（HTML / CSS / JavaScript）を一発で生成する力。Vercelの v0 や Lovable などプロトタイピング系の用途と直結します。次のCodeカテゴリと違い、「見た目の完成度」「UI/UXの妥当性」が評価軸に入るのが特徴です。

arena.ai →

何を測っているか

指示通りのレイアウトを組めるか
見た目が破綻していないか（UI/UX）
JavaScriptの動作が正しいか
レスポンシブやアクセシビリティ配慮があるか

業務での使いどころ ― 質問例

試作営業資料をWebページ化したい。1ページで完結するLPを作って

社内ツール経費精算フォームを、入力チェック付きで

提案クライアントに見せる新サービスのデモ画面を3案

代表的なモデル

Claude Opus 4.7/ Anthropic GPT-5.5/ OpenAI Gemini 2.6 Pro/ Google v0（Vercel）/ Vercel

このカテゴリが特に効く読者

PPM・企画 ― プロトタイピング ★★★

Dデザイナー ― 試作・検証 ★★★

技非エンジニア ― 社内ツール内製 ★★★

Codeプログラミング

アルゴリズム・バックエンド・スクリプト開発などのプログラミング全般の実力。WebDevが「見た目寄り」だとすると、Codeは「ロジック寄り」。データ処理、API実装、テストコード、リファクタリングなど、エンジニアの実務に直結する評価です。

arena.ai →

何を測っているか

アルゴリズムが正しく動くか
コードが読みやすく保守しやすいか
複数言語に対応できるか（Python・Go・TypeScript等）
エッジケースをハンドリングできるか

業務での使いどころ ― 質問例

実装CSVを読み込んで重複行を除き、月別集計するPythonスクリプトを

修正このRubyコード、なぜテストが落ちる？原因と修正案を

移植このJavaScriptをTypeScriptに書き換えて、型を厳密に

代表的なモデル

Claude Opus 4.7/ Anthropic GPT-5.5 Thinking/ OpenAI DeepSeek V4/ OSS Qwen2.5-Coder/ OSS Codestral/ Mistral

このカテゴリが特に効く読者

技エンジニア ― 日常実装 ★★★

Dデータ分析 ― 集計スクリプト ★★★

運情シス ― 運用自動化 ★★★

Image画像編集（Image Edit）

画像を「編集・加工する」能力。1枚の画像とテキスト指示を渡して、新しい画像を作り出します。「画像生成」というカテゴリは独立しておらず、ArenaではこのImage Editに統合されています。マーケ・デザイン・商品撮影の現場で出番が増えているカテゴリです。

arena.ai →

何を測っているか

指示通りの編集ができるか（色変更・背景削除・要素追加）
元の画像の特徴を保ったまま変更できるか
不自然な歪み・崩れがないか
文字や細部の再現性

業務での使いどころ ― 質問例

商品撮影この商品写真の背景を白に。影は自然に残す

マーケこのバナーのキャッチコピーを「20%OFF」に差し替え

提案資料このスケッチを清書したアイコンに

代表的なモデル

Nano-Banana 2K/ Google DeepMind ChatGPT Image/ OpenAI Flux 2/ Black Forest Labs Imagen 4/ Google

このカテゴリが特に効く読者

Mマーケ ― バナー・SNS素材 ★★★

Dデザイナー ― 試作・素材加工 ★★★

EEC・物販 ― 商品写真の整備 ★★★

用語ミニ辞典

Elo（イロ）: チェスや囲碁で使われる対戦型レーティング方式。Arenaでは2モデルの勝敗を積み重ねて算出。一般に1300前後でも十分な実力、1400以上はフロンティア級。
Confidence Interval（CI）: Eloスコアの「ぶれ幅」。投票数が少ないモデルほどCIが大きい。一覧では「±8」のように表示される。
マルチモーダル: テキストだけでなく、画像・音声・動画など複数の入出力に対応できるAIの性質。VisionやImageカテゴリで重要。
プロプライエタリ／OSS: 商用クローズドモデル（GPT、Claudeなど）と、オープンソースモデル（DeepSeek、Qwen、Gemmaなど）の区分。Arenaのフィルタで切り替え可能。
Trusted Tester: 新モデルの先行検証に協力する一部の利用者。新モデルはまずTrusted Testerに渡され、一定の投票数が貯まってからリーダーボードに正式掲載される。

Arena リーダーボード5カテゴリの読み方

はじめに ― Arenaとは何か

Textテキスト・チャット

何を測っているか

業務での使いどころ ― 質問例

代表的なモデル

このカテゴリが特に効く読者

Vision画像理解

何を測っているか

業務での使いどころ ― 質問例

代表的なモデル

このカテゴリが特に効く読者

WebDevWebページ生成

何を測っているか

業務での使いどころ ― 質問例

代表的なモデル

このカテゴリが特に効く読者

Codeプログラミング

何を測っているか

業務での使いどころ ― 質問例

代表的なモデル

このカテゴリが特に効く読者

Image画像編集（Image Edit）

何を測っているか

業務での使いどころ ― 質問例

代表的なモデル

このカテゴリが特に効く読者

用語ミニ辞典