NEW REALITIES // AI INTELLIGENCE DESK
● LIVE Guide: Arena 5 Categories
Guide · Arena 5カテゴリの読み方
最終更新:2026年5月24日
5カテゴリ・ガイド

Arena リーダーボード5カテゴリの読み方

AI News Briefing の Arena Snapshot で扱う5カテゴリ Text/Vision/WebDev/Code/Image について、それぞれが「何を測っているのか」「どの業務に効くのか」を、業務の現場目線でまとめました。リーダーボードの順位が、ご自身の仕事のどこに紐づくのかを判断する材料としてご活用ください。

はじめに ― Arenaとは何か

Arena(旧 LMArena / さらに前身は Chatbot Arena)は、AIモデルの実力を 人間の比較投票 によって順位付けする世界最大級のリーダーボードです。同じ質問を2つのモデルに匿名で投げ、どちらの回答が良かったかを利用者が選び、その勝敗を Eloレーティング(チェスや囲碁で使われる方式)に換算しています。2026年1月、運営会社 Arena Intelligence Inc. が ブランド名を「LMArena」から「Arena」へ変更 しました(ドメインも arena.ai に統一)。本ガイドでは現名称の「Arena」で統一しています。

従来の自動ベンチマーク(MMLU や HumanEval など)と違い、実際の使い手の好み を直接スコア化しているのが特徴です。一方で、評価できる用途ごとにリーダーボードを分けてあり、本ガイドでは AI News Briefing で日々ご紹介する 5カテゴリ に絞って解説します。

評価方式
2モデルの回答を匿名で比較し、人間が投票
スコア
Eloレーティング(数値が高いほど強い)
運営
Arena Intelligence Inc.(旧 LMSYS)/ Apache 2.0 公開
01

Textテキスト・チャット

最も基本かつ最も注目される「総合力」指標。自由質問への回答の質を、推論・創造性・正確性・文章の一貫性といった観点で比較します。一般的に「どのAIが今いちばん賢いか」と言われたとき参照されるのが、このTextカテゴリです。

何を測っているか

  • 論理的に筋の通った推論ができるか
  • 創造的な提案や文章を書けるか
  • 事実を正確に述べられるか
  • 長文での主張のブレが少ないか

業務での使いどころ ― 質問例

分析添付した競合の決算資料から、注目すべき変化を3点に絞って
提案新人エンジニアの3か月オンボーディング計画を作って
要約この100ページのRFPの要点を1ページに

代表的なモデル

Claude Opus 4.7/ Anthropic GPT-5.5 Thinking/ OpenAI Gemini 2.6 Pro/ Google Grok 4.20/ xAI DeepSeek V4/ OSS

このカテゴリが特に効く読者

経営・企画 ― 意思決定の壁打ち ★★★
営業・PM ― 提案・要約 ★★★
エンジニア ― 設計議論 ★★★
02

Vision画像理解

画像を「見て考える」能力を測ります。画像を生成するのではなく、写真やスクリーンショット、図表を読み取って質問に答える力です。書類処理・図表解釈・OCR・現場写真の判定など、業務での出番がもっとも多いマルチモーダル能力です。

何を測っているか

  • 画像の内容を正確に説明できるか
  • 図表やグラフから数値を読み取れるか
  • 手書きや傾いた文字を読めるか(OCR)
  • 複数のオブジェクトの位置関係を把握できるか

業務での使いどころ ― 質問例

書類処理このレシートをエクセル行に変換して(日付・店舗・金額)
図表読解この決算資料のグラフから、最大の伸び率の項目は?
現場判定建設現場のこの写真、安全違反になりそうな点は?

代表的なモデル

GPT-5.5 Vision/ OpenAI Gemini 2.6 Pro/ Google Claude Opus 4.7 Vision/ Anthropic Qwen2.5-VL/ OSS

このカテゴリが特に効く読者

経理・総務 ― 書類デジタル化 ★★★
現場業務 ― 安全・品質チェック ★★★
企画・調査 ― 図表からの分析 ★★
03

WebDevWebページ生成

自然言語の指示から、動くWebページ(HTML / CSS / JavaScript)を一発で生成する力。Vercelの v0 や Lovable などプロトタイピング系の用途と直結します。次のCodeカテゴリと違い、「見た目の完成度」「UI/UXの妥当性」が評価軸に入るのが特徴です。

何を測っているか

  • 指示通りのレイアウトを組めるか
  • 見た目が破綻していないか(UI/UX)
  • JavaScriptの動作が正しいか
  • レスポンシブやアクセシビリティ配慮があるか

業務での使いどころ ― 質問例

試作営業資料をWebページ化したい。1ページで完結するLPを作って
社内ツール経費精算フォームを、入力チェック付きで
提案クライアントに見せる新サービスのデモ画面を3案

代表的なモデル

Claude Opus 4.7/ Anthropic GPT-5.5/ OpenAI Gemini 2.6 Pro/ Google v0(Vercel)/ Vercel

このカテゴリが特に効く読者

PPM・企画 ― プロトタイピング ★★★
Dデザイナー ― 試作・検証 ★★★
非エンジニア ― 社内ツール内製 ★★★
04

Codeプログラミング

アルゴリズム・バックエンド・スクリプト開発などのプログラミング全般の実力。WebDevが「見た目寄り」だとすると、Codeは「ロジック寄り」。データ処理、API実装、テストコード、リファクタリングなど、エンジニアの実務に直結する評価です。

何を測っているか

  • アルゴリズムが正しく動くか
  • コードが読みやすく保守しやすいか
  • 複数言語に対応できるか(Python・Go・TypeScript等)
  • エッジケースをハンドリングできるか

業務での使いどころ ― 質問例

実装CSVを読み込んで重複行を除き、月別集計するPythonスクリプトを
修正このRubyコード、なぜテストが落ちる?原因と修正案を
移植このJavaScriptをTypeScriptに書き換えて、型を厳密に

代表的なモデル

Claude Opus 4.7/ Anthropic GPT-5.5 Thinking/ OpenAI DeepSeek V4/ OSS Qwen2.5-Coder/ OSS Codestral/ Mistral

このカテゴリが特に効く読者

エンジニア ― 日常実装 ★★★
Dデータ分析 ― 集計スクリプト ★★★
情シス ― 運用自動化 ★★
05

Image画像編集(Image Edit)

画像を「編集・加工する」能力。1枚の画像とテキスト指示を渡して、新しい画像を作り出します。「画像生成」というカテゴリは独立しておらず、ArenaではこのImage Editに統合されています。マーケ・デザイン・商品撮影の現場で出番が増えているカテゴリです。

何を測っているか

  • 指示通りの編集ができるか(色変更・背景削除・要素追加)
  • 元の画像の特徴を保ったまま変更できるか
  • 不自然な歪み・崩れがないか
  • 文字や細部の再現性

業務での使いどころ ― 質問例

商品撮影この商品写真の背景を白に。影は自然に残す
マーケこのバナーのキャッチコピーを「20%OFF」に差し替え
提案資料このスケッチを清書したアイコンに

代表的なモデル

Nano-Banana 2K/ Google DeepMind ChatGPT Image/ OpenAI Flux 2/ Black Forest Labs Imagen 4/ Google

このカテゴリが特に効く読者

Mマーケ ― バナー・SNS素材 ★★★
Dデザイナー ― 試作・素材加工 ★★★
EEC・物販 ― 商品写真の整備 ★★★

用語ミニ辞典

Elo(イロ)
チェスや囲碁で使われる対戦型レーティング方式。Arenaでは2モデルの勝敗を積み重ねて算出。一般に1300前後でも十分な実力、1400以上はフロンティア級。
Confidence Interval(CI)
Eloスコアの「ぶれ幅」。投票数が少ないモデルほどCIが大きい。一覧では「±8」のように表示される。
マルチモーダル
テキストだけでなく、画像・音声・動画など複数の入出力に対応できるAIの性質。VisionやImageカテゴリで重要。
プロプライエタリ/OSS
商用クローズドモデル(GPT、Claudeなど)と、オープンソースモデル(DeepSeek、Qwen、Gemmaなど)の区分。Arenaのフィルタで切り替え可能。
Trusted Tester
新モデルの先行検証に協力する一部の利用者。新モデルはまずTrusted Testerに渡され、一定の投票数が貯まってからリーダーボードに正式掲載される。