2026年3月19日時点で短く答えるなら、コストと速度を優先するなら Gemini 3.1 Flash-Lite、Stable と無料 Search grounding を優先するなら Gemini 2.5 Flash です。 このキーワードの本当の論点は「どちらが紙の上で勝つか」ではなく、「今ある 2.5 Flash の本番ルートをどこまで 3.1 Flash-Lite に置き換えるべきか」です。
混乱しやすい理由は名前にあります。Flash-Lite という名前だけ見ると、多くの開発者は「古いフル Flash より下位の廉価版だろう」と考えます。ところが Google の現行公式資料を並べると話はもっと複雑です。価格ページでは 3.1 Flash-Lite が 2.5 Flash より安く、DeepMind の比較では速度と複数ベンチマークで優位です。それでも同じ公式セットの中で、2.5 Flash は Stable / GA の地位、無料 Search grounding、さらに FACTS と 1M MRCR の優位を残しています。つまりこれは「新しいモデルが古いモデルを完全に置き換える話」ではなく、「どのワークロードをどちらに流すか」の話です。
要点まとめ
実務上の結論だけ先に言えば、翻訳、分類、構造化抽出、ルーティングのような高スループット仕事は Gemini 3.1 Flash-Lite を先に試す価値があります。無料 grounding、Stable の安心感、あるいは 1M 近い長文脈挙動を重視するなら Gemini 2.5 Flash を先に残すべきです。
2026年3月19日時点の公式比較は次のとおりです。
| 項目 | Gemini 3.1 Flash-Lite | Gemini 2.5 Flash | 実務での意味 |
|---|---|---|---|
| 提供ステータス | Preview | Stable / GA | 3.1 は新しいが、2.5 の方が本番既定路線として守りやすい |
| Model ID | gemini-3.1-flash-lite-preview | gemini-2.5-flash | 置換は明示的ルーティングで行うべき |
| 標準入力価格 | Free、以後 $0.25 / 1M | Free、以後 $0.30 / 1M | 3.1 の方が安い |
| 標準出力価格 | Free、以後 $1.50 / 1M | Free、以後 $2.50 / 1M | 3.1 は出力コスト差が大きい |
| Context window | 1,048,576 tokens | 1,048,576 tokens | 文脈長は主な差ではない |
| 最大出力 | 65,536 tokens | 65,536 tokens | 出力上限も同じ |
| 無料 grounding | 無料 Search grounding なし | Search grounding が 500 RPD まで無料 | grounded assistant では 2.5 が有利 |
| 速度比較 | 363 tokens/s | 249 tokens/s | 3.1 が速い |
| caveat | GPQA、MMMU-Pro、LiveCodeBench、128k MRCR で優位 | FACTS、1M MRCR で優位 | 3.1 は万能勝利ではない |
この表は公式の pricing、Gemini 3.1 Flash-Lite page、Gemini 2.5 Flash page、release notes、DeepMind comparison page をまとめたものです。
実務上の推奨はかなり明快です。
- 高速・高頻度ワークロードは 3.1 Flash-Lite を先に当てる。
- grounded 経路、低リスクの本番既定路線、長文脈重視のタスクは 2.5 Flash を残す。
- 分流できるなら単一モデルに寄せず、両方を役割分担させる。
なぜこの比較はややこしいのか
この比較がややこしいのは、同じ階層同士の素直な比較ではないからです。本来なら Gemini 3.1 Flash-Lite vs Gemini 2.5 Flash-Lite の方が名前として自然です。しかし実際のチームはマーケティング上の対応関係ではなく、「今使っている 2.5 Flash を新しい 3.1 Flash-Lite で置き換えるべきか」を見ています。
その意味で、ここでの真のベースラインは Gemini 2.5 Flash です。これは Gemini API における成熟した low-latency reasoning モデルで、公式 Gemini 2.5 Flash page でも Stable として扱われています。Gemini 2.5 Flash model card も general availability を明示しています。
一方で Gemini 3.1 Flash-Lite は、まったく別の位置づけで出てきました。公式 release notes によれば、2026年3月3日に Gemini 3 系最初の Flash-Lite として公開されました。専用の model page では translation、transcription、simple document processing、high-volume structured extraction、model routing 向けとして紹介されています。つまり Google 自身が、これをただの廉価版ではなく「安くて速い実務レーン」として押し出しています。
この比較を読むときの心構えは次の3点です。
- Gemini 2.5 Flash は古いだけの弱いモデルではない。
- Gemini 3.1 Flash-Lite は安い Preview 挑戦者であり、用途によっては主役になる。
- 問うべきは勝敗ではなく、ルーティング方針である。
2026年3月19日時点の料金、無料枠、Grounding

多くの比較記事は「3.1 Flash-Lite の方が安い」という半分だけを言って終わります。しかし本番判断に効くのは残り半分です。
公式 pricing page によると、2026年3月19日時点で:
- Gemini 3.1 Flash-Lite Preview: 標準利用は無料、その後は input
\$0.25/ 1M、output\$1.50/ 1M - Gemini 2.5 Flash: 標準利用は無料、その後は input
\$0.30/ 1M、output\$2.50/ 1M
つまり:
- input は約 17% 安い
- output は 40% 安い
現実のワークロードでは output の差の方が効きます。要約、分類理由の生成、短いサポート返信、JSON 抽出などでは output 側のコストが膨らみやすいからです。その意味で 3.1 Flash-Lite の優位はかなり実務的です。
Batch でも方向は変わりません。
- 3.1 Flash-Lite Batch:
\$0.125input /\$0.75output - 2.5 Flash Batch:
\$0.15input /\$1.25output
ただし価格ページは、2.5 Flash を残す理由も同時に示しています。それが grounding です。
- Gemini 2.5 Flash は Search grounding が 500 RPD まで無料
- Gemini 3.1 Flash-Lite Preview は free-tier Search grounding がなく、月 5,000 prompts の paid-tier 寄りの扱いになっています
この差は grounded assistant を作るときに非常に大きいです。Google 検索を built-in ツールとして使うアプリなら、2.5 Flash の方が無料検証もしやすく、運用の出だしも軽い。逆に grounding を使わないなら、3.1 Flash-Lite の安い output 価格はかなり魅力的です。
無料枠そのものの現状は日本語版の Gemini API 無料枠 2026 で詳しく触れています。運用系の障害対応は Gemini API error troubleshooting guide に日本語版があります。一方で thinking controls や tier 別 rate-limit の詳細は現時点では英語 fallback の方が充実しており、後半で明示的に英語リンクを使います。
ベンチマーク: 3.1 Flash-Lite が勝つ点と 2.5 Flash がまだ残る理由

この比較で最も価値が高い公式資料は、DeepMind の Gemini 3.1 Flash-Lite page です。ここでは Gemini 3.1 Flash-Lite High と Gemini 2.5 Flash Dynamic が横並びで出ています。
重要な行だけ抜き出すとこうなります。
| 指標 | Gemini 3.1 Flash-Lite | Gemini 2.5 Flash | 含意 |
|---|---|---|---|
| Output speed | 363 tokens/s | 249 tokens/s | 3.1 Flash-Lite |
| Humanity's Last Exam | 16.0% | 11.0% | 3.1 Flash-Lite |
| GPQA Diamond | 86.9% | 82.8% | 3.1 Flash-Lite |
| MMMU-Pro | 76.8% | 66.7% | 3.1 Flash-Lite |
| LiveCodeBench | 72.0% | 62.6% | 3.1 Flash-Lite |
| MRCR v2 at 128k | 60.1% | 54.3% | 3.1 Flash-Lite |
| FACTS | 40.6% | 50.4% | Gemini 2.5 Flash |
| MRCR v2 at 1M | 12.3% | 21.0% | Gemini 2.5 Flash |
この表が示しているのは、単純な「新モデル圧勝」ではありません。
3.1 に切り替えたくなる理由ははっきりしています。
- 速い
- 安い
- reasoning / coding / multimodal で見栄えのする指標が強い
しかし 2.5 を残す理由も本物です。
- FACTS では 2.5 が上
- 1M context の MRCR でも 2.5 が上
つまり、grounded な応答や truly long-context retrieval を重視するなら、2.5 Flash を最初から切り捨てるのは雑すぎます。
Google 公式の launch post では、2.5 Flash に対して 2.5 倍速い first token、45% 高い output speed が強調されています。これは確かに SERP で目立つ数字ですが、それだけで 2.5 の caveat 行を消してはいけません。
Preview リスク、レート制限、そして Stable の価値
本番判断は benchmark だけでは終わりません。Lifecycle status が重要です。
公式 rate-limits page には見落としやすい点が3つあります。
- 制限は project 単位 でかかる
- preview モデルは制限がより厳しい
- specified rate limits are not guaranteed and actual capacity may vary と明記されている
これが Preview の実務的な意味です。使えないという意味ではなく、「変化中のレーンとして扱え」ということです。
一方で 3.1 に有利な材料も同じページにあります。Tier 1 の Batch API 表では:
- Gemini 3.1 Flash-Lite Preview: 10,000,000 enqueued batch tokens
- Gemini 2.5 Flash: 3,000,000 enqueued batch tokens
大きい非同期処理では、ここは確かに 3.1 の魅力です。ただし capacity 変動の注意書きも同じページにあるので、表1枚を SLA のように扱うべきではありません。
Stable がまだ買ってくれる価値は3つあります。
- lifecycle churn が少ない
- grounding の無料ストーリーが分かりやすい
- 障害時に default choice を説明しやすい
thinking controls の違いを細かく見たい場合は、現状では英語版 Gemini API thinking-level guide が fallback になります。tier ごとの limit の詳細も英語版 Gemini API rate-limits-per-tier guide の方が詳しいです。
どのワークロードでどちらを使うべきか

ベンチマーク比較を routing advice に変えると、判断はかなり楽になります。
| ワークロード | 先に選ぶモデル | 理由 |
|---|---|---|
| 大量翻訳 | Gemini 3.1 Flash-Lite | 公式の想定用途そのもので、速度と価格差が素直に効く |
| structured extraction / JSON pipeline | Gemini 3.1 Flash-Lite | 安い output と低 latency が活きる |
| routing / classifier layers | Gemini 3.1 Flash-Lite | model page が routing を適用例として挙げている |
| 軽量 coding / UI 生成 | Gemini 3.1 Flash-Lite | LiveCodeBench と応答速度の優位がある |
| Search-grounded factual assistant | Gemini 2.5 Flash | 無料 grounding と FACTS の優位が残る |
| 1M 近い長文脈タスク | Gemini 2.5 Flash | MRCR 1M 行ではまだ 2.5 が強い |
| 低リスクの本番既定路線 | Gemini 2.5 Flash | Stable / GA の価値が大きい |
| 分流できるシステム | 両方 | 2.5 を grounded/long-context に、3.1 を fast/high-volume に回す |
さらに細かい点として、thinking controls の設計が少し違うことも見落としにくい点です。Gemini 2.5 Flash model card では configurable thinking budgets が前面に出ていますが、3.1 Flash-Lite の公式説明では reasoning levels の文脈が目立ちます。推論予算を細かく調整しているシステムなら、この差は無視しにくいです。
後悔しない移行方法
2026年3月時点で一番守りやすい移行方針は、全面切替ではなく staged rollout です。
-
低リスク・高スループットから移す
translation、extraction、classification、routing など、コスト差と速度差がすぐ利益に変わるところから 3.1 Flash-Lite を入れる。 -
grounded と long-context は 2.5 Flash を残す
無料 Search grounding に依存している、または 1M context 近い長文脈 retrieval を重要視しているなら、2.5 を default から外さない。 -
fallback ルートを消さない
3.1 の public table が魅力的でも、社内 prompt と評価で確認するまでは 2.5 ルートを消すべきではない。
一言でまとめると:
- 速度と token cost が最重要なら 3.1 に先に寄せる
- grounding、長文脈、安定性が重要なら 2.5 を残す
- 分流できるなら両方を使う
FAQ
Gemini 3.1 Flash-Lite は Gemini 2.5 Flash より良いですか。
多くの high-volume reasoning タスクでは良いと言えます。速く、安く、複数の公式 benchmark でも強いからです。ただし Stable、無料 grounding、FACTS、1M context の挙動まで含めるなら、2.5 Flash がより良い場合もあります。
Gemini 3.1 Flash-Lite は本当に安いですか。
Gemini 2.5 Flash と比べれば本当に安いです。公式 pricing page では 3.1 Flash-Lite が \$0.25 input / \$1.50 output、2.5 Flash が \$0.30 input / \$2.50 output と書かれています。
なぜ 2.5 Flash をすぐ全部置き換えない方がいいのですか。
3.1 はまだ Preview で、同じ公式比較の中に FACTS と 1M MRCR では 2.5 Flash が優位という行が残っているからです。grounded や very-long-context の本番では、この差を無視しにくいです。
今いちばん無難な選び方は何ですか。
役割分担です。高速・高頻度のタスクは 3.1 Flash-Lite、grounded・long-context・安定性重視の経路は 2.5 Flash。これが 2026年3月19日時点で最も実務的な答えです。
