Google Gemma 4とは？4モデル構成・Apache 2.0ライセンス・エージェント開発の使い方ガイド

Google Gemma 4とは何か

Google Gemma 4とは、GoogleがGemini 3と同じ研究・技術を基盤として構築した、オープンソースのAIモデルファミリーです。開発者が自分のハードウェアで実行・改良・商用利用できる、パラメータ1単位あたりの性能比で世界最高水準を主張するオープンモデルとして、2026年4月2日に公開されました（Google, 2026）。

Gemmaシリーズはこれまでに累計4億回以上ダウンロードされ、開発者コミュニティに10万以上の派生モデル（Gemmaverse）が生まれています。Gemma 4はその集大成として、スマートフォンからワークステーション、クラウドまでシームレスに展開できる4つのモデルサイズで構成されています。特に注目すべきは①Apache 2.0ライセンスへの変更（商用利用に制限なし）、②エージェントワークフローへのネイティブ対応、③140言語対応と最大256Kのコンテキスト窓の3点です。

ポイント

Gemma 4がGemma 3と根本的に違う点は「ライセンス」と「エージェント設計」です。Apache 2.0ライセンスにより、企業が商用製品にGemma 4を組み込む際の法的障壁がほぼなくなりました。加えて、関数呼び出し・構造化JSON出力・システム命令がネイティブでサポートされ、自律エージェントの構築がモデルレベルから支援されています。

4モデルの構成と使い分け

Gemma 4は用途・ハードウェアごとに最適化された4つのモデルで構成されています（DeepMind, 2026）。

E2B（Effective 2B）：スマートフォン・IoT向け

実行時に有効パラメータ数約20億相当の計算量に最適化され、RAMとバッテリーを保護しながら動作します。Google Pixelチーム、Qualcomm Technologies、MediaTekとの共同開発により、スマートフォン・Raspberry Pi・NVIDIA Jetson Orin Nanoなど多様なエッジデバイスで完全オフライン・ほぼゼロ遅延で動作します。ネイティブ音声入力対応（音声認識・音声理解）。

E4B（Effective 4B）：エッジデバイス向け上位モデル

E2Bと同じオフライン設計に加え、より高い精度が必要なユースケース（OCR、チャート理解、複雑な多言語タスク）に対応。AIME 2026（数学）でE4B 37.5% vs E2B 42.5%（※深層推論タスク）、τ2-bench（エージェントツール使用）でE4B 29.4% vs E2B 6.6%と、エッジクラスでも汎用エージェントとして実用的な精度を持ちます。Androidではml Kit GenAI Prompt APIを経由して本番アプリに組み込み可能です。

26B MoE（Mixture of Experts）：ワークステーション・低遅延推論向け

総パラメータ数は26Bですが、推論時は3.8Bのパラメータのみを活性化する「Mixture of Experts」アーキテクチャを採用。消費メモリを抑えながら高速なトークン生成（tokens/秒）を実現します。Arena AI オープンモデルランキングで世界6位（2026年4月2日時点）。自分のサイズの20倍以上のモデルを性能で上回るケースがあります。

31B Dense：最高精度・ファインチューニング基盤

全31Bパラメータを常時活性化するDenseアーキテクチャで、最も高い推論精度を提供。Arena AI オープンモデルランキングで世界3位（2026年4月2日時点）。非量子化bfloat16ウェイトはNVIDIA H100 80GB 1枚に収まります。量子化版は一般的なコンシューマGPU（RTX 4090など）でも動作します。ファインチューニングの基盤モデルとして最も適しています。

Arena AI オープンモデルランキングにおけるGemma 4 31B Dense（2026年4月現在）

Arena AI Leaderboard, 2026

400M+

Gemmaファミリーの累計ダウンロード数（Gemma 4リリース時点）

Google Blog, 2026

256K

Gemma 4大型モデルの最大コンテキスト窓（トークン数）

Google DeepMind, 2026

Gemma 4のパフォーマンス比較

ベンチマーク	31B Dense	26B MoE	E4B	E2B
MMMLU（多言語Q&A）	85.2%	82.6%	69.4%	60.0%
MMMU Pro（マルチモーダル推論）	76.9%	73.8%	52.6%	44.2%
AIME 2026（数学）	89.2%	88.3%	42.5%	37.5%
LiveCodeBench v6（コーディング）	80.0%	77.1%	52.0%	44.0%
GPQA Diamond（科学的知識）	84.3%	82.3%	58.6%	43.4%
τ2-bench小売エージェント	86.4%	85.5%	57.5%	29.4%
コンテキスト窓	256K	256K	128K	128K
推奨ハードウェア	H100 GPU/量子化版コンシューマGPU	コンシューマGPU	スマートフォン/Jetson	スマートフォン/Pi

Gemma 4とGeminiの違い

よくある疑問「Gemma 4を使うべきか、GeminiのAPIを使うべきか」について整理します。

Gemini（有料API）を選ぶ場合： 最新のGemini 3.xモデルを使いたい、スケールとSLAが必要、マルチモーダル処理をサーバーサイドで行う、Google Workspaceと統合する、といったユースケースに適しています。

Gemma 4（オープンモデル）を選ぶ場合： データを外部サーバーに送りたくない、インターネット接続のない環境で動かしたい、自社データでファインチューニングする、製品に組み込んで再配布する、コストを固定したい（推論費用ゼロ）、といった要件に適しています。

Apache 2.0ライセンスの採用により、GemmaはGPTやClaude系のプロプライエタリAPIと比べてデータ主権と商用利用の自由度で大きな優位を持ちます。

Gemma 4の5つの使い方

Google AI Studioで即座に試す（無料）

ブラウザから`aistudio.google.com`にアクセスし、モデルに「gemma-4-31b-it」を選択するだけで大型モデルをすぐに試せます（無料枠あり）。プロンプトエンジニアリングや機能確認に最適です。エッジモデル（E2B/E4B）はAndroidの「AI Edge Gallery」アプリからデバイス上で試用できます。

Ollamaでローカル実行する

ターミナルで `ollama pull gemma4:27b` または `ollama run gemma4` を実行するだけでローカルに展開できます。LM Studioを使えばGUIでモデルの管理・チャットが可能です。量子化版（Q4_K_M）は16GB VRAM（RTX 3080/4070など）で動作します。

Hugging Faceでファインチューニングする

モデルは`google/gemma-4-31b-it`などのHugging Face IDでアクセス可能。Unsloth（高速ファインチューニング）、TRL（RLHF/DPO）、Transformers（標準的なfine-tune）が初日からGemma 4に対応しています。Google ColabのT4 GPU（無料枠）でもLoRA/QLoRAを使った軽量ファインチューニングが可能です。

Androidアプリに組み込む

ML Kit GenAI Prompt APIを使ってAndroidアプリにGemma 4 E4B/E2Bを組み込めます。AICore Developer Previewからプロトタイプを始め、Gemini Nano 4との前方互換性を保ちながら本番展開できます。Android StudioもGemma 4をローカルAIとしてサポートし、Agent Modeで開発補助に活用できます。

エージェントとしてvLLMやSGLangで本番展開する

関数呼び出し（Function Calling）・構造化JSON出力・System Promptがネイティブでサポートされているため、エージェントフレームワーク（LangChain、LangGraph、AutoGen）との組み合わせが容易です。vLLMやSGLangを使えばGPUサーバー1台から本番レベルのスループットで展開できます。Vertex AI・GKE・Cloud Runでのスケールアウトも対応しています。

Apache 2.0ライセンスが意味すること

Gemma 4以前のモデルライセンスは「改変・商用利用に制限あり」でした。Apache 2.0ライセンスへの変更により、以下が自由に行えるようになりました（Google, 2026）。

商用製品への組み込みと販売：SaaS・アプリ・社内システムへの組み込みが明示的に許可されます
改変・ファインチューニングの自由：モデルを修正・派生させた成果物の商用利用も可能です
再配布：改変版のモデルを顧客に配布することも許可されます
クローズドソースの製品内利用：OSS公開の義務なしに組み込み製品を作れます

Hugging FaceのCEO、Clément Delangue氏は「Apache 2.0ライセンスでのGemma 4リリースはマイルストーンだ」と述べ、同社が初日からGemma 4をフルサポートすることを表明しました（Google, 2026）。

注意

Apache 2.0ライセンスであっても、Googleの利用規約（Gemma Prohibited Use Policy）に基づいて使用方法に制限が設けられています。特に兵器開発・大量監視・マルウェア生成・差別的コンテンツ生成などの用途は禁止されています。ライセンスを確認の上、利用規約と合わせて参照してください。

エージェントAI開発でのGemma 4活用

Gemma 4がこれまでのGemmaシリーズと大きく異なるのは、エージェント用途を設計段階から意識している点です。τ2-benchのRetailエージェントベンチマークで31Bが86.4%を達成しており、ツール呼び出しを伴う自律タスク実行の精度は実用水準に達しています（DeepMind, 2026）。

日本企業でのユースケースとしては：

オフライン社内エージェント：インターネット非接続の工場・医療施設のイントラネット環境にエージェントを展開する
ファインチューニング済み業務特化エージェント：社内データで学習させた日本語特化の業務処理エージェントを構築する
スマートフォン上のAI機能：通信不要のオンデバイスAIを使ったモバイルアプリに組み込む
コスト予測可能なバッチ処理：毎月の推論コストを固定したい大量バッチ処理の基盤として使う

といった用途が想定されます。

まとめ

Google Gemma 4は、オープンソースLLMの勢力図を塗り替える可能性を持つリリースです。Apache 2.0ライセンス・Gemini 3同等の研究基盤・エージェントネイティブの設計・E2B/E4BによるAndroid対応という4つの変化が重なり、「プロプライエタリAPIか、OpenLLMか」という選択の判断基準が変わりました。特に日本企業にとっては、データ主権・オフライン動作・コスト予測可能性という3つの観点から、Gemma 4は「自社内で完結するAIエージェント基盤」の有力候補になります。まずはGoogle AI Studioで31Bモデルを無料で試し、ユースケースに合ったサイズとデプロイ方法を探ることが、最も低コストな出発点です。