OpenAIが発表した最新のモデルであるo3とo4-miniは、さまざまな機能を統合した強力なツールです。これらのモデルは、テクノロジーの進歩によるユーザーのニーズを満たす為に設計されており、特にSTEM分野や研究においてその真価を発揮します。
核心機能
- ツール統合: o3とo4-miniは、Web検索、Pythonコードの実行、画像およびファイル分析、画像生成、キャンバス編集、オートメーション、ファイル検索、メモリ機能をサポートしています。
- 推論方法: これらのモデルは、思考の連鎖(chain-of-thought)内でツールを活用して問題を解決します。Pythonを使用したデータ分析や画像の切り取りなどの作業は、推論プロセスの中で行われます。
- マルチモーダル処理: テキストと画像を同時に処理でき、ホワイトボードのスケッチ分析などの作業も行えます。
性能ベンチマーク
モデル | SWE-bench 正確度 | AIME 2025 正確度 | GPQA Diamond |
---|---|---|---|
o3 | 69.1% | 88.9% | 83.3% |
o4-mini | 68.1% | 92.7% | 81.4% |
- コーディング: o3はCodeforcesとSWE-benchでSOTAを達成しました。
- 数学: o4-miniはAIME 2025で92.7%の高精度を達成し、o3の88.9%を上回ります。
- 科学: GPQA Diamond(Ph.D.レベルの科学問題)において、o3は83.3%、o4-miniは81.4%の結果を示します。
セキュリティと安全性
- Preparedness Framework v2: 生物学的および化学的な脅威、サイバーセキュリティ、AIの自己改善の分野において「高」リスクのカテゴリーを満たさないとの評価を受けています。
- 自己点検機能: 応答の正確度を向上させるため、事実確認の機能を内蔵しています。
- 持続的整合性: 安全政策を文脈に応じて推論することでリスクを軽減します。
費用と活用事例
区分 | o3 | o4-mini |
---|---|---|
費用 | 入力 $10/百万トークン、出力 $40/百万トークン | 入力 $1.1/百万トークン、出力 $4.4/百万トークン |
対象ユーザー | 複雑な分析が必要なSTEM研究分野 | 大量・高速処理が必要な一般業務 |
- o4-mini-high: 有料ユーザー向けに提供され、より早い処理と高精度を実現します。
- コンテキストウィンドウ: o4-miniは200,000トークンをサポートしています。
配布状況
- ChatGPT Enterprise/Edu: 2024年4月24日からo1・o3-miniの代替として提供されます。
- 一般ユーザー: o4-miniは無料ティアでも利用可能で、API(チャット完了・応答)からのアクセスも可能です。
- API互換性: 関数呼び出し、ストリーミング、構造化された出力をサポートします。
これらのモデルは、ツール使用能力と推論性能を組み合わせて現実の業務課題を解決するために最適化されており、コスト対効果の面でもo4-miniが際立つ存在となっています。