個人の主観
| 順位 | モデル名 | 指示追従性 | 使い勝手・特徴 | コスト | 備考 |
|---|---|---|---|---|---|
| 1 | claude-3.7-sonnet | 非常に高い | エージェント追従性は最高、デザイン系タスクに強い、文章力も高い | Input $3 / Output $15 | 3.5より明確に優秀 |
| 2 | claude-3.5-sonnet | 非常に高い | 失敗が少なく安心、エージェント用途で最強 | Input $3 / Output $15(今だけcopilotで定額利用可能) | 3.7との差は体感できず |
| 3 | gemini 2.5 pro | 高い | 地味に優秀、安定感抜群 | Input $1.25 / Output $10(学習許可で無料) | 指示失敗がほぼ見られない |
| 4 | Optimus Alpha(Quasar Alpha) | 高い | 無料枠最強、知識カットオフ新しい、文章力も高い | 学習許可で無料 | claudeほど従順ではない |
| 5 | deepseek v3 0324 | そこそこ高い | open weight系最強クラス、応答早い | Input $0.27 / Output $1.1(学習許可で無料、m3 ultra 512GBでローカル可能) | 現在はOptimus Alphaに出番譲る |
| 6 | Grok 3 | 高い | 保険枠、指示通り動くこと多い | Input $3 / Output $15 | 困ったときの選択肢にしても良いが同コストのclaude-3.7を使う |
| 7 | Grok 3 mini | やや低い | 安価、reasoning effort高め、惜しい存在 | Input $0.3 / Output $0.5 | 指示通り動かないこと多い |
| 8 | cognito:32b | まあまあ | open weight系で指示追従性高め | ローカルLLMのみ | deepseekほどではない |
こうしてコストも比べてみるとgemini 2.5 proの方がclaude-3.7-sonnetよりも安い。 困った時はgemini 2.5 proで大丈夫かもしれない。