Skip to content
Sakana AI · Frontier Labs

CoffeeBench: マルチエージェント経済環境におけるLLMエージェントの長期タスクベンチマーク

Sakana AIと有限責任あずさ監査法人は、コーヒー業界のサプライチェーンを舞台にLLMエージェントの長期的な経営能力を評価する「CoffeeBench」を開発。シミュレーション実験では、最新モデル間でも経営成績に大きな差があり、長期タスク特有のモデルの特性が観察された。