Sakana AI
· Frontier Labs
CoffeeBench: マルチエージェント経済環境におけるLLMエージェントの長期タスクベンチマーク
Sakana AIと有限責任あずさ監査法人は、コーヒー業界のサプライチェーンを舞台にLLMエージェントの長期的な経営能力を評価する「CoffeeBench」を開発。シミュレーション実験では、最新モデル間でも経営成績に大きな差があり、長期タスク特有のモデルの特性が観察された。