Skip to content
X · @hardmaru · X / Twitter

RT Sakana AI: SakanaAIは、有限責任あずさ監査法人と共同で、LLMエージェントの長期的な経営能力を評価する新しいベンチマーク「CoffeeBench」を公開しました。…

RT Sakana AISakanaAIは、有限責任あずさ監査法人と共同で、LLMエージェントの長期的な経営能力を評価する新しいベンチマーク「CoffeeBench」を公開しました。ブログ:https://sakana.ai/coffee-bench/現実の経済では、消費者へ直接売るビジネスだけでなく、企業同士が継続的に取引するビジネスも重要です。CoffeeBench は、農家・焙煎店・小売店の計6社が参加するコーヒー業界のサプライチェーンをシミュレーションし、各社をLLMエージェントが運営。90日間にわたって価格交渉・発注・在庫管理などを行い、純利益の最大化を目指します。最新のLLMを同じ環境で競わせると、経営成績は大きく分かれ