Мультиагентный подход Microsoft

Microsoft Research показала Team of Thoughts: мультиагентный подход, повышающий качество инференса за счет интеллектуальной координации вызовов моделей-инструментов. В нем используется центральный оркестратор, управляющий набором разнородных специализированных моделей, которые подключаются выборочно для решения отдельных этапов задачи.

Эффективность подхода обеспечивают два механизма:

  • Калибровка позволяет выбрать оптимальную модель для роли оркестратора.
  • Механизм самооценки дает агентам возможность обозначить свои сильные стороны, помогая точно подбирать исполнителей под конкретные задачи.

Так, оркестратор в реальном времени выбирает подходящего агента для каждого шага, повышая общее качество решения. На AIME24 Team of Thoughts достигает 96,67%, а на LiveCodeBench — 72,53%, заметно превосходя однородные базовые подходы.

Почему это важно: прежде всего меняется логика использования вычислений на этапе инференса. Оркестратор подключает только тех агентов, которые нужны в конкретный момент, и направляет вычислительные ресурсы туда, где они дают максимальный эффект.

Регулировка мышления AI-агентов

Tencent представила CogRouter: механизм динамической регулировки глубины «мышления» AI-агентов в зависимости от сложности задачи. Подход переключается между четырьмя когнитивными режимами — от быстрых реакций до стратегического анализа — и задействует ресурсоемкие рассуждения, когда это действительно оправдано.

Подход опирается на двухэтапное обучение:

  • На стадии COSFT (Cognition-aware SFT) модель осваивает разные уровни мышления и формирует устойчивые шаблоны рассуждений.
     
  • Этап COPO (Cognition-aware Policy Optimization) поощряет глубокий анализ в шагах, где он повышает уверенность, позволяя в остальных случаях использовать более быстрые и дешевые режимы.

На ALFWorld и ScienceWorld CogRouter показал рост качества при снижении затрат: модель Qwen2.5−7B достигла 82,3% SR, превзойдя GPT-4o и o3.

Почему это важно: метод повышает качество без роста вычислительных затрат. В экспериментах модель на базе Qwen2.5−7B использовала на 62% меньше токенов по сравнению с классическими RL-подходами, сохранив более высокую точность. Такая экономия делает AI-агентов практичными для реальных продуктов, где стоимость инференса напрямую влияет на масштабируемость и внедрение.

Также на неделе:

  • Microsoft представила RL-подход, где модель не просто пытается угадать правильное действие методом проб и ошибок, а использует цикл «опыт — рефлексия — закрепление»
  • Amazon, Foxconn, ByteDance и другие компании анонсировали бенчмарк для оценки роли навыков в работе AI-агентов
  • Meta (запрещена в РФ) разработала фреймворк для непрерывного обучения агентов в ходе взаимодействия с пользователями с учетом их индивидуальных предпочтений
  • Perplexity запустила мультиагентную систему для управления приложениями
  • Google внедрила эволюционную LLM-систему для поиска новых алгоритмов мультиагентного обучения с подкреплением
  • Inception Labs представила сверхбыструю reasoning-модель
  • Alibaba показала семейство моделей Qwen 3.5 Medium
  • Google выпустила Nano Banana 2

Новости предоставлены аналитическим центром red_mad_robot

Источник: hi-tech.mail.ru

Средний рейтинг
0 из 5 звезд. 0 голосов.

От Admin.news