Мультиагентный подход Microsoft
Microsoft Research показала Team of Thoughts: мультиагентный подход, повышающий качество инференса за счет интеллектуальной координации вызовов моделей-инструментов. В нем используется центральный оркестратор, управляющий набором разнородных специализированных моделей, которые подключаются выборочно для решения отдельных этапов задачи.
Эффективность подхода обеспечивают два механизма:
- Калибровка позволяет выбрать оптимальную модель для роли оркестратора.
- Механизм самооценки дает агентам возможность обозначить свои сильные стороны, помогая точно подбирать исполнителей под конкретные задачи.
Так, оркестратор в реальном времени выбирает подходящего агента для каждого шага, повышая общее качество решения. На AIME24 Team of Thoughts достигает 96,67%, а на LiveCodeBench — 72,53%, заметно превосходя однородные базовые подходы.
Почему это важно: прежде всего меняется логика использования вычислений на этапе инференса. Оркестратор подключает только тех агентов, которые нужны в конкретный момент, и направляет вычислительные ресурсы туда, где они дают максимальный эффект.
Регулировка мышления AI-агентов
Tencent представила CogRouter: механизм динамической регулировки глубины «мышления» AI-агентов в зависимости от сложности задачи. Подход переключается между четырьмя когнитивными режимами — от быстрых реакций до стратегического анализа — и задействует ресурсоемкие рассуждения, когда это действительно оправдано.
Подход опирается на двухэтапное обучение:
- На стадии COSFT (Cognition-aware SFT) модель осваивает разные уровни мышления и формирует устойчивые шаблоны рассуждений.
- Этап COPO (Cognition-aware Policy Optimization) поощряет глубокий анализ в шагах, где он повышает уверенность, позволяя в остальных случаях использовать более быстрые и дешевые режимы.
На ALFWorld и ScienceWorld CogRouter показал рост качества при снижении затрат: модель Qwen2.5−7B достигла 82,3% SR, превзойдя GPT-4o и o3.
Почему это важно: метод повышает качество без роста вычислительных затрат. В экспериментах модель на базе Qwen2.5−7B использовала на 62% меньше токенов по сравнению с классическими RL-подходами, сохранив более высокую точность. Такая экономия делает AI-агентов практичными для реальных продуктов, где стоимость инференса напрямую влияет на масштабируемость и внедрение.
Также на неделе:
- Microsoft представила RL-подход, где модель не просто пытается угадать правильное действие методом проб и ошибок, а использует цикл «опыт — рефлексия — закрепление»
- Amazon, Foxconn, ByteDance и другие компании анонсировали бенчмарк для оценки роли навыков в работе AI-агентов
- Meta (запрещена в РФ) разработала фреймворк для непрерывного обучения агентов в ходе взаимодействия с пользователями с учетом их индивидуальных предпочтений
- Perplexity запустила мультиагентную систему для управления приложениями
- Google внедрила эволюционную LLM-систему для поиска новых алгоритмов мультиагентного обучения с подкреплением
- Inception Labs представила сверхбыструю reasoning-модель
- Alibaba показала семейство моделей Qwen 3.5 Medium
- Google выпустила Nano Banana 2
Новости предоставлены аналитическим центром red_mad_robot
Источник: hi-tech.mail.ru