Управление логикой AI-систем. Нейроновости недели

Оглавление

Мультиагентный подход Microsoft

Microsoft Research показала Team of Thoughts: мультиагентный подход, повышающий качество инференса за счет интеллектуальной координации вызовов моделей-инструментов. В нем используется центральный оркестратор, управляющий набором разнородных специализированных моделей, которые подключаются выборочно для решения отдельных этапов задачи.

Эффективность подхода обеспечивают два механизма:

Калибровка позволяет выбрать оптимальную модель для роли оркестратора.
Механизм самооценки дает агентам возможность обозначить свои сильные стороны, помогая точно подбирать исполнителей под конкретные задачи.

Так, оркестратор в реальном времени выбирает подходящего агента для каждого шага, повышая общее качество решения. На AIME24 Team of Thoughts достигает 96,67%, а на LiveCodeBench — 72,53%, заметно превосходя однородные базовые подходы.

Почему это важно: прежде всего меняется логика использования вычислений на этапе инференса. Оркестратор подключает только тех агентов, которые нужны в конкретный момент, и направляет вычислительные ресурсы туда, где они дают максимальный эффект.

Регулировка мышления AI-агентов

Tencent представила CogRouter: механизм динамической регулировки глубины «мышления» AI-агентов в зависимости от сложности задачи. Подход переключается между четырьмя когнитивными режимами — от быстрых реакций до стратегического анализа — и задействует ресурсоемкие рассуждения, когда это действительно оправдано.

Подход опирается на двухэтапное обучение:

На стадии COSFT (Cognition-aware SFT) модель осваивает разные уровни мышления и формирует устойчивые шаблоны рассуждений.
Этап COPO (Cognition-aware Policy Optimization) поощряет глубокий анализ в шагах, где он повышает уверенность, позволяя в остальных случаях использовать более быстрые и дешевые режимы.

На ALFWorld и ScienceWorld CogRouter показал рост качества при снижении затрат: модель Qwen2.5−7B достигла 82,3% SR, превзойдя GPT-4o и o3.

Почему это важно: метод повышает качество без роста вычислительных затрат. В экспериментах модель на базе Qwen2.5−7B использовала на 62% меньше токенов по сравнению с классическими RL-подходами, сохранив более высокую точность. Такая экономия делает AI-агентов практичными для реальных продуктов, где стоимость инференса напрямую влияет на масштабируемость и внедрение.

Также на неделе:

Microsoft представила RL-подход, где модель не просто пытается угадать правильное действие методом проб и ошибок, а использует цикл «опыт — рефлексия — закрепление»
Amazon, Foxconn, ByteDance и другие компании анонсировали бенчмарк для оценки роли навыков в работе AI-агентов
Meta (запрещена в РФ) разработала фреймворк для непрерывного обучения агентов в ходе взаимодействия с пользователями с учетом их индивидуальных предпочтений
Perplexity запустила мультиагентную систему для управления приложениями
Google внедрила эволюционную LLM-систему для поиска новых алгоритмов мультиагентного обучения с подкреплением
Inception Labs представила сверхбыструю reasoning-модель
Alibaba показала семейство моделей Qwen 3.5 Medium
Google выпустила Nano Banana 2

Новости предоставлены аналитическим центром red_mad_robot

Источник: hi-tech.mail.ru

Средний рейтинг

0 из 5 звезд. 0 голосов.

Управление логикой AI-систем. Нейроновости недели

ОтAdmin.news

Мультиагентный подход Microsoft

Регулировка мышления AI-агентов

Также на неделе:

От Admin.news

You missed

Папа Римский предложил навсегда запретить бомбардировки с воздуха

В кабмине одобрили десятилетний срок давности по делам о приватизации

Блогер Лерчек из-за окнозаболевания перестала видеть правым глазом

Генсек НАТО Рютте проболтался о новом плане Зеленского