Автономность ИИ тема животрепещущая, сообщает сайт ozgeris.info. Насколько сильно мы можем доверять искусственному интеллекту? Одно дело попросить его проверить твой текст или написать код, и совсем другое доверить сложную многоступенчатую задачу, в рамках которой система сама принимает решения.
Развитие автономности можно рассмотреть на примере ИИ-агентов. ИИ в самом простом понимании принято воспринимать как чат-бот, наподобие ChatGPT. Ты задаёшь системе вопрос или даёшь какой-то запрос, после чего система выдаст тебе ответ на основе данных, на которых она была обучена. Постепенно, с развитием технологий, крупные корпорации отходят от этой модели в сторону ИИ-агентов. ИИ-агенты это полноценные цифровые помощники, которые автономно выполняют работу. Они используются в бизнесе и для автоматизации рабочих процессов. В работе таких систем человек задействован минимально, а сама система планирует шаги и доводит задачу до результата.
При этом автономность ИИ это измеримая метрика. Исследователи из Model Evaluation and Threat Research (METR) измерили автономность ИИ в сравнении с человеческим трудом. Их метод заключался в том, что человек и система выполняют одну и ту же задачу, после чего проверяется, насколько долго ИИ может выполнять её самостоятельно, без вмешательства. Каждая задача имеет оценку сложности в виде времени, которое требуется человеку для её выполнения. Измеряется максимальная длительность человеческой работы, при которой ИИ достигает хотя бы 50% успеха, что называется автономным временным горизонтом. По результатам исследования этот горизонт удваивается примерно каждые семь месяцев. Таким образом, ИИ перешёл от выполнения простых задач к задачам, на которые у человека уходят часы и даже дни работы. Это соотносится с общей тенденцией перехода от чат-ботов к ИИ-агентам. При этом данная метрика отражает лишь то, как ИИ справляется с задачами по времени в сравнении с человеком, а не качество работы. ИИ по-прежнему может допускать ошибки и выдавать некачественный результат.
Однако исследование METR демонстрирует потенциальные возможности моделей. На практике автономность ИИ определяется не только возможностями самих моделей, но и интерфейсом, поведением пользователя и встроенными механизмами контроля. Исследования таких моделей, как Claude Code и API, показывают, что, хотя автономность и выросла, она всё ещё заметно ниже предполагаемого потолка возможностей моделей и уровня, наблюдаемого в оценках их потенциала. Согласно исследованиям, длительность автономных сессий выросла с 25 до 45 минут за несколько месяцев. Опытные пользователи чаще позволяют ИИ действовать автономно, но при этом и доля вмешательств выросла с 5% до 9%. Таким образом, контроль стал более осознанным: пользователи чаще вмешиваются в процесс по необходимости, а не осуществляют пошаговое управление. Это позволяет ИИ выполнять задачи автономно, однако контроль результата остаётся за пользователем. Это ближе к восприятию ИИ как инструмента и помощника в работе, нежели как системы, полностью заменяющей человека.
У автономности и развития ИИ также присутствуют определённые риски, такие как риск вредоносных знаний. Автономные системы могут выдавать потенциально опасные результаты, которые могут быть использованы во вред и противоречат человеческим ценностям. ИИ не понимает моральную сторону вопроса и не может оценить последствия — он лишь оптимизирует и выполняет задачу. Автономные системы также не избавлены от ошибок и неточностей: они могут быть неправы в данных, но при этом строить логически корректные цепочки на основе этих ошибочных предпосылок. Кроме того, чем сложнее становятся модели, тем труднее объяснить, почему модель пришла к конкретному выводу. Подобное знание становится трудно проверяемым, что ухудшает воспроизводимость результатов. Помимо этого, важной проблемой автономности ИИ является распределение ответственности. В случаях, когда система совершает ошибку, становится трудно определить, чья именно это была ошибка: пользователя, самой системы или её разработчиков.
Автономные ИИ также могут вести себя непредсказуемо в зависимости от используемой модели и условий среды, в которой они функционируют. У одних моделей наблюдаются кооперация и стабильное взаимодействие, у других — насилие, крах и деструктивное поведение. В многоагентных системах фиксировались случаи, когда ИИ игнорировал запреты и пытался обходить их в кооперации с другими системами.
Таким образом, с ростом автономности ИИ уменьшается степень контроля со стороны человека, что повышает вероятность ошибок, непредсказуемых и опасных решений, а также усложняет их поиск, анализ и обнаружение.
Возможными подходами к снижению рисков, связанных с автономным ИИ, являются развитие систем контроля и ограничений. Модель human-in-the-loop требует подтверждения со стороны человека при действиях ИИ. Активно развивается направление интерпретируемости моделей, в рамках которого решения ИИ становятся более прозрачными, позволяя человеку понимать причины, по которым ИИ пришёл к тем или иным выводам. Модели и системы ИИ также активно тестируются в сложных многошаговых сценариях, для того чтобы выявлять опасные и деструктивные стратегии до их применения в реальной среде. Таким образом, для развития автономных ИИ-систем требуется совершенствовать не только сами модели, но и подходы к контролю, распределению ответственности и регулированию их применения.