🤖 Digital

Скрытые угрозы цифрового разума: почему программисты боятся давать ИИ полную свободу

Medium

15.06.2026

Автономность ИИ тема животрепещущая, сообщает сайт ozgeris.info. Насколько сильно мы можем доверять искусственному интеллекту? Одно дело попросить его проверить твой текст или написать код, и совсем другое доверить сложную многоступенчатую задачу, в рамках которой система сама принимает решения.

Развитие автономности можно рассмотреть на примере ИИ-агентов. ИИ в самом простом понимании принято воспринимать как чат-бот, наподобие ChatGPT. Ты задаёшь системе вопрос или даёшь какой-то запрос, после чего система выдаст тебе ответ на основе данных, на которых она была обучена. Постепенно, с развитием технологий, крупные корпорации отходят от этой модели в сторону ИИ-агентов. ИИ-агенты это полноценные цифровые помощники, которые автономно выполняют работу. Они используются в бизнесе и для автоматизации рабочих процессов. В работе таких систем человек задействован минимально, а сама система планирует шаги и доводит задачу до результата.

При этом автономность ИИ это измеримая метрика. Исследователи из Model Evaluation and Threat Research (METR) измерили автономность ИИ в сравнении с человеческим трудом. Их метод заключался в том, что человек и система выполняют одну и ту же задачу, после чего проверяется, насколько долго ИИ может выполнять её самостоятельно, без вмешательства. Каждая задача имеет оценку сложности в виде времени, которое требуется человеку для её выполнения. Измеряется максимальная длительность человеческой работы, при которой ИИ достигает хотя бы 50% успеха, что называется автономным временным горизонтом. По результатам исследования этот горизонт удваивается примерно каждые семь месяцев. Таким образом, ИИ перешёл от выполнения простых задач к задачам, на которые у человека уходят часы и даже дни работы. Это соотносится с общей тенденцией перехода от чат-ботов к ИИ-агентам. При этом данная метрика отражает лишь то, как ИИ справляется с задачами по времени в сравнении с человеком, а не качество работы. ИИ по-прежнему может допускать ошибки и выдавать некачественный результат.

Однако исследование METR демонстрирует потенциальные возможности моделей. На практике автономность ИИ определяется не только возможностями самих моделей, но и интерфейсом, поведением пользователя и встроенными механизмами контроля. Исследования таких моделей, как Claude Code и API, показывают, что, хотя автономность и выросла, она всё ещё заметно ниже предполагаемого потолка возможностей моделей и уровня, наблюдаемого в оценках их потенциала. Согласно исследованиям, длительность автономных сессий выросла с 25 до 45 минут за несколько месяцев. Опытные пользователи чаще позволяют ИИ действовать автономно, но при этом и доля вмешательств выросла с 5% до 9%. Таким образом, контроль стал более осознанным: пользователи чаще вмешиваются в процесс по необходимости, а не осуществляют пошаговое управление. Это позволяет ИИ выполнять задачи автономно, однако контроль результата остаётся за пользователем. Это ближе к восприятию ИИ как инструмента и помощника в работе, нежели как системы, полностью заменяющей человека.

У автономности и развития ИИ также присутствуют определённые риски, такие как риск вредоносных знаний. Автономные системы могут выдавать потенциально опасные результаты, которые могут быть использованы во вред и противоречат человеческим ценностям. ИИ не понимает моральную сторону вопроса и не может оценить последствия — он лишь оптимизирует и выполняет задачу. Автономные системы также не избавлены от ошибок и неточностей: они могут быть неправы в данных, но при этом строить логически корректные цепочки на основе этих ошибочных предпосылок. Кроме того, чем сложнее становятся модели, тем труднее объяснить, почему модель пришла к конкретному выводу. Подобное знание становится трудно проверяемым, что ухудшает воспроизводимость результатов. Помимо этого, важной проблемой автономности ИИ является распределение ответственности. В случаях, когда система совершает ошибку, становится трудно определить, чья именно это была ошибка: пользователя, самой системы или её разработчиков.

Автономные ИИ также могут вести себя непредсказуемо в зависимости от используемой модели и условий среды, в которой они функционируют. У одних моделей наблюдаются кооперация и стабильное взаимодействие, у других — насилие, крах и деструктивное поведение. В многоагентных системах фиксировались случаи, когда ИИ игнорировал запреты и пытался обходить их в кооперации с другими системами.

Таким образом, с ростом автономности ИИ уменьшается степень контроля со стороны человека, что повышает вероятность ошибок, непредсказуемых и опасных решений, а также усложняет их поиск, анализ и обнаружение.

Возможными подходами к снижению рисков, связанных с автономным ИИ, являются развитие систем контроля и ограничений. Модель human-in-the-loop требует подтверждения со стороны человека при действиях ИИ. Активно развивается направление интерпретируемости моделей, в рамках которого решения ИИ становятся более прозрачными, позволяя человеку понимать причины, по которым ИИ пришёл к тем или иным выводам. Модели и системы ИИ также активно тестируются в сложных многошаговых сценариях, для того чтобы выявлять опасные и деструктивные стратегии до их применения в реальной среде. Таким образом, для развития автономных ИИ-систем требуется совершенствовать не только сами модели, но и подходы к контролю, распределению ответственности и регулированию их применения.