🤖 Digital

Microsoft выпустила новый фреймворк для тестирования поведения ИИ систем

Microsoft выпустила новый фреймворк для тестирования поведения ИИ систем

Microsoft выпустила новый фреймворк для тестирования поведения ИИ систем.
ASSERT (Adaptive Spec-Driven Scoring for evaluation and Regression Testing), который превращает описание правил поведения ИИ в тестовый сценарий, сообщает ozgeris.info

Согласно Microsoft, идея заключается в том, что разработчик описывает правила поведения ИИ, после чего ASSERT превращает это описание в готовый сценарий. Фреймворк оценивает правильность ответов, соблюдение политик и качество выполнения задач. Помимо этого, важной особенностью является трассировка. В рамках трассировки оценивается внутренний процесс, а не только итоговый.

Таким образом, можно тестировать ИИ системы в конкретных сценариях. Это важно на фоне постепенно усложняющейся информационной среды и ИИ систем, которые шагнули далеко за пределы простого генерирования текста. Современные ИИ модели выполняют задачи через инструменты и API. В подобных сценариях общие метрики не всегда правильно отражают поведение модели. Появление ASSERT отражает переход от анализа ответов к анализу поведения модели в целом.

Все новости