Microsoft выпустила новый фреймворк для тестирования поведения ИИ систем.
ASSERT (Adaptive Spec-Driven Scoring for evaluation and Regression Testing), который превращает описание правил поведения ИИ в тестовый сценарий, сообщает ozgeris.info
Согласно Microsoft, идея заключается в том, что разработчик описывает правила поведения ИИ, после чего ASSERT превращает это описание в готовый сценарий. Фреймворк оценивает правильность ответов, соблюдение политик и качество выполнения задач. Помимо этого, важной особенностью является трассировка. В рамках трассировки оценивается внутренний процесс, а не только итоговый.
Таким образом, можно тестировать ИИ системы в конкретных сценариях. Это важно на фоне постепенно усложняющейся информационной среды и ИИ систем, которые шагнули далеко за пределы простого генерирования текста. Современные ИИ модели выполняют задачи через инструменты и API. В подобных сценариях общие метрики не всегда правильно отражают поведение модели. Появление ASSERT отражает переход от анализа ответов к анализу поведения модели в целом.