Интерпретируемость LLM

12.06.2024
12.08.2025
заметки
#interpretable_ML, #NLP

Часто спрашивают - как интерпретировать большие языковые модели. Почему LLM выдает такое странное, куда копать и кто виноват. Раньше я считал, что интерпретировать LLM бессмысленно, все равно мы ~~простые сельские парни~~ ничего не поймем. Даже рассказывал об этом. Но с тех пор были разработаны интересные подходы и хорошие инструменты, вот небольшая подборка:

Статьи:

Старые (но не бесполезные) статьи:

Библиотеки:

Инструменты:

Transluce Model Investigator и статья про него

Учебники

Transformer Interpretability

Видео

Дополнение от Ивана Бондаренко

Я бы отметил исследования, направленные на детекцию галлюцинаций в LLM на основе анализа их внутренних состояний. На эту тему Елена Войта написала интересную статью https://arxiv.org/pdf/2208.05309.pdf (но не только она)

Интересная работа недавно была опубликована у Андрея Кузнецова из AIRI на тему того, насколько LLM оказываются линейными после файнтюнинга https://arxiv.org/abs/2405.12250

Интересные работы есть у Ирины Пионтковской на тему применения топологии для интерпретируемости LLM (например, вот https://arxiv.org/pdf/2109.04825)

Дополнение от Валентина Малых

Есть целое направление про self-explainability. Оно, кажется, у тебя упущено, а на мой взгляд его надежность в плане интерпретации ничуть не меньше, чем у других методов, но получить результат проще.

Вот научпоп статья простым языком, есть некоторое количество научных LLM-Generated Self-Explanations.

Список помогли собрать

Валентин Мамедов, Сбербанк
Иван Бондаренко, НГУ
Валентин Малых, МТС ИИ

Напишите, пожалуйста, если у вас есть чем дополнить этот список.