Интерпретируемость LLM


Часто спрашивают - как интерпретировать большие языковые модели. Почему LLM выдает такое странное, куда копать и кто виноват. Раньше я считал, что интерпретировать LLM бессмысленно, все равно мы простые сельские парни ничего не поймем. Даже рассказывал об этом. Но с тех пор были разработаны интересные подходы и хорошие инструменты, вот небольшая подборка:

Статьи:

Старые (но не бесполезные) статьи:

Библиотеки:

Инструменты:

Учебники

Видео

Дополнение от Ивана Бондаренко

Я бы отметил исследования, направленные на детекцию галлюцинаций в LLM на основе анализа их внутренних состояний. На эту тему Елена Войта написала интересную статью https://arxiv.org/pdf/2208.05309.pdf (но не только она)

Интересная работа недавно была опубликована у Андрея Кузнецова из AIRI на тему того, насколько LLM оказываются линейными после файнтюнинга https://arxiv.org/abs/2405.12250

Интересные работы есть у Ирины Пионтковской на тему применения топологии для интерпретируемости LLM (например, вот https://arxiv.org/pdf/2109.04825)

Дополнение от Валентина Малых

Есть целое направление про self-explainability. Оно, кажется, у тебя упущено, а на мой взгляд его надежность в плане интерпретации ничуть не меньше, чем у других методов, но получить результат проще.

Вот научпоп статья простым языком, есть некоторое количество научных LLM-Generated Self-Explanations.

Список помогли собрать

  • Валентин Мамедов, Сбербанк
  • Иван Бондаренко, НГУ
  • Валентин Малых, МТС ИИ

Напишите, пожалуйста, если у вас есть чем дополнить этот список.