- Wed 12 June 2024
- заметки
- #interpretable_ML, #NLP
Часто спрашивают - как интерпретировать большие языковые модели. Почему LLM выдает такое странное, куда копать и кто виноват. Раньше я считал, что интерпретировать LLM бессмысленно, все равно мы простые сельские парни ничего не поймем. Даже рассказывал об этом. Но с тех пор были разработаны интересные подходы и хорошие инструменты, вот небольшая подборка:
Статьи:
- Towards Monosemanticity: Decomposing Language Models With Dictionary Learning
- Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
- Representation Engineering: A Top-Down Approach to AI Transparency
- Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations
Старые (но не бесполезные) статьи:
- An Interpretability Illusion for BERT
- Analyzing Transformers in Embedding Space
- Locating and Editing Factual Associations in GPT
Библиотеки:
- transformer-debugger
- pyenve. A Library for Understanding and Improving PyTorch Models via Interventions и статья к ней
- transformers-interpret
- Learning Interpretability Tool
Инструменты:
- Transluce Model Investigator и статья про него
Учебники
Видео
Дополнение от Ивана Бондаренко
Я бы отметил исследования, направленные на детекцию галлюцинаций в LLM на основе анализа их внутренних состояний. На эту тему Елена Войта написала интересную статью https://arxiv.org/pdf/2208.05309.pdf (но не только она)
Интересная работа недавно была опубликована у Андрея Кузнецова из AIRI на тему того, насколько LLM оказываются линейными после файнтюнинга https://arxiv.org/abs/2405.12250
Интересные работы есть у Ирины Пионтковской на тему применения топологии для интерпретируемости LLM (например, вот https://arxiv.org/pdf/2109.04825)
Дополнение от Валентина Малых
Есть целое направление про self-explainability. Оно, кажется, у тебя упущено, а на мой взгляд его надежность в плане интерпретации ничуть не меньше, чем у других методов, но получить результат проще.
Вот научпоп статья простым языком, есть некоторое количество научных LLM-Generated Self-Explanations.
Список помогли собрать
- Валентин Мамедов, Сбербанк
- Иван Бондаренко, НГУ
- Валентин Малых, МТС ИИ
Напишите, пожалуйста, если у вас есть чем дополнить этот список.