ПРОГРАММА ЛЕКЦИИ:Вводная часть1. Что такое языковое моделирование: обучение для предсказания следующего слова, генерация текста на этапе тестирования, статистические vs. нейросетевые языковые модели
2. Основной прорыв благодаря архитектуре Трансформер: задача машинного перевода, энкодер, декодер, механизм внимания. Обзор статьи
«Attention Is All You Need»
Модели-энкодеры1. Почему бы не использовать только энкодер?
- Первая языковая модель-энкодер – BERT: маскированное языковое моделирование, предсказание следующего предложения. Обзор статьи
«BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding»- Дообучение и использование: классификация пар предложений (MNLI, QNLI, RTE), классификация одного предложения (SST-2, CoLA), поиск ответа на вопрос (SQuAD), разметка последовательности
2. Оценка и сравнение моделей с помощью бенчмарков GLUE, SuperGLUE, примеры BERT-like моделей:
- RoBERTa: динамическое маскирование, больше данных, исключение задачи предсказания следующего предложения. Обзор статьи
«RoBERTa: A Robustly Optimized BERT Pretraining Approach»- ALBERT: обмен параметрами между слоями, факторизация параметризации эмбеддингов, определение порядка предложений. Обзор статьи
«ALBERT: A Lite BERT for Self-supervised Learning of Language Representations»3. Практическая часть: дообучение BERT для анализа тональностиМодели-декодеры1. Почему бы не использовать только декодер?
- Первая языковая модель-декодер – GPT. Обзор статьи
«Improving Language Understanding by Generative Pre-Training»- Увеличение параметров и данных: GPT-2, GPT-3
- Zero-shot: решение задач без дообучения, используя знания языковой модели
2. Обучение с подкреплением на основе отзывов людей: InstructGPT. Обзор статьи
«Training language models to follow instructions with human feedback»3. Практическая часть: дообучение ruGPT-3 для генерации текста в определенном стилеЗаключительная часть1. Тренды развития больших языковых моделей: мультиязычность, мультимодальность
Ответы на вопросы слушателей