При поддержке некоммерческого фонда развития науки и образования «Интеллект»
Искусственный интеллект и наука МГУ имени М. В. Ломоносова
При поддержке некоммерческого фонда развития науки и образования «Интеллект»
Искусственный интеллект и наука МГУ имени М. В. Ломоносова
Лекция от приглашенного эксперта
Использование больших языковых моделей
для обработки и генерации текста
Ксения Студеникина
Приглашенный эксперт
Программист Лаборатории автоматизированных лексикографических систем «НИВЦ МГУ», аспирант 1 г. о. кафедры ТиПЛ филологического факультета
МГУ имени М. В. Ломоносова, выпускница MSU.AI 2022 года
2 июня с 16:00 до 18:00
ОЧНО в аудитории НИИЯФ (Ленинские горы 1с58)
ПРОГРАММА ЛЕКЦИИ:

Вводная часть
1. Что такое языковое моделирование: обучение для предсказания следующего слова, генерация текста на этапе тестирования, статистические vs. нейросетевые языковые модели

2. Основной прорыв благодаря архитектуре Трансформер: задача машинного перевода, энкодер, декодер, механизм внимания. Обзор статьи «Attention Is All You Need»

Модели-энкодеры
1. Почему бы не использовать только энкодер?
- Первая языковая модель-энкодер – BERT: маскированное языковое моделирование, предсказание следующего предложения. Обзор статьи «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding»
- Дообучение и использование: классификация пар предложений (MNLI, QNLI, RTE), классификация одного предложения (SST-2, CoLA), поиск ответа на вопрос (SQuAD), разметка последовательности

2. Оценка и сравнение моделей с помощью бенчмарков GLUE, SuperGLUE, примеры BERT-like моделей:
- RoBERTa: динамическое маскирование, больше данных, исключение задачи предсказания следующего предложения. Обзор статьи «RoBERTa: A Robustly Optimized BERT Pretraining Approach»
- ALBERT: обмен параметрами между слоями, факторизация параметризации эмбеддингов, определение порядка предложений. Обзор статьи «ALBERT: A Lite BERT for Self-supervised Learning of Language Representations»

3. Практическая часть: дообучение BERT для анализа тональности

Модели-декодеры
1. Почему бы не использовать только декодер?
- Первая языковая модель-декодер – GPT. Обзор статьи «Improving Language Understanding by Generative Pre-Training»
- Увеличение параметров и данных: GPT-2, GPT-3
- Zero-shot: решение задач без дообучения, используя знания языковой модели

2. Обучение с подкреплением на основе отзывов людей: InstructGPT. Обзор статьи «Training language models to follow instructions with human feedback»

3. Практическая часть: дообучение ruGPT-3 для генерации текста в определенном стиле

Заключительная часть
1. Тренды развития больших языковых моделей: мультиязычность, мультимодальность

Ответы на вопросы слушателей
Запишитесь на лекцию
для слушателей и выпускников курса «Нейронные сети и их применение в научных исследованиях»
Регистрация до 31.05.23 включительно
Нажимая на кнопку, вы даете согласие на обработку персональных данных и соглашаетесь c политикой конфиденциальности