Путь к странице
Анализ текстовых данных
Начало занятий: c 18 июня 2021
Срок обучения: 12 недель
Выдаваемый документ: Сертификат не выдаётся

Онлайн-курс «Анализ текстовых данных» посвящён обработке текстов методами машинного обучения. В ходе обучения слушатели курса узнают о различных задачах, связанных с анализом текстов, освоят методы предобработки текстовых данных, изучат основные подходы к решению задач на основе классического машинного обучения и глубоких нейронный сетей.

О курсе

Онлайн-курс посвящён обработке текстов методами машинного обучения. В ходе обучения слушатели курса узнают о различных задачах, связанных с анализом текстов.Целью курса является изучение подходов к решению основных задач автоматической обработки текстов на основе классического машинного обучения и глубоких нейронный сетей. В ходе курса слушатели освоят методы предобработки текстовых данных и научатся применять на практике основные методы классификации и кластеризации текстов, методы поиска и / или генерации ответа на вопрос и базовые методы машинного перевода. Слушателям будут предложены тестовые задания на понимание материала, а также практические задания на программирование. 

Курс рассчитан на слушателей, имеющих базовые знания об анализе данных и машинном обучении и готовых освоить одно из наиболее перспективных и активно развивающихся направлений в этих областях. Для эффективного усвоения курса требуется базовое владение языком программирования Python и возможность проводить вычисления на графических процессорах.

Формат

Курс состоит из видеолекций, разбитых на короткие фрагменты от 8 до 15 минут длиной. Каждая лекция сопровождается оцениваемым тестом из 15-20 вопросов. В конце курса слушателей, претендующих на получение сертификата, ждет итоговый экзамен по всем материалам курса. 

Программа курса

1. Введение в анализ текстов, базовые методы предобработки и выделения признаков

2. Неглубокие векторные представления слов

3. Классификация текстов

4. Разметка последовательности

5. Seq2seq, MT, attention, transformer

6. Предобученные языковые модели. Улица Сезам, часть 1

7. Предобученные языковые модели. Улица Сезам, часть 2

8. Синтаксис в рамках грамматики зависимостей

9. Тематическое моделирование

10. Суммаризация и симплификация текстов

11. QA-системы, чат-боты

12. Графы знаний

На онлайн курсе от НИУ ВШЭ рассматриваются подходы к решению основных задач автоматической обработки текстов на основе классического машинного обучения и глубоких нейронный сетей. Слушатели смогут освоить методы предобработки текстовых данных и научиться применять на практике основные методы классификации и кластеризации текстов, методы поиска и / или генерации ответа на вопрос и базовые методы машинного перевода. 


Курс рассчитан на слушателей, имеющих базовые знания об анализе данных и машинном обучении и готовых освоить одно из наиболее перспективных и активно развивающихся направлений в этих областях. Для эффективного усвоения курса требуется базовое владение языком программирования Python и возможность проводить вычисления на графических процессорах.

Курс состоит из коротких лекций, которые разделены на темы и подтемы. Для закрепления лекционного материала на курсе будут предложены тестовые задания, а также практические задания на программирование.

  1. Введение в анализ текстов, базовые методы предобработки и выделения признаков
  2. Неглубокие векторные представления слов
  3. Классификация текстов
  4. Разметка последовательности
  5. Машинный перевод
  6. Предобученные языковые модели. Улица Сезам 1.
  7. Предобученные языковые модели. Улица Сезам 2
  8. Синтаксис в рамках грамматики зависимостей
  9. Тематическое моделирование
  10. Суммаризация и симплификация текстов
  11. QA-системы
  12. Графы знаний

Трудоёмкость: 5 зачетных единиц