© Григорий СысоевУченики в компьютерном классе. Архивное фото
© Григорий Сысоев
Ученые Московского городского педагогического университета (МГПУ) разработали алгоритм обработки больших данных для анализа содержания сценариев уроков Московской электронной школы (МЭШ). По словам авторов, в будущем предложенный подход сможет автоматически определять «лучший» вариант сценария урока и отбрасывать некачественный контент. Результаты первого исследования опубликованы в сборнике Information.
На интернет-платформе МЭШ размещены более 2,1 млн сценариев уроков, из которых около 54 тыс. находятся в открытом доступе. Их разрабатывают и используют учителя при проведении очных и дистанционных уроков. Процесс создания нового цифрового контента идет непрерывно, ежедневно происходит увеличение объема данных.
Специалисты Управления информационных технологий МГПУ разработали интеллектуальный алгоритм для изучения данных с платформы МЭШ, который способен анализировать смысловое значение текста и визуализировать результаты в удобном для человека виде. Оценивали качество работы алгоритма по 26 предметам эксперты — преподаватели МГПУ.
"Мы сопоставляли контент сценариев уроков МЭШ к Тематическому каркасу (прим.ред. — единый классификатор тем образовательной программы по ФГОС). По всем темам и дидактическим единицам в МЭШ имеются сценарии уроков по рассмотренным нами предметам. Однако их распределение по темам и дидактическим единицам неравномерно: по каким-то создано больше уроков, по каким-то меньше", — прокомментировала доцент, старший научный сотрудник информационно-аналитического отдела МГПУ Елена Петряева.
Также она отметила, что применение алгоритма позволило изучить структуру тем сценариев уроков и выявить крупные предметные семантические группы и междисциплинарные темы.
«Например, на уровне начального общего образования были зафиксированы такие междисциплинарные темы, как «Великая отечественная война», «Мир вокруг меня», «Звуки и буквы», «Москвоведение». А в семантическую группу, к примеру, «Война» объединились сценарии уроков по предметам: всеобщая история, история России и литература, музыка. Но в целом результаты показали тематическую обособленность школьных предметов друг от друга», — рассказала Петряева.
Для обработки текстовых данных было использован метод word2vec, в основе которого лежит нейронная сеть.
«Для исследования отобрали текстовые данные 36 644 сценариев уроков. Затем их обработали и использовали для обучения алгоритма word2vec. После этого мы получили сопоставления сценариев уроков и Тематического каркаса. С целью визуализации результатов были выполнены преобразования для снижения размерности данных с использованием алгоритма t-SNE. Мы планируем повысить качество работы алгоритма с помощью расширения набора текстовых данных и перевода ключевых слов тем уроков на иностранные языки», — рассказал заместитель начальника Управления информационных технологий МГПУ Роман Куприянов.
По словам начальника Управления информационных технологий МГПУ Руслана Сулейманова, алгоритм поможет выявлять разные типы содержания и развивать ресурсы, имеющие большой педагогический потенциал.
Также ученые отметили, что алгоритм может быть использован для решения других задач: анализа домашних заданий, обработки текстового цифрового следа учеников, мониторинга образовательных результатов.
Проект реализуется под руководством доктора педагогических наук, директора института системных проектов МГПУ Светланы Вачковой.