Представлены результаты исследования по интеллектуальному сопровождению процесса автоматического извлечения данных из текстовых документов, что позволило сформировать корпус документов для образовательных программ с помощью обработки больших объемов слабоструктурированных текстов без переобработки и адаптации, без трудоёмкой работы по определению соответствующих рабочих планов дисциплин. Предметом исследования является содержание рабочих учебных программ (силлабусов), определяемое как совокупность данных, характеризующих результаты обучения и содержание предмета. В результате работы авторами создан корпус текстов из документов рабочих учебных программ по предметам образовательной программы «Информационные системы». Полученный набор документов позволяет также получить матрицу косинусных расстояний для выявления схожих документов по образовательному контенту рабочих учебных программ.
ключевые слова: извлечение данных, корпус документов, обработка естественного языка, неструктурированные данные, образовательный контент.