Евразийский национальный университет имени Л.Н. Гумилева

В Евразийском национальном университете имени Л.Н. Гумилева состоится защита диссертации на соискание степени доктора философии (PhD) Баймаханова Айгерим Саттаровны на тему «Разработка методов классификации документов на основе алгоритмов глубокого обучения» по образовательной программе «8D06115 – Информационные системы».

Диссертация выполнена на кафедре «Компьютерная инженерия» Международного казахско-турецкого университета имени Ходжи Ахмеда Ясави.

Язык защиты - казахский

Официальные рецензенты:

Дарибаев Беимбет Серикович – доктор философии (PhD), ассоциированный профессор, проректор по академическим вопросам НАО «Университет имени Шакарима города Семей» (г. Семей, Республика Казахстан).

Мукажанов Нуржан Какенович – доктор философии (PhD), ассоциированный профессор кафедры «Программная инженерия», НАО «Казахский национальный исследовательский технический университет имени К.И. Сатпаева» (г. Алматы, Республика Казахстан).

Временные члены Диссертационного совета:

Юсуф Яслан – доктор философии (PhD), доцент кафедры «Компьютерная инженерия» Стамбульского технического университета (г. Стамбул, Республика Турция).

Оралбекова Дина Орымбаевна – доктор философии (PhD), старший научный сотрудник РГП «Института информационных и вычислительных технологий» КН МНВО РК (г. Алматы, Республика Казахстан).

Бурибаев Жолдас Алладинович – доктор философии (PhD), проректор по науке и международному сотрудничеству АО «Университет имени Мухамеджана Тынышпаева (ALT University)» (г. Алматы, Республика Казахстан).

Научные консультанты:

Жумадиллаева Айнур Канадиловна – кандидат технических наук, ассоциированный профессор кафедры «Компьютерная и программная инженерия» Евразийского национального университета имени Л.Н. Гумилева (г. Астана, Республика Казахстан).

Ешреф Адалы – PhD, профессор Стамбульского технического университета (г. Стамбул, Республика Турция).

Защита состоится: 3 октября 2025 года 11:00 часов в Диссертационном совете по направлению подготовки кадров «8D061 – Информационно-коммуникационные технологии» по образовательной программе «8D06115 – Информационные системы» Евразийского национального университета имени Л.Н. Гумилева. Проведение заседания диссертационного совета в смешанном (оффлайн и онлайн) формате.

Ссылка: https://surl.li/iiqsry

Адрес: г. Астана, ул. Пушкина, 11, Учебный корпус № 2, аудитория № 222.

Аннотация (рус.): диссертационная работа Баймахановой Айгерим Саттаровны на тему «Разработка методов классификации документов на основе алгоритмов глубокого обучения», представленной на соискание степени доктора философии (PhD) по образовательной программе «8D06115 – Информационные системы» Актуальность темы исследования. В современную цифровую эпоху объём информации и данных, накапливаемых в организациях, значительно возрос, что делает задачи управления, анализа и классификации документов особенно актуальными. Классификация документов является начальным этапом автоматизации документооборота и эффективного поиска знаний, при котором участие человека может быть вовсе не требоваться или сводиться к минимуму. В настоящее время методы искусственного интеллекта (AI), включая глубокое обучение (DL), в сочетании с сегментацией позволяют исследовать и интерпретировать свойства, которые ещё десятилетие назад были недоступны. Глубокое обучение помогает понять встроенные шаблоны, что даёт возможность прогнозировать классы объектов. Процесс сегментации разделяет введённое изображение на отдельные сегменты, открывая путь к его более глубокому изучению. В настоящее время организации (учреждения, предприятия) работают с большим объёмом визуальных документов – отсканированных заявлений, распоряжений, приказов, приложений, справок, служебных писем. Архивы документов насчитывают сотни тысяч сканированных материалов различных типов. Все они представлены в виде изображений без метаданных, зачастую с частичными искажениями: низким качеством сканирования, наличием подписей и печатей. Актуальность исследования обусловлена необходимостью повышения эффективности документооборота, сокращения ручной обработки, уменьшения количества ошибок и внедрения интеллектуальных систем в архивные, правовые и организационные процессы. Современные методы, основанные на глубоком обучении, позволяют с высокой точностью обрабатывать искажённые, некачественные или неполные изображения, обеспечивая надёжное распознавание и классификацию документов. Информационные системы на основе глубокого обучения дают возможность автоматического и высокоточного решения этих задач. Документы широко применяются в различных значимых сферах, включая научные исследования, сохранение исторического наследия, управление юридической документацией и административными записями. Корректная классификация и обработка таких документов обеспечивает эффективную работу поисковых систем, а также быстрый и надёжный доступ к данным. Проблема информационной безопасности и оперативного доступа к информации является одной из ключевых в современном информационном обществе. Процесс эффективной классификации документов крайне сложен, поскольку они представлены в разнообразных форматах (текстовых, графических, смешанных) и обладают специфическими характеристиками в зависимости от содержания. Традиционные методы классификации могут не справляться со сложностью и большим объёмом архивных материалов, что замедляет процессы управления и поиска. Поэтому применение методов искусственного интеллекта и глубокого обучения в области обработки и классификации документов чётко демонстрирует актуальность данной темы. Вопросы применения глубокого обучения в процессе классификации документов и исследования его эффективности рассматривались в научных трудах ряда учёных. В частности, в этом направлении M. Manna, P. Das, A. K. Das, I. Goodfellow, А. Р. Давлетов, Н. Г. Полетаева, М. Н. Краснянский, А. К. Марков, А. Шаушенова и другие исследователи всесторонне проанализировали возможности и преимущества моделей глубокого обучения. Проблемы автоматической классификации документов в настоящее время широко рассматриваются в исследованиях как отечественных, так и зарубежных учёных. В данном направлении особого внимания заслуживают работы S. Jiang, S. Minaee, M. N. Asim, М. А. Самбетбаевой, А. Баегизовой и других исследователей. В указанных научных трудах подробно и системно изучена эффективность применения методов глубокого обучения, рассмотрены способы классификации документов, выполнен сравнительный анализ традиционных и современных алгоритмов глубокого обучения, а также исследованы вопросы повышения качества изображения документа с помощью глубокого обучения, оптимизации процесса управления документами, их хранения, упрощения доступа и автоматической классификации. Приведённые выше последние исследования послужили основой для чёткого определения темы нашего исследования и систематизации его направления. В частности, вопросы автоматической классификации документов, применения эффективных методов машинного обучения и глубокого обучения при их обработке в настоящее время представляют собой актуальный научно-практический запрос. В результате целью нашего исследования стало использование методов, основанных на глубоком обучении, для повышения эффективности автоматической классификации документов. Накопление больших объёмов документов и необходимость их перевода в цифровой формат требуют управления системами на новом уровне. Кроме того, оцифровка документов упрощает их обработку и позволяет экономить время. Развитие новых технологий и методов искусственного интеллекта открывает возможности для управления архивными документами, что, с учётом их структурных особенностей, обеспечивает быстрое и точное выполнение классификации. Корректная и оперативная классификация оптимизирует процессы организации и хранения документов, повышает производительность информационных систем. Предложенная в данном исследовании модель HybridViT разработана для точной и эффективной классификации документов. Эта модель ориентирована на простое и дифференцированное распознавание документов путём объединения архитектур Vision Transformer (ViT) и EfficientNet. В ходе исследования были всесторонне рассмотрены различные архитектуры и их особенности в задаче классификации, после чего выбраны наиболее эффективные методы. Преимущество модели HybridViT заключается в её способности распознавать сложные структуры и многогранные особенности архивных документов, обеспечивая более точную их классификацию. Применение данной модели позволяет учитывать характеристики документов, связанные с их содержанием и структурой, обеспечивая их быструю и надёжную классификацию. Цель диссертационного исследования. Разработка и создание прототипа информационной системы для автоматизированной классификации документов с использованием методов и алгоритмов глубокого обучения, включающей предварительную обработку и анализ документов, формирование набора данных документов, эффективную модель глубокого обучения для их классификации, а также интеллектуальную систему, автоматизирующую работу пользователей. Для достижения поставленной цели определены следующие задачи: 1.Проанализировать современные методы классификации документов, включая традиционные подходы машинного обучения и методы глубокого обучения, с определением их преимуществ и ограничений. 2.Разработать методы предварительной обработки и адаптации отсканированных и структурированных документов установленной формы. 3.Построить модель классификации, способную различать типы документов на основе их изображений, и оценить её эффективность с использованием основных метрик. 4.Разработать информационную систему, предназначенную для автоматизации работы пользователя с документами. Основные результаты, представляемые на защиту: 1.Создан уникальный набор данных, состоящий из обработанных документов, включающих сканированные и различные структурированные формы документооборота. 2.Разработана новая архитектура гибридной модели, объединяющая масштабные и локальные признаки на основе ViT и EfficientNet. 3.Разработана начальная версия информационной системы для автоматической классификации документов, эффективность которой подтверждена сравнительными исследованиями, а интерпретация решений модели продемонстрирована с помощью карт внимания и активации. Научная новизна исследования заключается в следующем: 1. Предложена гибридная модель глубокого трансферного обучения для обработки документов на масштабном и локальном уровнях на основе ViT и EfficientNet, на базе которой разработан прототип информационной системы. 2. Разработаны методы предварительной обработки изображений документов и модуль связи, адаптирующий выход ViT ко входу EfficientNet. Архитектура модели реализована с использованием метода обучения с заморозкой параметров для повышения эффективности обучения. 3. С помощью визуализации механизма внимания доказано положительное влияние глобальных признаков ViT на точность классификации и устойчивость модели к искажениям. 4. Разработана информационная система для автоматической классификации документов. Объект исследования – визуальные документы в автоматизированных системах обработки, включая сканированные, рукописные и структурированные по форме документные изображения. Предмет исследования – процессы и модели автоматической классификации визуальных документов на основе методов глубокого обучения. Методология исследования. При решении поставленных задач использовались алгебраические формулы, методы компьютерного зрения и моделирования, машинного обучения и анализа данных. Методы исследования. В ходе работы применялись подходы, основанные на использовании различных архитектур нейронных сетей для классификации документов. Изучались модели глубокого обучения, позволяющие распознавать различные характеристики документов и осуществлять их корректную классификацию. Для проведения экспериментов был подготовлен набор архивных документов, к которым применялись методы предварительной обработки, а также проведён сравнительный анализ различных архитектур с целью выявления различий и оценки их эффективности. Программное обеспечение. Методологическую основу разработки алгоритмов и программных средств обеспечили программные инструменты Python, PostgreSQL и Docker.Зерттеудің теориялық маңыздылығы. Теоретическая значимость исследования. Данное исследование расширяет теоретические основы в области автоматической классификации документов на основе методов глубокого обучения. Рассматриваются вопросы адаптации нейронных сетей, таких как CNN и Transformer, к обработке изображений документов, анализируются их архитектурные особенности, а также исследуются проблемы эффективной обработки визуальных признаков. Практическая значимость исследования. Результаты исследования имеют важное практическое значение для повышения эффективности автоматической классификации документов. Использование модели HybridViT в архивных системах способствует быстрой и точной классификации архивных документов, что, в свою очередь, обеспечивает их систематизированное упорядочение и повышает доступность. Автоматическое распределение документов по классам в соответствии с их структурой и содержанием значительно упрощает процессы управления и поиска данных. Полученные результаты могут быть использованы для автоматизации управления и поиска документов в таких организациях, как архивы, государственные учреждения и научно-исследовательские центры. Главное преимущество модели HybridViT заключается в её способности точно определять сложную структуру и содержание архивных документов. Модель адаптирована к пониманию разнообразных содержательных особенностей документов, что позволяет классифицировать их, даже если они представлены в различных форматах. Таким образом, процессы хранения и сортировки документов значительно упрощаются, а их обработка и поиск становятся быстрее. Применение HybridViT в системах не только повышает эффективность управления большими объёмами документов различных форматов, но и ускоряет доступ к информации, способствуя укреплению безопасности данных. Личный вклад докторанта. Исследования, представленные в диссертации, были проведены соискателем самостоятельно в процессе научной деятельности. Соискатель лично разработал программное обеспечение, реализующее алгоритмы и предложенные методы анализа; получил экспериментальные и теоретические результаты, представленные на защиту. Индивидуальный вклад автора диссертации в совместные публикации заключается в разработке методов и алгоритмов, а также в подготовке и представлении результатов исследования для публикации. Достоверность, надёжность и обоснованность выводов и результатов исследования обеспечены их апробацией на международных научных и научно-практических конференциях; публикацией результатов в научных журналах, индексируемых в международных наукометрических базах Scopus и Web of Science (Clarivate Analytics); получением актов внедрения (Приложение А) и свидетельства об авторском праве (Приложение Ә). Результаты исследования внедрены. Результаты диссертационной работы подтверждены свидетельством об авторском праве на программу для ЭВМ «Классификация документов с использованием алгоритма глубокого обучения». Апробация результатов диссертации. Основные результаты диссертационной работы были представлены на семинарах Международного казахско-турецкого университета имени Ходжи Ахмеда Ясави и на международных конференциях (Россия, Бельгия): 1.Семинары докторантов кафедры «Компьютерная инженерия» (Кентау, 2021–2023 гг.). 2.Analysis of the state of digital document flow in educational organizations, «Progress in Science», Proceedings of the 1st International Scientific Conference. – Brussels, Belgium, 15–16.12.2022. – P. 12–15. Основные положения диссертации опубликованы в следующих научных трудах. По теме исследования опубликовано 10 научных работ, из которых 1 – в журнале, индексируемом в базе данных Scopus, 4 – в научных журналах, рекомендованных КОКСНВО МНВО РК, 5 – в сборниках международных и отечественных конференций. По результатам диссертации получено свидетельство о государственной регистрации объекта авторского права. Объем и структура диссертации. Структура и объём диссертации. Диссертационная работа написана на казахском языке и состоит из введения, четырёх взаимосвязанных разделов, разделённых на подразделы, заключения и списка использованных источников. Объём работы составляет 105 страниц, включает 71 рисунков и 5 таблиц. Список использованных источников насчитывает 124 наименования. Во введении обосновывается актуальность выбранной темы диссертации, формулируются цели и основные задачи исследования, новизна и практическая значимость работы, а также представлен динамический литературный обзор по теме. В первом разделе рассмотрены теоретические и методологические основы процесса классификации документов. Проанализированы роль и значение автоматической классификации в различных сферах. Дан обзор традиционных алгоритмов и алгоритмов, основанных на глубоком обучении, применяемых для классификации документов, а также проведён их сравнительный анализ. Во втором разделе исследованы методы глубокого обучения, используемые при работе с архивными документами. Описана структура архивных данных, приведены этапы предварительной обработки, необходимые для обучения нейросетевых моделей. Изучены возможности и преимущества применения архитектур CNN, RNN, Vision Transformer, а также гибридных моделей (HybridViT, ViT, EfficientNet) в процессе классификации. В третьем разделе представлены экспериментально-сравнительные исследования, направленные на оценку эффективности разработанных моделей. Описан план экспериментального исследования и методика разделения данных, проанализированы результаты различных архитектур глубокого обучения и влияние параметров обучения. Приведены результаты тестирования модели HybridViT и показаны её преимущества в задачах классификации. В четвёртом разделе рассмотрены вопросы практической реализации результатов исследования. Разработана информационная система для управления архивными документами, представлена её логическая структура и пользовательский интерфейс. Описаны основные функции системы и механизмы их реализации, определена эффективность созданного программного обеспечения и направления его дальнейшего развития. В заключении сформулированы основные научные выводы по всему диссертационному исследованию и положения, выносимые на защиту. Благодарности. Автор выражает благодарность своим научным руководителям – кандидату технических наук, ассоциированному профессору Жумадиллаевой Айнур Канадиловне и профессору Стамбульского университета (Турецкая Республика), PhD Ешрефу Адалы – за ценные советы, данные в ходе проведения исследования.

Диссертация

Список научных трудов

Отзыв научного консультанта

Отзыв зарубежного консультанта

Заключение комиссии по этической оценке исследований

Отзыв официального рецензента

Решение диссертационного совета

Защита диссертации: https://www.youtube.com/watch?v=mI3okX3e7Cw