Евразийский национальный университет имени Л.Н. Гумилева

В Евразийском национальном университете имени Л.Н. Гумилева состоится защита диссертации на соискание степени доктора философии (PhD) Хасановой Асель Алибековны на тему «Разработка моделей и методов анализа данных социальных сетей в условиях частичной неопределенности» по образовательной программе «8D06103 – Информационные системы».

Диссертация выполнена на кафедре «Кафедра Информационных систем» Евразийского национального университета имени Л.Н. Гумилева.

Язык защиты - на русском

Официальные рецензенты:

Исмаилова Айсулу Абжаппаровна – доктор философии PhD, Академик Международной академии информатизации, ассоциированный профессор кафедры «Информационные системы», НАО «Казахского агротехнического университета имени С.Сейфуллина» (г. Астана, Республика Казахстан);

Бапиев Идеят Мэлсович - доктор философии (PhD), и.о. доцента Западно-Казахстанского аграрно-технического университета имени Жангир хана (г. Уральск, Казахстан).

Временные члены Диссертационного совета:

Рахимов Кувватали Ортикович, доктор философии по техническим наукам (PhD), профессор кафедры прикладной математики и информатики Ферганского государственного университета (г. Фергана, Узбекистан);

Еримбетова Айгерим Сембековна – доктор философии (PhD), кандидат технических наук, ассоциированный профессор, ведущий научный сотрудник Института информационных и вычислительных технологий КН МНВО РК (г. Алматы, Республика Казахстан);

Садирмекова Жанна Бакирбаевна – доктор философии (PhD), ассоциированный профессор Школы программной инженерии Astana IT University (г. Астана, Республика Казахстан).

Научные консультанты:

Ла Лира Львовна – кандидат физико-математических наук, доцент кафедры «Информационные системы» Евразийского национального университета имени Л.Н. Гумилева, (г. Астана, Республика Казахстан);

Барахнин Владимир Борисович – доктор технических наук, профессор, заведующий кафедрой математического моделирования механико-математического факультета, Новосибирский государственный университет, Россия, г. Новосибирск.

Защита состоится: 22 мая 2026 года 10:00 часов в Диссертационном совете по направлению подготовки кадров «8D061 – Информационно-коммуникационные технологии» по образовательной программе «8D06103 – Информационные системы» Евразийского национального университета имени Л.Н. Гумилева. Заседание диссертационного совета состоится в офлайн и онлайн формате.

Ссылка: https://teams.microsoft.com/meet/44948985006137?p=uM80R8VcIrSsDHkxyl

Адрес: г. Астана, ул. Пушкина 11, аудитория № 222 аудитория.

Аннотация (рус.): АННОТАЦИЯ диссертационной работы Хасановой Асель Алибековны на тему «Разработка моделей и методов анализа данных социальных сетей в условиях частичной неопределенности», представленной на соискание степени доктора философии (PhD) по образовательной программе «8D06103 – Информационные системы» Актуальность диссертационного исследования заключается в потребности создания новых методов анализа данных социальных сетей, функционирующие в условиях частичной неопределенности. Существующие математические модели распространения информации сложно применять на практике, так как их параметры невозможно точно определить по имеющимся цифровым данным, что создает разрыв между теорией и реальностью. Кроме того, возрастает значимость анализа текстов из анонимных частей интернета, где используются скрытые смыслы, сленг и постоянно меняющийся язык, что делает традиционные методы классификации неэффективными. В связи с этим возникает необходимость в разработке комплексных подходов, которые бы сочетали моделирование распространения информации и интеллектуальный анализ текстов, учитывая при этом неполноту и неопределенность наблюдаемых данных. Целью диссертационного исследования является разработка теоретически обоснованных моделей и методов для анализа данных социальных сетей. Особое внимание уделяется обеспечению их устойчивости к неполноте информации, что критически важно при моделировании процессов распространения информации и идентификации потенциальных текстовых угроз. Объектом диссертационного исследования являются процессы распространения информации в социальных сетях и анонимных сегментах сети, а также текстовые данные, публикуемые пользователями в цифровой среде. Предметом диссертационного исследования являются методы определения параметров моделей распространения информации и методы интеллектуальной классификации текстовых угроз в условиях шума, неполноты наблюдений и неоднозначности языка. Задачи диссертационного исследования: 1. Анализ существующих моделей распространения информации в социальных сетях; 2. Адаптация классической SIR-модели к условиям цифровых сетей; 3. Разработка метода определения ключевых параметров модели β и γ на основе данных социальных сетей; 4. Анализ существующих методов поиска и классификации текстов из даркнета; 5. Разработка механизма оценки неопределенности решений моделей; 6. Разработка метода динамической агрегации с учетом неопределенности; 7. Реализация программного прототипа и проведение экспериментальной валидации на многоязычном датасете. Методами, используемыми для исследования, являются применение методов машинного обучения, стохастического моделирования, теории вероятностей и информации, машинного обучения, обработки естественного языка и вычислительного эксперимента. Основные результаты, выносимые на защиту: 1. Метод определения ключевых параметров модели распространения информации в социальных сетях, основанный на адаптированной SIR-модели и геометрическом анализе динамики эмпирических кривых распространения контента, позволяющий формализовать характеристики цифровых информационных процессов в условиях частичной наблюдаемости. 2. Метод интеллектуальной классификации текстовых угроз в даркнете, основанный на ансамбле семантической модели (Multilingual BERT) и статистической модели (TF-IDF + Logistic Regression) с динамической агрегацией и формализованным учетом неопределенности, обеспечивающий адаптивный анализ слабоструктурированных текстовых данных. 3. Программный прототип, реализующий предложенные математические модели и алгоритмы и обеспечивающий экспериментальную верификацию метода интеллектуальной классификации текстовых угроз в условиях анонимной и нестабильной цифровой среды. Научная новизна диссертационного исследования: 1. Метод определения ключевых параметров модели распространения информации в социальных сетях, основанный на адаптированной SIR-модели и геометрическом анализе динамики эмпирических кривых распространения контента, позволяющий формализовать характеристики цифровых информационных процессов в условиях частичной наблюдаемости. 2. Метод интеллектуальной классификации текстовых угроз в даркнете, основанный на ансамбле семантической модели (Multilingual BERT) и статистической модели (TF-IDF + Logistic Regression) с динамической агрегацией и формализованным учетом неопределенности, обеспечивающий адаптивный анализ слабоструктурированных текстовых данных. 3. Программный прототип, реализующий верификацию предложенного метода интеллектуальной классификации текстовых угроз в условиях анонимной и нестабильной цифровой среды. Теоретическая значимость результатов диссертационного исследования: 1. Предложенная модель на основе эпидемиологических концепций представляет собой новое направление в теории распространения информации, позволяя более глубоко понять механизмы динамики распространения информции в социальных сетях. 2. Сформирована математическая интерпретация параметров распространения информации, позволяющая рассматривать социальные сети как динамические системы с изменяющимися во времени характеристиками. 3. Разработанный метод интеллектуальной классификации текстовых угроз расширяет теоретические основы анализа слабоструктурированных данных за счет интеграции нейросетевых моделей, ансамблирования и формализованного учета неопределенности, обеспечивая адаптивный анализ контента в анонимных цифровых средах. 4. Метод классификации текстовых угроз на основе Multilingual BERT и TF-IDF + Logistic Regression с динамической агрегацией и учетом неопределенности развивает теоретические основы адаптивных ансамблевых моделей анализа слабоструктурированных данных. Реализованный программный прототип подтверждает применимость разработанного подхода. Практическая значимость результатов диссертационного исследования: 1. Предложенный метод определения параметров модели распространения информации позволяет проводить аналитическое исследование динамики распространения контента в социальных сетях, моделировать варианты развития информационных процессов и выявлять тенденции изменения уровня активности пользователей социальных сетей. 2. Предложенный метод интеллектуальной классификации текстовых угроз позволяет автоматически оценивать риск текстовых материалов в условиях наличия шумных и частично наблюдаемых данных, тем самым повышая устойчивость принимаемых решений к неопределенности и вариативности формулировок. 3. Динамическая агрегация семантических и статистических моделей позволяет адаптивно перераспределять доверие между моделями в зависимости от характеристик конкретного документа, что снижает вероятность ложных срабатываний и повышает надежность анализа. 4. Разработанный программный прототип реализует полный цикл анализа текстовых данных и может быть использован в системах мониторинга информационного пространства, фильтрации потенциально опасного контента и поддержки принятия решений в сфере информационной безопасности. Личный вклад автора состоит в непосредственном выполнении исследований по всем разделам и логическим звеньям диссертации: проведение обзора и анализа ранее представленных работ, выбор и обоснование использованных методов, разработка и техническая реализация методов, апробация и тестирование разработанных методов на исходных данных. Публикации по теме диссертационного исследования. По теме диссертационного исследования было опубликовано 6(шесть) научных трудов, из них 1 (одна) статья в научном журнале с ненулевым импакт-фактором, входящим в международную базу SCOPUS (процентиль по CiteScore2022 равный 65), 4 (четыре) статьи в журналах, рекомендованных Комитетом по обеспечению качества в сфере науки и высшего образования Министерства науки и высшего образования Республики Казахстан, 1 (одна) статья в сборниках международных конференций. Внедрение результатов исследования. Результаты диссертационной работы успешно внедрены в практическую деятельность организаций и подтверждены актами внедрения. Методы и разработки, предложенные в работе, а именно метод определения параметров распространения информации на основе адаптированной SIR-модели и метод интеллектуальной классификации текстовых угроз на основе ансамбля статистических и семантических моделей с динамической агрегацией и оценкой неопределенности, применяются в работе ТОО «QazSOC» и ТОО «Cyber Force». Структура и объем диссертационной работы. Диссертационное исследование представлено в следующем формате: введение, четыре основных раздела, заключение, список использованных источников (120 наименования) и два приложения. Общий объем составляет 116 страницы компьютерного текста с использованием инструментов для выделения ключевых моментов, таких как иллюстрации, схемы и таблицы, сопровождается 22 рисунками и 58 таблицами. Во введении обоснована актуальность анализа данных социальных сетей в условиях частичной неопределенности, сформулированы цель, объект и предмет исследования, определены задачи работы и показана необходимость совместного рассмотрения динамики распространения информации и классификации текстового контента. В первом разделе исследована проблема неопределенности при анализе социальных сетей. Рассмотрены структурная неопределенность в моделях распространения информации и контентная неопределенность в задачах классификации текстов, выполнен сравнительный анализ существующих моделей распространения и методов классификации, проведен обзор научных публикаций и сформулирована постановка задачи исследования. Во втором разделе предложен геометрический метод определения параметров модели распространения информации по агрегированным данным, вычислено базовое репродуктивное число и проведены теоретическое обоснование, экспериментальная проверка и статистическая валидация метода. В третьем разделе предложен метод интеллектуальной классификации текстовых угроз. Описана архитектура метода, выполнена предобработка текстов, реализованы статистическая модель TF-IDF и семантическая модель Multilingual BERT, сформирован ансамбль классификаторов, введена оценка неопределенности и разработан механизм динамической агрегации с вычислением риск-скора и сравнительной экспериментальной оценкой. В четвертом разделе представлена программная реализация предложенного метода: сформирован многоязычный датасет, описана архитектура программного прототипа, реализованы функциональные модули и проведена проверка программного прототипа. В заключении подведены итоги исследования, подтверждена эффективность предложенных методов определения параметров модели распространения информации и классификации текстовых угроз, а также отмечена их практическая применимость для анализа данных социальных сетей. В приложениях представлены авторские свидетельства и акты внедрения. Благодарности. Автор выражает благодарность своим научным руководителям – кандидату физико-математических наук, доценту Ла Лире Львовне, профессору Новосибирского государственного университета (Россия), Барахнину Владимиру Борисовичу – за ценные советы, данные в ходе проведения исследования. Автор также выражает признательность заведующему кафедры «Информационные системы» доктору философии (PhD), доценту Мухановой Аягоз Асанбековне за профессиональную помощь, всестороннюю поддержку и методическое сопровождение.

Диссертация

Список научных трудов

Отзыв научного консультанта

Отзыв зарубежного консультанта

Заключение комиссии по этической оценке исследований

Отзыв официального рецензента

Решение диссертационного совета

Защита диссертации: https://www.youtube.com/watch?v=UHkLo4k7kPA