
Л.Н. Гумилев атындағы Еуразия ұлттық университетінде философия докторы (PhD) дәрежесін алу үшін Баймаханова Айгерим Саттаровна «8D06115 – Ақпараттық жүйелер» білім беру бағдарламасы бойынша «Терең оқыту алгоритмдері негізінде құжаттарды классификациялау әдістерін әзірлеу» тақырыбында диссертациясы қорғалады.
Диссертация Қожа Ахмет Ясауи атындағы Халықаралық қазақ-түрік университетінің «Компьютерлік инженерия» кафедрасында орындалды.
Қорғау тілі - қазақ тілінде
Ресми рецензенттер:
Дарибаев Беимбет Серикович – философия докторы (PhD), қауымдастырылған профессор, «Шәкәрім атындағы Семей қаласының университеті» КеАҚ академиялық мәселелер жөніндегі проректоры (Семей қ., Қазақстан Республикасы).
Мукажанов Нуржан Какенович – философия докторы (PhD), «Қ.И.Сәтбаев атындағы Қазақ ұлттық техникалық зерттеу университеті» КеАҚ, «Программалық инженерия» кафедрасының қауымдастырылған профессоры (Алматы қ., Қазақстан Республикасы).
Диссертациялық кеңестің уақытша мүшелері:
Юсуф Яслан – философия докторы (PhD), Стамбул техникалық университетінің «Компьютерлік инженерия» кафедрасының доценті (Стамбул қ., Түркия Республикасы).
Оралбекова Дина Орымбайқызы – философия докторы (PhD), ҚР ҒжЖБ ҒК «Ақпараттық және есептеу технологиялары институты» РМК аға ғылыми қызметкері (Алматы қ., Қазақстан Республикасы).
Бурибаев Жолдас Алладинович – философия докторы (PhD), «Мұхамеджан Тынышпаев атындағы университет (ALT университеті)» АҚ ғылым және халықаралық ынтымақтастық жөніндегі проректоры (Алматы қ., Қазақстан Республикасы).
Ғылыми кеңесшілері:
Жумадиллаева Айнур Канадиловна – техника ғылымдарының кандидаты, «Л.Н. Гумилев атындағы Еуразия ұлттық университеті» КеАҚ, «Компьютерлік және программалық инженерия» кафедрасының қауымдастырылған профессоры (Астана қ., Қазақстан Республикасы).
Ешреф Адалы - PhD, Стамбул техникалық университетінің профессоры, (Стамбул қ., Түркия Республикасы).
Қорғау 2025 жылғы 3 қазан, сағат 11:00-де Л.Н. Гумилев атындағы Еуразия ұлттық университетінің «8D06115 – Ақпараттық жүйелер» білім беру бағдарламасы бойынша «8D061 – Ақпараттық-коммуникациялық технологиялар» кадрларды даярлау бағыты бойынша диссертациялық кеңесте өтеді. Диссертациялық кеңес мәжілісі аралас форматта (оффлайн және онлайн) өткізіледі деп жоспарлануда.
Сілтемесі: https://surl.li/iiqsry
Мекен-жайы: Астана қ., Пушкин көшесі, 11, Оқу ғимарат №2, 222-аудитория
Аңдатпа (қаз.): Баймаханова Айгерим Саттаровнаның «8D06115–Ақпараттық жүйелер» білім беру бағдарламасы бойынша философия докторы (PhD) дәрежесін алуға ұсынылған «Терең оқыту алгоритмдері негізінде құжаттарды классификациялау әдістерін әзірлеу» тақырыбындағы диссертациялық жұмысы Зерттеу тақырыбының өзектілігі. Қазіргі цифрлық дәуірде ұйымдарда жинақталатын ақпарат пен деректердің көлемі айтарлықтай артып, құжаттарды басқару, талдау және классификациялау маңызды мәселелерге айналып отыр. Құжаттарды классификациялау – құжат айналымын автоматтандырудың және тиімді білім іздеудің алғашқы кезеңі, бұл үдерісте адамның қатысуы мүлде қажет болмауы немесе өте аз болуы мүмкін. Бүгінде жасанды интеллект (AI) әдістері, соның ішінде терең оқыту (DL), сегментациямен біріктіріліп, бұрынғы он жыл бұрын мүмкін болмаған қасиеттерді зерттеуге және түсіндіруге мүмкіндік береді. Терең оқыту енгізілген үлгілерді түсінуге көмектеседі, осылайша объектілердің класстарын болжауға мүмкіндік береді. Сегментация үдерісі енгізілген кескінді жеке сегменттерге бөліп, оны тереңірек зерттеуге жол ашады. Қазіргі уақыттағы ұйымдар (мекемелер, кәсіпорындар) үлкен көлемді визуалды құжаттармен – сканерленген өтініштер, өкімдер, бұйрықтар, қосымшалар, анықтамалар, қызметтік хаттармен жұмыс істейді. Құжаттар архивтері жүз мыңдаған әртүрлі типтегі сканерленген құжаттардан тұрады. Барлық құжаттар метадеректерсіз кескіндер түрінде, көбінесе ішінара бұрмаланулары бар: сканерлеу сапасы төмен, қол қойылған, мөрлері бар құжаттар түрінде ұсынылады. Зерттеу өзектілігі құжат айналымының тиімділігін арттыру, қолмен өңдеуді қысқарту, қателіктерді азайту және интеллектуалды жүйелерді архивтік, құқықтық және ұйымдық процестерге енгізу қажеттілігімен айқындалады. Терең оқытуға негізделген заманауи әдістер бұрмаланған, сапасыз немесе толық емес кескіндерді өңдеуде жоғары дәлдікпен ерекшеленіп, құжаттарды тану және классификациялауда сенімді шешім ұсынуға мүмкіндік береді. Терең оқытудың ақпараттық жүйелері бұл мәселелерді автоматты түрде және жоғары дәлдікпен шешу мүмкіндігін қамтамасыз етеді. Құжаттар әртүрлі маңызды салаларда, соның ішінде ғылыми зерттеулер, тарихи мұраларды сақтау, заңдық құжаттарды басқару және әкімшілік жазбаларда кеңінен қолданылады. Осы құжаттарды дұрыс классификациялау мен өңдеу іздеу жүйелерінің жұмыс істеуін, деректерді жылдам және сенімді түрде қолжетімді етуін қамтамасыз етеді. Ақпараттық қауіпсіздік пен ақпаратқа жылдам қол жеткізу қажеттілігі қазіргі ақпараттық қоғамның басты мәселелерінің бірі болып отыр. Құжаттарды тиімді классификациялау үдерісі өте күрделі, себебі олар алуан түрлі форматтарда (мысалы, мәтіндік, графикалық, аралас) ұсынылады және олардың мазмұнына байланысты ерекше сипаттамалары бар. Дәстүрлі классификация әдістері архивтік құжаттардың күрделілігі мен үлкен көлемін жоғалтуы мүмкін, бұл өз кезегінде құжаттарды басқару және іздеу үдерістерін баяулатады. Сондықтан, жасанды интеллект пен терең оқыту әдістерін құжаттарды өңдеу және классификациялау саласында қолдану тақырыптың өзектілігін анық көрсетеді. Құжаттарды классификациялау процесінде терең оқытуды қолдану және оның тиімділігін зерттеу мәселелері бірқатар ғалымдардың ғылыми еңбектерінде қарастырылған. Атап айтқанда, осы бағытта M. Manna, P.Das, A. K. Das, I.Goodfellow, А. Р. Давлетов, Н. Г. Полетаева, М. Н. Краснянский, А. К. Марков, А. Шаушенова т.б. зерттеушілер өз еңбектерінде терең оқыту модельдерінің мүмкіндіктері мен артықшылықтарын жан-жақты талдаған. Құжаттарды автоматты түрде классификациялау мәселелері қазіргі таңда бірқатар отандық және шетелдік ғалымдардың зерттеулерінде кеңінен қарастырылуда. Бұл бағытта S.Jiang, S. Minaee, M.N. Asim, М. А. Самбетбаева, А. Баегизова және басқа да зерттеушілердің еңбектері ерекше назар аударарлық. Аталған ғылыми жұмыстарда терең оқыту әдістерін қолданудың тиімділігі, құжаттарды классификациялау тәсілдері, дәстүрлі және заманауи терең оқыту алгоритмдерінің салыстырмалы талдауы, сондай-ақ терең оқыту арқылы құжат кескінінің сапасын арттыру, құжаттарды басқару үдерісін оңтайландыру, сақтау, қолжетімділікті жеңілдету және автоматты классификациялау мәселелері жан-жақты әрі жүйелі түрде зерттелген. Жоғарыда келтірілген соңғы зерттеулер біздің зерттеу тақырыбымызды нақты айқындауға және зерттеу бағытымызды жүйелеуге негіз болды. Атап айтқанда, құжаттарды автоматты түрде классификациялау, оларды өңдеуде машиналық оқыту мен терең оқытудың тиімді әдістерін қолдану мәселелері қазіргі таңда өзекті ғылыми-тәжірибелік сұранысқа ие болып отыр. Нәтижесінде, зерттеуімізде құжаттарды автоматты түрде классификациялаудың тиімділігін арттыру мақсатында терең оқытуға негізделген әдістерді қолдануды мақсат еттік. Құжаттардың үлкен көлемде жинақталуы және оларды цифрлық форматқа көшіру қажеттілігі жүйелерді жаңа деңгейде басқаруды талап етеді. Сонымен қатар, құжаттардың цифрлық форматқа көшірілуі олардың өңделуін жеңілдетіп, уақытты үнемдеуге мүмкіндік береді. Жаңа технологиялар мен жасанды интеллект әдістерінің дамуы архивтік құжаттарды басқаруға мүмкіндік береді, бұл олардың құрылымдық ерекшеліктерін ескере отырып, жылдам және дәл классификация жасауға жол ашады. Дұрыс және жылдам классификациялау құжаттарды ұйымдастыру мен сақтау үдерістерін оңтайландырады, ақпараттық жүйелердің өнімділігін арттырады. Осы зерттеуде ұсынылған HybridViT моделі құжаттарды дәл әрі тиімді түрде классификациялау үшін әзірленді. Бұл модель Vision Transformer (ViT) және EfficientNet архитектураларын біріктіру арқылы құжаттарды оңай әрі саралауға бағытталған. Зерттеу барысында әртүрлі архитектуралар мен олардың классификациялаудағы ерекшеліктері жан-жақты қарастырылып, ең тиімді әдістер таңдалды. HybridViT моделінің артықшылығы – архивтік құжаттардың күрделі құрылымдары мен көпқырлы ерекшеліктерін тануға және олардың классификациясын дәлірек жасауға мүмкіндік береді. Осы модельді қолдану құжаттардың мазмұны мен құрылымына байланысты сипаттамаларды есепке ала отырып, олардың жылдам және сенімді классификациясын қамтамасыз етеді. Зерттеудің мақсаты – Құжаттарды алдын ала өңдеу, талдау және құжаттардың деректер жинағын құру әдістерін, құжаттарды классификациялаудың тиімді терең оқыту моделін, жүйені пайдаланушылардың жұмысын автоматтандырудың интеллектуалды жүйесін әзірлеу мен құруды қамтитын терең оқыту әдістері мен алгоритмдерін пайдалана отырып, құжаттарды автоматтандырылған классификациялауға арналған ақпараттық жүйесінің прототипін әзірлеу және құру. Қойылған мақсаттарға сәйкес диссертациялық жұмыста келесі міндеттер орындалуы керек: 1.Құжаттарды классификациялау бойынша заманауи әдістерін, соның ішінде дәстүрлі машиналық оқыту мен терең оқыту тәсілдерін талдап, олардың артықшылықтары мен шектеулерін анықтау. 2.Сканерленген және құрылымдық белгілі формасы бар құжаттарды алдын ала өңдеу және бейімдеу әдістерін әзірлеу. 3.Құжат кескіндері негізінде түрлерін ажырата алатын классификациялау моделін құрастыру және оның тиімділігін негізгі метрикалар арқылы бағалау. 4. Қолданушының құжаттармен жұмысын автоматтандыруға арналған ақпараттық жүйені әзірлеу. Қорғауға шығарылатын негізгі нәтижелер: 1.Құжат айналымының сканерленген және әртүрлі құрылымдалған түрлерін қамтитын өңделген құжаттардан тұратын бірегей деректер жиынтығы жасалды; 2. ViT және EfficientNet негізінде ауқымдық және жергілікті белгілерді біріктіретін жаңа гибридтік модель архитектурасы әзірленді; 3. Құжаттарды автоматты түрде классификациялайтын ақпараттық жүйенің бастапқы нұсқасы әзірленіп, оның тиімділігі салыстырмалы зерттеулермен дәлелденді және модель шешімдерінің интерпретациясы назар аудару мен активация карталары арқылы көрсетілді. Жұмыстың ғылыми жаңалығы: 1. ViT және EfficientNet негізінде құжаттарды ауқымдық және локалды деңгейде өңдейтін гибридті терең трансферлік оқыту моделі ұсынылып, соның негізінде ақпараттық жүйе прототипі әзірленді. 2. Құжат кескіндерін терең модельге енгізу үшін алдын ала өңдеу әдістері мен ViT шығысын EfficientNet кірісіне бейімдейтін байланыстыру модулі жасалды. Модель архитектурасы тиімді оқыту үшін параметрлерді қатырып оқыту әдісімен іске асырылды. 3. Назар аудару механизмін визуализациялау арқылы ViT-тегі жаһандық белгілердің классификация дәлдігіне және модельдің бұрмалануға төзімділігіне оң әсері дәлелденді. 4. Құжаттармен жұмысты автоматты түрде классификациялайтын ақпараттық жүйе әзірленді. Зерттеу объектісі - автоматтандырылған құжат өңдеу жүйелеріндегі визуалды құжаттар, соның ішінде сканерленген, қолжазба және құрылымдалған формадағы құжаттық кескіндер. Зерттеу пәні - визуалды құжаттарды терең оқыту әдістері негізінде автоматты түрде классификациялау процестері мен модельдері. Зерттеу әдістемесі. Берілген тапсырмаларды шешу кезінде алгебралық формулалар, компьютерлік көру және модельдеу, машиналық оқыту және деректерді талдау әдістері қолданылды. Зерттеу әдістері. Зерттеу барысында құжаттарды классификациялау үшін нейрондық желілердің әртүрлі архитектураларын қолдану әдістері қолданылды. Құжаттардың әртүрлі сипаттамаларын тануға және оларды дұрыс классификациялауға мүмкіндік беретін терең оқыту модельдері зерттелді. Эксперименттер жүргізу үшін архивтік құжаттар жиынтығы дайындалып, алдын ала өңдеу әдістері қолданылды, сонымен қатар алынған нәтижелерді салыстыру мақсатында әртүрлі архитектуралар арасындағы айырмашылықтар мен тиімділіктер талданды. Программалық құралдар. Алгоритмдерді және программалық құралдарды құрудың әдістемелік негізін Python, PostgreSQL, Doker бағдарламалық құралдары арқылы қамтамасыз етілді. Зерттеудің теориялық маңыздылығы. Зерттеу құжаттарды терең оқыту әдістері негізінде автоматты түрде классификациялау саласындағы теориялық негіздерді кеңейтеді. CNN және Transformer сияқты нейрондық желілерді құжат кескіндеріне бейімдеу, олардың архитектуралық ерекшеліктерін талдау және визуалды белгілерді тиімді өңдеу мәселелері қарастырылады. Зерттеудің практикалық маңыздылығы. Зерттеу нәтижелері құжаттарды автоматты түрде классификациялаудың тиімділігін арттыруда маңызды практикалық мәнге ие. HybridViT моделін архивтік жүйелерде пайдалану архивтік құжаттарды жылдам әрі дұрыс классификациялауға көмектеседі, бұл өз кезегінде құжаттардың жүйелі түрде топтастырылуын қамтамасыз етеді және олардың қолжетімділігін арттырады. Құжаттардың құрылымы мен мазмұнына сәйкес автоматты түрде класстарға бөлінуі деректерді басқару мен іздеу үдерісін едәуір жеңілдетеді. Бұл зерттеу нәтижелерін архив, мемлекеттік мекемелер және ғылыми-зерттеу орталықтары сияқты ұйымдарда құжаттарды басқару мен іздеуді автоматтандыру үшін қолдануға болады. HybridViT моделінің басты артықшылығы - оның архивтік құжаттардың күрделі құрылымы мен мазмұнын дәл анықтау мүмкіндігі. Бұл модель құжаттардың сан алуан мазмұндық ерекшеліктерін түсінуге бейімделген, сол себепті әртүрлі пішіндерде ұсынылған құжаттарды классификациялауға мүмкіндік береді. Осылайша, құжаттарды сақтау және сұрыптау үдерістері айтарлықтай жеңілдеп, оларды өңдеу мен іздеу жұмыстарын жеделдетеді. HybridViT-тің жүйелерде қолданысы үлкен көлемді және әртүрлі форматтағы құжаттарды басқару тиімділігін арттырумен қатар, ақпаратқа қолжетімділікті жылдамдатып, деректер қауіпсіздігін нығайтуға көмектеседі. Докторанттың жеке қосқан үлесі: Диссертацияда көрсетілген нәтижелерді зерттеуді ізденуші ғылыми қызмет үдерісінде жеке өзі жүргізді. Ізденуші алгоритмдерді және ұсынылған талдау әдістерін жүзеге асыратын программалық жасақтаманы дербес әзірледі; эксперименттік және теориялық нәтижелер алынып, қорғауға ұсынылды. Диссертация авторының бірлескен авторлық жұмысқа қосқан жеке үлесі – әдістер мен алгоритмдерді әзірлеу, сондай-ақ зерттеу нәтижелерін жариялауға ұсыну. Зерттеу қорытындылары мен нәтижелерінің анықтығы, сенімділігі және негізділігі халықаралық ғылыми және ғылыми-практикалық конференцияларда апробациямен; зерттеу нәтижелерін Ѕсорuѕ және Web of Science (ClarivateAnalytics) халықаралық ғылымиметриялық базаларында индекстелетін ғылыми журналдарда жариялаумен, енгізудің актілерін (Қосымша А) және авторлық куәлікті (Қосымша Ә) алумен қамтамасыз етілген. Нәтижелерді ендіру. Диссертациялық жұмыстың зерттеу нәтижесін «Deep Learning алгоритмін қолдану арқылы құжаттарды классификациялау» атты ЭЕМ-ге арналған программаның авторлық куәлігі растайды. Диссертация нәтижелерінің апробациядан өтуі. Диссертациялық жұмыстың негізгі нәтижелері Қожа Ахмет Ясауи атындағы Халықаралық қазақ-түрік университеті семинарларында, халықаралық конференцияларда баяндалды (Ресей, Бельгия): 1. «Компьютерлік инженерия» кафедрасының докторанттарының семинарлары (Кентау, 2021-2023жж). 2. Analysis of the state of digital document flow in educational organizations «Progress in Sceice» Proceedings of the 1st International Scientific Conference. -Brussels, Belgium 15-16.12.2022. –Р.12-15 Диссертацияның негізгі ережелері келесі ғылыми жұмыстарда жарияланған. Зерттеу тақырыбы бойынша 10 ғылыми еңбек жарық көрді, олардың біреуі Scopus деректер базасында индекстелді, 4 – ҚР ҒЖБМ ҒЖБССҚК ұсынған ғылыми журналдарда, 5–халықаралық және жергілікті конференциялар жинақтарында ғылыми мақала, диссертация нәтижесінде авторлық құқық объектісіне мемлекеттік тіркеу туралы куәлік бар. Диссертацияның құрылымы мен көлемі. Диссертациялық жұмыс қазақ тілінде жазылған, кіріспеден, бөлімшелерге бөлінген өзара байланысты төрт бөлімнен, қорытындыдан және пайдаланылған әдебиеттер тізімінен тұрады. Жұмыс 105 бетте көрсетілген, 71 сурет, 5 кесте бар. Пайдаланылған дереккөздердің тізімі 124 атаулардан тұрады. Кіріспеде таңдалған диссертация тақырыбының өзектілігі негізделеді, зерттеудің мақсаттары мен негізгі міндеттерін тұжырымдайды, жұмыстың жаңалығы мен практикалық маңыздылығы, таңдалған тақырып бойынша, динамикалық бойынша әдебиеттік шолу жүргізілді. Бірінші бөлімде құжаттарды классификациялау үдерісінің теориялық және әдістемелік негіздері қарастырылды. Автоматты классификацияның рөлі мен маңыздылығы әртүрлі салаларда талданды. Құжаттарды классификациялау үшін қолданылатын дәстүрлі және терең оқытуға негізделген алгоритмдерге шолу жасалып, олардың салыстырмалы талдауы ұсынылды. Екінші бөлімде архив құжаттармен жұмыс істеуде қолданылатын терең оқыту тәсілдері қарастырылды. Архивтік деректердің құрылымы сипатталып, нейрожелі модельдерді оқытуға қажетті алдын ала өңдеу кезеңдері сипатталды. Сонымен қатар, классификация үдерісінде CNN, RNN, Vision Transformer архитектуралары және гибридті модельдер (HybridViT, ViT, EfficientNet) қолдану мүмкіндіктері мен артықшылықтары зерттелді. Үшінші бөлімде әзірленген модельдердің тиімділігіне арналған эксперименттік-салыстырмалы зерттеулерге бағытталған. Бұл бөлімде эксперименттік зерттеу жоспары мен деректерді бөлу әдістемесі, әртүрлі терең оқыту архитектураларының нәтижелері мен оқыту параметрлерінің ықпалы қарастырылды. Сонымен бірге, HybridViT моделі бойынша жүргізілген тестілеу нәтижелері және оның классификациялаудағы артықшылықтары сипатталды. Төртінші бөлімде зерттеу нәтижелерін практикалық іске асыру мәселесі қарастырылды. Архивтік құжаттарды басқаруға арналған ақпараттық жүйе жобаланып, оның логикалық құрылымы мен пайдаланушы интерфейсі ұсынылды. Жүйенің негізгі функциялары мен оларды іске асыру тетіктері сипатталып, жасалған программалық жасақтаманың тиімділігі мен болашақ даму бағыттары айқындалды. Қорытындыда бүкіл диссертациялық зерттеу бойынша негізгі ғылыми тұжырымдар жасалып, қорғауға ұсынылатын ережелер тұжырымдалды. Алғыс Автор ғылыми кеңесшілері, техника ғылымдарының кандидаты, қауымдастырылған профессор Жумадиллаева Айнур Канадиловнаға және Түркия Республикасы, Стамбул университетінің профессоры, PhD Ешреф Адалыға зерттеу барысында берген кеңестері үшін алғыс білдіреді.
Зерттеулерді этикалық бағалау жөніндегі комиссияның қорытындысы
Диссертациялық кеңестің шешімі
Диссертация қорғауының бейнежазбасы: https://www.youtube.com/watch?v=mI3okX3e7Cw
