Система аналізу запитів доступу до інформації на складних веб-ресурсах

Вантажиться...
Ескіз

Дата

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

У сучасних умовах цифрової трансформації обсяг інформації, що накопичується у веб-ресурсах державних, освітніх та корпоративних структур, зростає непропорційно швидко. Дані таких систем характеризуються значною структурною різнорідністю, багатоформатністю, нерівномірною якістю метаданих і складністю навігації, що істотно ускладнює їх ефективне використання [1]. Традиційні інформаційно-пошукові системи, засновані на лексичному зіставленні термінів (зокрема TF–IDF і BM25), забезпечують прийнятну ефективність лише для формально сформульованих запитів. Проте більшість користувацьких звернень у практиці взаємодії з веб-ресурсами становлять короткі та неструктуровані запити природною мовою, що містять синонімію, полісемію та предметно-специфічні конструкції. Виявлена проблема особливо відчутна у великих освітніх і державних веб-ресурсах, де інформація фрагментована між численними розділами, локальними нормативними документами, регламентами, навчально-методичними матеріалами і внутрішніми службовими інструкціями [3]. За відсутності семантичного аналізу змісту такі ресурси демонструють низький рівень релевантності пошукової видачі, що призводить до втрати часу, повторних звернень та зростання навантаження на служби підтримки. Суттєвий прогрес у галузі обробки природної мови (NLP) і глибинного навчання створює підґрунтя для переходу від лексичного до семантичного пошуку. Моделі на базі архітектури Transformer, включно з великими мовними моделями (LLM), забезпечують можливість формувати векторні подання текстів, інтерпретувати смислові зв’язки, визначати намір користувача та узгоджувати семантику запиту з контентом [4]. Застосування embedding-моделей, алгоритмів класифікації та кластеризації, а також методів Data Mining відкриває можливості для створення інтелектуальних систем аналізу запитів, здатних підтримувати користувачів у складних предметних доменах [5]. У контексті функціонування університетських та державних веб-ресурсів такі системи є важливим інструментом підвищення якості доступу до інформації. Інтелектуальна система аналізу запитів користувачів дозволяє поєднати семантичний пошук, аналіз контенту та методи машинного навчання з метою формування точних і релевантних відповідей у динамічному інформаційному середовищі [6]. Отже, розроблення інтегрованої системи, здатної аналізувати структуру контенту та інтерпретувати користувацькі наміри, є актуальним науково-прикладним завданням. Об’єкт дослідження – процеси пошуку, обробки та представлення інформації на складних веб-ресурсах з використанням інтелектуальних методів аналізу запитів і контенту. Предмет дослідження – методи та технології аналізу запитів користувачів із застосуванням мовних моделей і алгоритмів обробки природної мови, а також моделі організації сховища даних і інтеграції контент-аналізу для забезпечення ефективного доступу до інформаційних ресурсів. Мета дослідження полягає у розробленні інтелектуальної системи аналізу запитів користувачів для забезпечення ефективного доступу до інформації на складних веб-ресурсах на основі технологій обробки природної мови, семантичного пошуку та аналізу контенту. Для досягнення поставленої мети необхідно розв’язати такі основні завдання: 1) виконати огляд сучасних методів обробки природної мови, семантичного пошуку та контент-аналізу в задачах доступу до інформації на складних веб-ресурсах; 2) проаналізувати існуючі архітектури інтелектуальних систем пошуку й підтримки користувачів та визначити вимоги до цільової системи; 3) сформувати модель предметної області та розробити логічну структуру бази даних і сховища даних для зберігання інформації про запити, контент і результати обробки; 4) спроєктувати архітектуру інтелектуальної системи аналізу запитів із виділенням модулів семантичного аналізу, класифікації, пошуку та аналітичної обробки даних; 5) реалізувати програмні модулі системи з використанням сучасних технологій NLP, машинного навчання та інструментів Data Mining; 6) провести експериментальні дослідження, оцінити ефективність роботи системи за ключовими показниками (точність, повнота, релевантність, час відповіді) на тестових вибірках запитів; 7) розробити методичні рекомендації щодо впровадження створеної системи в інформаційну інфраструктуру освітніх та інших складних веб-ресурсів. Методи дослідження. У роботі застосовано методи системного аналізу для формування вимог і побудови архітектури системи; методи обробки природної мови (токенізація, лематизація, визначення частин мови, синтаксичний та семантичний аналіз) для інтерпретації текстових запитів і документів; технології векторного подання текстів (embedding-моделювання) для представлення запитів і контенту у багатовимірному просторі ознак; методи машинного навчання та Data Mining для класифікації запитів, групування тематично споріднених звернень і виявлення закономірностей у використанні веб-ресурсу; алгоритми семантичного пошуку для порівняння векторних представлень запитів і документів; статистичні методи аналізу для оцінювання якості роботи системи за кількісними метриками. Наукова новизна одержаних результатів полягає в такому: - уточнено та формалізовано підхід до інтеграції мовних моделей і контент-аналізу в єдиній архітектурі інтелектуальної системи аналізу запитів користувачів складних веб-ресурсів; - розроблено архітектуру системи семантичного пошуку, що поєднує класичні пошукові індекси з нейромережевими векторними поданнями текстів і компонентами інтелектуальної обробки запитів; - удосконалено методику визначення семантичної подібності між запитами та контентом за рахунок поєднання embedding-моделей і аналітичних показників, що дозволяє підвищити релевантність пошукової видачі; - запропоновано підхід до адаптації мовних моделей до предметних доменів освітніх та державних веб-ресурсів шляхом урахування структурних особливостей контенту й специфіки користувацьких запитів; - сформовано модель бази даних і сховища даних для накопичення та аналітичної обробки інформації про запити користувачів і результати взаємодії з веб-ресурсом, що забезпечує можливість подальшого розширення функцій системи. Практичне значення одержаних результатів полягає у створенні програмної реалізації прототипу інтелектуальної системи аналізу запитів, яка може застосовуватися для оптимізації доступу до інформації на складних веб-ресурсах, підвищення релевантності результатів, зменшення навантаження на служби підтримки та вдосконалення цифрової взаємодії користувачів із інформаційними системами.

Опис

Ключові слова

цифрові трансформації, обробка природної мови, embedding-моделі, Data Mining, веб-ресурси, digital transformations, natural language processing, embedding models, web resources

Бібліографічний опис

Колесник Д. Ю. Система аналізу запитів доступу до інформації на складних веб-ресурсах : кваліфікаційна робота … магістра : 122 Комп’ютерні науки. Київ, 2025. 101 с.

Endorsement

Review

Supplemented By

Referenced By