Система аналізу запитів доступу до інформації на складних веб-ресурсах
Вантажиться...
Дата
Автори
Назва журналу
Номер ISSN
Назва тому
Видавець
Анотація
У сучасних умовах цифрової трансформації обсяг інформації, що накопичується у веб-ресурсах державних, освітніх та корпоративних структур, зростає непропорційно швидко. Дані таких систем характеризуються значною структурною різнорідністю, багатоформатністю, нерівномірною якістю метаданих і складністю навігації, що істотно ускладнює їх ефективне використання [1]. Традиційні інформаційно-пошукові системи, засновані на лексичному зіставленні термінів (зокрема TF–IDF і BM25), забезпечують прийнятну ефективність лише для формально сформульованих запитів. Проте більшість користувацьких звернень у практиці взаємодії з веб-ресурсами становлять короткі та неструктуровані запити природною мовою, що містять синонімію, полісемію та предметно-специфічні конструкції.
Виявлена проблема особливо відчутна у великих освітніх і державних веб-ресурсах, де інформація фрагментована між численними розділами, локальними нормативними документами, регламентами, навчально-методичними матеріалами і внутрішніми службовими інструкціями [3]. За відсутності семантичного аналізу змісту такі ресурси демонструють низький рівень релевантності пошукової видачі, що призводить до втрати часу, повторних звернень та зростання навантаження на служби підтримки.
Суттєвий прогрес у галузі обробки природної мови (NLP) і глибинного навчання створює підґрунтя для переходу від лексичного до семантичного пошуку. Моделі на базі архітектури Transformer, включно з великими мовними моделями (LLM), забезпечують можливість формувати векторні подання текстів, інтерпретувати смислові зв’язки, визначати намір користувача та узгоджувати семантику запиту з контентом [4]. Застосування embedding-моделей, алгоритмів класифікації та кластеризації, а також методів Data Mining відкриває можливості для створення інтелектуальних систем аналізу запитів, здатних підтримувати користувачів у складних предметних доменах [5].
У контексті функціонування університетських та державних веб-ресурсів такі системи є важливим інструментом підвищення якості доступу до інформації. Інтелектуальна система аналізу запитів користувачів дозволяє поєднати семантичний пошук, аналіз контенту та методи машинного навчання з метою формування точних і релевантних відповідей у динамічному інформаційному середовищі [6]. Отже, розроблення інтегрованої системи, здатної аналізувати структуру контенту та інтерпретувати користувацькі наміри, є актуальним науково-прикладним завданням.
Об’єкт дослідження – процеси пошуку, обробки та представлення інформації на складних веб-ресурсах з використанням інтелектуальних методів аналізу запитів і контенту.
Предмет дослідження – методи та технології аналізу запитів користувачів із застосуванням мовних моделей і алгоритмів обробки природної мови, а також моделі організації сховища даних і інтеграції контент-аналізу для забезпечення ефективного доступу до інформаційних ресурсів.
Мета дослідження полягає у розробленні інтелектуальної системи аналізу запитів користувачів для забезпечення ефективного доступу до інформації на складних веб-ресурсах на основі технологій обробки природної мови, семантичного пошуку та аналізу контенту.
Для досягнення поставленої мети необхідно розв’язати такі основні завдання:
1) виконати огляд сучасних методів обробки природної мови, семантичного пошуку та контент-аналізу в задачах доступу до інформації на складних веб-ресурсах;
2) проаналізувати існуючі архітектури інтелектуальних систем пошуку й підтримки користувачів та визначити вимоги до цільової системи;
3) сформувати модель предметної області та розробити логічну структуру бази даних і сховища даних для зберігання інформації про запити, контент і результати обробки;
4) спроєктувати архітектуру інтелектуальної системи аналізу запитів із виділенням модулів семантичного аналізу, класифікації, пошуку та аналітичної обробки даних;
5) реалізувати програмні модулі системи з використанням сучасних технологій NLP, машинного навчання та інструментів Data Mining;
6) провести експериментальні дослідження, оцінити ефективність роботи системи за ключовими показниками (точність, повнота, релевантність, час відповіді) на тестових вибірках запитів;
7) розробити методичні рекомендації щодо впровадження створеної системи в інформаційну інфраструктуру освітніх та інших складних веб-ресурсів.
Методи дослідження. У роботі застосовано методи системного аналізу для формування вимог і побудови архітектури системи; методи обробки природної мови (токенізація, лематизація, визначення частин мови, синтаксичний та семантичний аналіз) для інтерпретації текстових запитів і документів; технології векторного подання текстів (embedding-моделювання) для представлення запитів і контенту у багатовимірному просторі ознак; методи машинного навчання та Data Mining для класифікації запитів, групування тематично споріднених звернень і виявлення закономірностей у використанні веб-ресурсу; алгоритми семантичного пошуку для порівняння векторних представлень запитів і документів; статистичні методи аналізу для оцінювання якості роботи системи за кількісними метриками.
Наукова новизна одержаних результатів полягає в такому:
- уточнено та формалізовано підхід до інтеграції мовних моделей і контент-аналізу в єдиній архітектурі інтелектуальної системи аналізу запитів користувачів складних веб-ресурсів;
- розроблено архітектуру системи семантичного пошуку, що поєднує класичні пошукові індекси з нейромережевими векторними поданнями текстів і компонентами інтелектуальної обробки запитів;
- удосконалено методику визначення семантичної подібності між запитами та контентом за рахунок поєднання embedding-моделей і аналітичних показників, що дозволяє підвищити релевантність пошукової видачі;
- запропоновано підхід до адаптації мовних моделей до предметних доменів освітніх та державних веб-ресурсів шляхом урахування структурних особливостей контенту й специфіки користувацьких запитів;
- сформовано модель бази даних і сховища даних для накопичення та аналітичної обробки інформації про запити користувачів і результати взаємодії з веб-ресурсом, що забезпечує можливість подальшого розширення функцій системи.
Практичне значення одержаних результатів полягає у створенні програмної реалізації прототипу інтелектуальної системи аналізу запитів, яка може застосовуватися для оптимізації доступу до інформації на складних веб-ресурсах, підвищення релевантності результатів, зменшення навантаження на служби підтримки та вдосконалення цифрової взаємодії користувачів із інформаційними системами.
Опис
Ключові слова
цифрові трансформації, обробка природної мови, embedding-моделі, Data Mining, веб-ресурси, digital transformations, natural language processing, embedding models, web resources
Бібліографічний опис
Колесник Д. Ю. Система аналізу запитів доступу до інформації на складних веб-ресурсах : кваліфікаційна робота … магістра : 122 Комп’ютерні науки. Київ, 2025. 101 с.