Програмне забезпечення інтелектуальної системи пошуку інформації
Вантажиться...
Дата
Автори
Назва журналу
Номер ISSN
Назва тому
Видавець
НУБіП України
Анотація
Зростання обсягів текстових даних, їх багатомовність, а також потреба у швидкому доступі до технічних знань під час інформаційної ери робить інтелектуальні системи пошуку необхідною складовою для сучасних рішень в сфері ІТ. Безліч рішень до проблем можливо знайти в мережі Інтернет без зайвої потреби створення нового і, можливо, не найкращого рішення.
Хоча й класичний лексичний пошук (BM25) чудово відпрацьовує для точних збігів, але поступається недоліком в ролі семантичних запитів. В той же час векторні підходи потребують значних ресурсів і можуть надати неточні, “розмиті” результати. Актуальним підходом є поєднання цих підходів у гібридну систему з прозорими метриками якості, контрольованою затримкою та дотриманням вимог приватності та авторського права. Практично, така гібридизація дозволить швидке розгортання на доступному стеку для навчальних цілей або ж навіть невеликих промислових стартапів.
Об’єктом цього дослідження процесів та технологій інтелектуальних систем пошуку інформації, а саме їх якість збору й індексування даних і формування релевантної відповіді користувачу на запит. Предметом дослідження являються програмні компоненти та методи, що забезпечують цей пошук: архітектурні рішення ПЗ, методи та програмні компоненти, що забезпечують релевантний і ефективний пошук (лексичні та векторні моделі), структуризація індексів, а також метрики оцінювання якості і продуктивності пошуку.
Мета досліду полягає у розробці та експериментальному оцінюванні програмного забезпечення інтелектуальної системи пошуку, що повинна забезпечувати високу релевантність відповідей за прийнятної затримки з підтримкою багатомовності (українська/англійська мови) і прозорої подачі актуальних результатів. Програма повинна містити гібридний тип пошуку.
Зміст поставлених завдань полягає у:
● Проведенні аналізу вимог і формуванню критеріїв якості;
● Проектуванні архітектури;
● Реалізації обробки пошукових запитів та індексації корпусу технічних текстів з дедуплікацією, визначенням мови й нормалізацією метаданих;
● Реалізації пошукового пайплайну;
● Розробці веб-інтерфейсу з фасетами (сайт/мова/дата), історією запитів й підказками;
● Формуванням контрольних запитів і релевантних документів;
● Виконанні налаштування параметрів під “якість-затримка”;
● Забезпеченні дотримання вимог приватності/авторського права (зберігання оригінальних URL, відображення уривків), журналювання;
● Узагальненні результатів, проведенні аналізу загроз валідності, формулюванні рекомендації для масштабування.
У дослідженні застосовано комплекс методів побудови та оцінювання інтелектуальної системи пошуку інформації. Основу складатиме лексичний пошук (вищезазначений BM25) і, за потреби, мовні моделі зі згладжуванням. Для семантичної релевантності результатів пошуку використовується гібридний підхід, що поєднує лексичний та векторний пошуки. Якість системи буде оцінюватись офлайн-метриками nDCG@k, MRR@k та Recall@k з перевіркою статистичної значущості. Продуктивність же буде вимірюватись через латентність та навантажувальним тестуванням. Інженерні практики включатимуть експериментальний дизайн з чіткими базовими лініями, контроль версій даних і моделей, журналювання і спостережуваність, що дозволить забезпечити відтворюваність і прозорість отриманих результатів.
Апробація програмного додатку. Результати апробовані у вигляді тез доповідей та постеру на Науковій Інтернет-конференції Національного університету біоресурсів і природокористування України.
Структура записки. Магістерська робота складається зі вступу, чотирьох розділів, висновків, переліку використаних джерел і додатків. Загальний обсяг роботи становить 62 сторінки. Список використаних джерел налічує 15 найменувань.
Опис
Ключові слова
програмне забезпечення, інтелектуальна система, пошук інформації, лексичний пошук, software, intelligent system, information search, lexical search
Бібліографічний опис
Шевчун, Д.В. Програмне забезпечення інтелектуальної системи пошуку інформації : дипломна робота ... магістра : 121 «Інженерія програмного забезпечення». Київ, 2025. 65 с.