Інформаційна технологія рекурсивного пошуку ключових термінів у цифрових текстах
Вантажиться...
Файли
Дата
2019
Автори
Мазурець, О.В.
Коваль, О.О.
Mazurets, O.
Koval, O.
Назва журналу
Номер ISSN
Назва тому
Видавець
Хмельницький національний університет
Анотація
В статті розглянуто інформаційну технологію рекурсивного пошуку ключових термінів у цифрових
текстах, яка проводить аналіз текстового контенту із використанням методу дисперсійної оцінки та без
використання лексичних баз даних корпусів слів. Характерною рисою запропонованої інформаційної технології є
використання рекурсивних складових при пошуку ключових термінів. Процес автоматизованого аналізу
цифрового тексту шляхом рекурсивного пошуку ключових термінів із використанням методу дисперсійного
оцінювання складається з ряду етапів перетворення інформації, які у сукупності формують інформаційну
технологію рекурсивного пошуку ключових термінів. Розроблена інформаційна технологія рекурсивного пошуку
ключових термінів була реалізована в тестовому програмному продукті. Вхідними даними для системи є
електронний документ із цифровим текстом, а вихідними даними є множина ключових термінів, що відповідна
досліджуваному фрагменту текстового контенту електронного документу. За допомогою розробленого
тестового програмного забезпечення були проведені дослідження, що підтвердили можливість ефективно
автоматизовано формувати множини ключових семантичних термінів текстів із показниками точності пошуку
до 89,6% й повноти пошуку до 93,3%.
Результати порівняння ефективності інформаційної технології рекурсивного пошуку ключових термінів
у цифрових текстах із аналогічними результатами для технологій, що використовують лексичні бази даних
корпусів слів для ідентифікації слів у текстах, є неоднозначними. У 42,3% випадках використання рекурсивного
пошуку негативно вплинуло на якість результату, проте в 18,6% випадків такий підхід виявив кращий
результат. Перевагами розробленої інформаційної технології рекурсивного пошуку ключових термінів у цифрових
текстах, яка проводить аналіз текстового контенту із використанням методу дисперсійної оцінки, є
відсутність необхідності використання лексичних баз даних корпусів слів, суттєве прискорення швидкодії,
можливість використання для текстів різними мовами, можливість використання для текстів із кількома
мовами, кращі результати під час обробки вузькоспеціалізованого контенту. Дана інформаційна технологія може
бути ефективно використана для аналізу текстів із невідомими властивостями тематики та мови.
In the article the information technology for recursional definition of semantic key terms in digital texts is considered, which conducts the analysis of text content using the method of dispersion evaluation and without the use of lexical databases of word cases. A characteristic feature of the proposed information technology is the use of recursive components in the search for key terms. The process of automated analysis of digital text through recursional search of key terms using the dispersion evaluation method consists of series of stages of the transformation of information, which collectively form the information technology for recursional definition of semantic key terms. The information technology for recursional definition of semantic key terms has been introduced in the test software product. The input data for the system is an electronic document with digital text, and the output data is a set of key terms that correspond to the investigated fragment of the text content of the electronic document. With the help of developed test software, studies were conducted that confirmed the ability to effectively formulate a set of key semantic terms of texts with search precision up to 89.6% and search recall up to 93.3%. The results of the comparison of the effectiveness of information technology for recursional definition of semantic key terms in digital texts with similar results for technology that use lexical databases of word cases to identify words in texts are ambiguous. In 42.3% of cases, the use of recursional definition negatively affected the quality of the result, but in 18.6% of cases, this approach has shown better result. The advantages of the developed information technology for recursional definition of semantic key terms in digital texts, which conducts analysis of text content using the dispersion evaluation method, are the absence of the need to use lexical database of word cases, significant acceleration of speed, the possibility of using for texts in different languages, the possibility of using for texts in several languages, better results in handling highly specialized content. This information technology can be effectively used to analyse texts with unknown properties of the subject and language.
In the article the information technology for recursional definition of semantic key terms in digital texts is considered, which conducts the analysis of text content using the method of dispersion evaluation and without the use of lexical databases of word cases. A characteristic feature of the proposed information technology is the use of recursive components in the search for key terms. The process of automated analysis of digital text through recursional search of key terms using the dispersion evaluation method consists of series of stages of the transformation of information, which collectively form the information technology for recursional definition of semantic key terms. The information technology for recursional definition of semantic key terms has been introduced in the test software product. The input data for the system is an electronic document with digital text, and the output data is a set of key terms that correspond to the investigated fragment of the text content of the electronic document. With the help of developed test software, studies were conducted that confirmed the ability to effectively formulate a set of key semantic terms of texts with search precision up to 89.6% and search recall up to 93.3%. The results of the comparison of the effectiveness of information technology for recursional definition of semantic key terms in digital texts with similar results for technology that use lexical databases of word cases to identify words in texts are ambiguous. In 42.3% of cases, the use of recursional definition negatively affected the quality of the result, but in 18.6% of cases, this approach has shown better result. The advantages of the developed information technology for recursional definition of semantic key terms in digital texts, which conducts analysis of text content using the dispersion evaluation method, are the absence of the need to use lexical database of word cases, significant acceleration of speed, the possibility of using for texts in different languages, the possibility of using for texts in several languages, better results in handling highly specialized content. This information technology can be effectively used to analyse texts with unknown properties of the subject and language.
Опис
Ключові слова
цифровий документ, ключові терміни, дисперсійна оцінка, digital document, key terms, disperse evaluation
Бібліографічний опис
Мазурець, О.В. Інформаційна технологія рекурсивного пошуку ключових термінів у цифрових текстах [Текст] / О. В. Мазурець, О. О. Коваль // Вісник Хмельницького національного університету. Технічні науки. – 2019. – №3. – С. 188-196.