Метод наближеного пошуку та ідентифікації фізичних осіб
Вантажиться...
Дата
2018
Автори
Джулій, Володимир Миколайович
Лєнков, Сергій Васильович
Муляр, Ігор Володимирович
Dzhuliy, V.M.
Lenkov, S.V.
Mulyar, I.V.
Назва журналу
Номер ISSN
Назва тому
Видавець
Військовий інститут Київського національного університету імені Тараса Шевченка
Анотація
В статті запропонований метод наближеного пошуку та ідентифікації фізичних осіб, який дозволяє оцінити ступінь подібності неточно сформульованих або пошкоджених даних.
Проведений аналіз даних надає можливість виділити основні види втрат, що виникають внаслідок помилок і спотворень інформації в базах даних: втрати внаслідок невірного, не якісного надання послуг («брак» в інформації); втрати оплачуваного часу співробітників на непродуктивну діяльність; втрати внаслідок використання неоптимальних технологічних послідовно виконуваних процесів. Продуктивність і ефективність будь-якої системи зберігання інформації безпосередньо залежить від ефективності та продуктивності пошукових систем. Саме пошукова система визначає, чи перетворяться в знання численні розрізнені дані, що надходять по різних каналах зв'язку і накопичуються в різноманітних базах даних та електронних архівах.
Стає актуальною задача розробки спеціальних методів і технологій текстового пошуку з використанням нетривіальних рішень.
Метод наближеного пошуку та ідентифікації фізичних осіб розроблений на основі функції релевантності, процедури формування ключа подібності, відстані Левенштейна і процедури наближеного пошуку на базі модифікації алгоритму прямого перебору. При цьому ключ подібності використовується як в ручному введенні інформації в якості підказки при занесенні даних, про клієнта, так і в пошукових запитах, в яких беруть участь персональні дані. Відстань Левенштейна використовується як ранжуюча функція при виведенні результатів. Спеціально розроблена процедура наближеного пошуку застосовується виключно до пошуку по довгих рядках. Даний алгоритм використовує умову неперевищення порогів ідентифікації та дозволяє підвищити ефективність роботи користувачів в випадках роботи з неточно сформульованими або пошкодженими даними.
В статье предложен метод приближенного поиска и идентификации физических лиц, который позволяет оценить степень сходства неточно сформулированных или поврежденных данных. Проведенный анализ данных позволяет выделить основные виды потерь, возникающих вследствие ошибок и искажений информации в базах данных: потери в результате неверного, не качественного предоставления услуг ( «брак» в информации); потери оплачиваемого времени сотрудников на непродуктивную деятельность; потери в результате использования неоптимальных технологических последовательно выполняемых процессов. Производительность и эффективность любой системы хранения информации напрямую зависит от эффективности и производительности поисковых систем. Именно поисковая система определяет, превратятся в знания многочисленные разрозненные данные, поступающие по различным каналам связи и накапливаются в различных базах данных и электронных архивах. Становится актуальной задача разработки специальных методов и технологий текстового поиска с использованием нетривиальных решений. Метод приближенного поиска и идентификации физических лиц разработан на основе функции релевантности, процедуры формирования ключа сходства, расстояния Левенштейна и процедуры приближенного поиска на базе модификации алгоритма прямого перебора. При этом ключ сходства используется как в ручном вводе информации в качестве подсказки при занесении данных о клиенте, так и в поисковых запросах, в которых принимают участие персональные данные. Расстояние Левенштейна используется как ранжирующая функция при выводе результатов. Специально разработана процедура приближенного поиска применяется исключительно к поиску по длинным строкам. Данный алгоритм использует условие непревышения порогов идентификации и позволяет повысить эффективность работы пользователей в случаях работы с неточно сформулированными или поврежденными данными.
The method of an approximate search and identification of individuals, which allows to assess the degree of similarity of inaccurately formulated or damaged data is proposed in the article. The conducted data analysis provides an opportunity to identify the main types of losses arising from errors and distortions in information in databases: losses due to incorrect, non-qualitative provision of services ("lack" in information); loss of paid time for employees for unproductive activities; losses due to the use of non-optimal technological successive processes. The efficiency and productivity of any information storage system directly depends on the efficiency and performance of search engines. It is the search engine that determines whether numerous scattered data coming from different communication channels will be transformed into knowledge and accumulated in various databases and electronic archives. The task of developing special methods and technologies of text search using non-trivial solutions becomes relevant. The method of close lookup and identification of individuals is developed on the basis of the relevance function, the procedure for forming the similarity key, the Levenstein distance, and the approximate search procedure based on the modification of the direct search algorithm. In this case, the key similarity is used as manual input of information as well as a hint when entering the data about the client, and in search queries that involve personal data. Levenstein's distance is used as a ranking function for outputting results. A specially crafted approximate search procedure is used solely for long line searches. This algorithm uses the condition of not exceeding identification thresholds and allows to increase the efficiency of users in cases of work with inaccurate or corrupted data.
В статье предложен метод приближенного поиска и идентификации физических лиц, который позволяет оценить степень сходства неточно сформулированных или поврежденных данных. Проведенный анализ данных позволяет выделить основные виды потерь, возникающих вследствие ошибок и искажений информации в базах данных: потери в результате неверного, не качественного предоставления услуг ( «брак» в информации); потери оплачиваемого времени сотрудников на непродуктивную деятельность; потери в результате использования неоптимальных технологических последовательно выполняемых процессов. Производительность и эффективность любой системы хранения информации напрямую зависит от эффективности и производительности поисковых систем. Именно поисковая система определяет, превратятся в знания многочисленные разрозненные данные, поступающие по различным каналам связи и накапливаются в различных базах данных и электронных архивах. Становится актуальной задача разработки специальных методов и технологий текстового поиска с использованием нетривиальных решений. Метод приближенного поиска и идентификации физических лиц разработан на основе функции релевантности, процедуры формирования ключа сходства, расстояния Левенштейна и процедуры приближенного поиска на базе модификации алгоритма прямого перебора. При этом ключ сходства используется как в ручном вводе информации в качестве подсказки при занесении данных о клиенте, так и в поисковых запросах, в которых принимают участие персональные данные. Расстояние Левенштейна используется как ранжирующая функция при выводе результатов. Специально разработана процедура приближенного поиска применяется исключительно к поиску по длинным строкам. Данный алгоритм использует условие непревышения порогов идентификации и позволяет повысить эффективность работы пользователей в случаях работы с неточно сформулированными или поврежденными данными.
The method of an approximate search and identification of individuals, which allows to assess the degree of similarity of inaccurately formulated or damaged data is proposed in the article. The conducted data analysis provides an opportunity to identify the main types of losses arising from errors and distortions in information in databases: losses due to incorrect, non-qualitative provision of services ("lack" in information); loss of paid time for employees for unproductive activities; losses due to the use of non-optimal technological successive processes. The efficiency and productivity of any information storage system directly depends on the efficiency and performance of search engines. It is the search engine that determines whether numerous scattered data coming from different communication channels will be transformed into knowledge and accumulated in various databases and electronic archives. The task of developing special methods and technologies of text search using non-trivial solutions becomes relevant. The method of close lookup and identification of individuals is developed on the basis of the relevance function, the procedure for forming the similarity key, the Levenstein distance, and the approximate search procedure based on the modification of the direct search algorithm. In this case, the key similarity is used as manual input of information as well as a hint when entering the data about the client, and in search queries that involve personal data. Levenstein's distance is used as a ranking function for outputting results. A specially crafted approximate search procedure is used solely for long line searches. This algorithm uses the condition of not exceeding identification thresholds and allows to increase the efficiency of users in cases of work with inaccurate or corrupted data.
Опис
Ключові слова
база даних, наближений пошук, порівняння рядків, пошук даних, інформаційна система, ключ подібності, database, approximate search, line comparison, data search, information system, key similarity
Бібліографічний опис
Лєнков С. В. Метод наближеного пошуку та ідентифікації фізичних осіб [Текст] / С. В. Лєнков, В. М. Джулій, І. В. Муляр // Збірник наукових праць Військового інституту Київського національного університету імені Тараса Шевченка. – Київ : ВІКНУ, 2018. – Вип. 59. – C. 104-115.