Удосконалення методу та засобів очищення даних на основі Matching Dependency Technique
Вантажиться...
Дата
2021
Автори
Біловол, Андрій Ігорович
Назва журналу
Номер ISSN
Назва тому
Видавець
Хмельницький національний університет
Анотація
Об’єкт дослідження – виявлення та відновлення брудних даних в процесі очищення даних. Мета дослідження – виявлення та виправлення помилкових записів у структурованому наборі даних та вдосконалення методу очищення даних на основі відповідності залежностей та створення засобу, необхідного для застосування та реалізації техніки. У процесі дипломного проектування було досліджено галузь якості даних, проблеми виявлення та відновлення даних. Виявлено що методика відповідності залежності є дуже перспективною для процесу очищення даних, на основі робіт з машинного навчання та методів вивчення очищення даних. Областю застосування було обрано адреси, які будь-який користувач, що проживає в будь-якій країні, буде вводити в Інтернеті.
На основі виявлених проблем методу, проаналізовано ряд алгоритмів пошуку залежностей. На їх основі було запропоновано гібридний метод пошуку відповідних залежностей. Втілена техніка машинного навчання, яка дозволила використовувати «брудні дані», як дійсні, для перевірки інших записів для того самого адресу.
Пропонується використовувати техніку машинного навчання, яка допомагає давати рекомендації щодо виправлення неправильного значення. Запропонована методика та її покращення ілюструє, як ми можемо уникнути помилок в поштових адресах, введених будь-яким користувачем системи.
Опис
Ключові слова
121 Інженерія програмного забезпечення, очищення даних, відповідність залежностей, гібридний алгоритм, Python
Бібліографічний опис
Біловол А. І. Удосконалення методу та засобів очищення даних на основі Matching Dependency Technique : дипломна робота магістра : 121 Інженерія програмного забезпечення / А. І. Біловол ; Хмельниц. нац. ун-т. – Хмельницький, 2021. – 119 с.