Порівняння методів виявлення об’єктів в комп’ютерному зорі

Виявлення об’єктів є фундаментальним завданням комп’ютерного зору, із застосуваннями, починаючи від автономного водіння до систем спостереження. У цій статті представлено повне порівняння різних методів виявлення об’єктів. Оцінені методи включають традиційні методи, такі як логістична регресія та SVM, а також найсучасніші архітектури глибокого навчання, такі як YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector), FPN (Feature Pyramid Network). , RetinaNet. YOLO надає пріоритет швидкості обробки в реальному часі, що робить його ідеальним для додатків, які потребують швидкого виявлення, наприклад, для безпілотних автомобілів. Однак такий наголос на швидкості може знизити точність порівняно з іншими методами. SSD забезпечує переконливий баланс між швидкістю та точністю, досягаючи швидшої обробки, ніж деякі методи, зберігаючи хороші можливості виявлення. FPN вирішує проблему виявлення об’єктів у різних масштабах на зображенні. Використовуючи функцію Feature Pyramid Network, він може ефективно аналізувати як малі, так і великі об’єкти в одній структурі. З іншого боку, RetinaNet зосереджується на підвищенні точності шляхом впровадження функції фокальних втрат, яка пом’якшує проблему дисбалансу класів, поширену перешкоду в задачах виявлення об’єктів, де певні класи значно перевершують інші. Для класифікації об’єктів YOLO використовує функцію втрат крос-ентропії. Ця функція вимірює різницю між прогнозованим розподілом ймовірностей класу об’єкта та фактичним розподілом класу. Мінімізація цих втрат під час навчання спрямовує модель на більш точні прогнози класу. В роботі проведено аналіз існуючих методів виявлення об'єктів та проведено експеримент із моделлю YOLOv5, навченою на наборі даних COCO.
Object detection is a fundamental task in computer vision, with applications ranging from autonomous driving to surveillance systems. This article presents a comprehensive comparison of various object detection methods. The methods evaluated include traditional methods such as logistic regression and SVM, as well as state-of-the-art deep learning architectures such as YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector), FPN (Feature Pyramid Network), RetinaNet. YOLO prioritizes real-time processing speed, making it ideal for applications demanding swift detection, such as self-driving cars. However, this emphasis on speed might compromise accuracy when compared to other methods. SSD offers a compelling balance between speed and accuracy, achieving faster processing than some methods while maintaining good detection capabilities. FPN solves the problem of detecting objects at different scales in an image. Using the Feature Pyramid Network function, it can effectively analyze both small and large objects in the same structure. RetinaNet, on the other hand, focuses on improving accuracy by introducing a focal loss function that mitigates the class imbalance problem, a common obstacle in object detection tasks where certain classes significantly outperform others. For object classification, YOLO utilizes the cross-entropy loss function. This function measures the difference between the predicted probability distribution of an object's class and the actual class distribution. Minimizing this loss during training guides the model to make more accurate class predictions. The paper analyzes the existing object detection methods and conducts an experiment with the YOLOv5 model trained on the COCO dataset.

Ключові слова

комп’ютерний зір, виявлення об’єктів, архітектури глибокого навчання, computer vision, object detection, deep learning architecture

Бібліографічний опис

Цивадиць П. Порівняння методів виявлення об’єктів в комп’ютерному зорі / П. Цивадиць, Т. Скрипник, Л. Вознюк // Вісник Хмельницького національного університету. Технічні науки. – 2024. – № 2. – С. 265-268.

URI

https://elar.khmnu.edu.ua/handle/123456789/16081

Зібрання

Вісник ХНУ. Технічні науки - 2024 рік

Повна інформація про документ