Segmentation of text information in natural scene images
Вантажиться...
Файли
Дата
2017
Автори
Kashtalian, A.
Каштальян, А.С.
Назва журналу
Номер ISSN
Назва тому
Видавець
Хмельницький національний університет
Анотація
Text detection and recognition is one of the difficult task in the computer vision, in particular in the case of images
with a complicated background. The article is devoted to investigation of the task of text recognition in images with nonuniform
background, in particular segmentation stage. The segmentation on lines, words and symbols are examined. The
lines segmentation approach is based on determination of general intensity or color channels intensity and assumes
definition of average intensity of the whole image, looking through every pixel line and definition its intensity, comparison
line intensity with average intensity of image, finding of border between text and line spacing by intensity difference. The
words segmentation approach is also based on determination of general intensity or intensity of color channels and consist of
definition of text line general intensity, looking through every pixel column and definition its intensity, comparison with
average text line intensity, finding the border between a word and space by intensity difference. The character segmentation
based on finding maximally stable extremal regions (MSER) is suggested. The maximally stable external regions (MSER)
feature detector works well for finding text regions because of the stable intensity profiles. This is a method for blob detection
in images. The algorithm extracts from an image a number of covariant
regions: a region is a stable connected component of
some graylevel
sets of the image. The MSER extraction implements the following steps: sweep threshold of intensity from
black to white, perform a simple luminance thresholding of the image; extract connected components (extremal regions);
find a threshold when an extremal region is “maximally stable”, i.e. local minimum of the relative growth of its square. The
MSER detector marks out most of the text, it also detects many other stable regions in the images that are not text. These
candidates are then filtered using regions geometric properties and stroke width information to exclude nontext
objects. The
segmentation process allows to extract characters for father classification and to create a dataset necessary for classifier
training. The coding has implemented in python and qualitative analysis is performed.
Детектування та розпізнавання тексту є одним з складних завдань машинного навчання, зокрема це стосується зображень зі складним фоном. Стаття присвячена дослідженню питання розпізнавання тексту на зображення з неоднорідним фоном, зокрема етапу сегментації. Розглянуто сегментацію текстової інформації на рядки, слова та символи. Спосіб сегментації рядків ґрунтується на визначенні сумарної інтенсивності або інтенсивності каналів всього зображення та передбачає знаходження середньої інтенсивності всього зображення, проходження всіх піксельних рядків зображення та визначення їх інтенсивності, порівняння з сумарною інтенсивністю зображення, знаходження границі розділу рядку тексту та міжрядкового інтервалу за різницею інтенсивності. Спосіб сегментації слів також ґрунтується на визначенні сумарної інтенсивності або інтенсивності каналів і включає знаходження середньої інтенсивності текстового рядка, проходження всіх піксельних стовбців в рядку та визначення їх інтенсивності, порівняння з сумарною інтенсивністю рядка, знаходження границі розділу слова та проміжку між словами за різницею інтенсивності. Запропоновано сегментацію символів на основі знаходження максимально стабільних екстремальних регіонів (MSER). MSER детектор добре працює для знаходження текстових символів в умовах стабільності інтенсивності символьних зображень. Для виділення MSER областей виконуються наступні кроки: проходження порогу інтенсивності від чорного до білого; виконання простої порогової обробки інтенсивності зображення; виділення зв’язаних компонент (екстремальних регіонів); знаходження порогу, за якого екстремальний регіон буде максимально стабільним. MSER детектор достатньо добре позначає області тексту, але він також детектує багато інших стабільних областей на зображенні, які не є текстом. Регіоникандидати потім фільтруються, використовуючи геометричні властивості та інформацію про ширину лінії для виключення нетекстових областей. Процес сегментації дозволяє виділити символи для подальшої їх класифікації, а також сформувати датасет, необхідний для навчання класифікатора. Експериментальні дослідження виконано з допомогою мови програмування python.
Детектування та розпізнавання тексту є одним з складних завдань машинного навчання, зокрема це стосується зображень зі складним фоном. Стаття присвячена дослідженню питання розпізнавання тексту на зображення з неоднорідним фоном, зокрема етапу сегментації. Розглянуто сегментацію текстової інформації на рядки, слова та символи. Спосіб сегментації рядків ґрунтується на визначенні сумарної інтенсивності або інтенсивності каналів всього зображення та передбачає знаходження середньої інтенсивності всього зображення, проходження всіх піксельних рядків зображення та визначення їх інтенсивності, порівняння з сумарною інтенсивністю зображення, знаходження границі розділу рядку тексту та міжрядкового інтервалу за різницею інтенсивності. Спосіб сегментації слів також ґрунтується на визначенні сумарної інтенсивності або інтенсивності каналів і включає знаходження середньої інтенсивності текстового рядка, проходження всіх піксельних стовбців в рядку та визначення їх інтенсивності, порівняння з сумарною інтенсивністю рядка, знаходження границі розділу слова та проміжку між словами за різницею інтенсивності. Запропоновано сегментацію символів на основі знаходження максимально стабільних екстремальних регіонів (MSER). MSER детектор добре працює для знаходження текстових символів в умовах стабільності інтенсивності символьних зображень. Для виділення MSER областей виконуються наступні кроки: проходження порогу інтенсивності від чорного до білого; виконання простої порогової обробки інтенсивності зображення; виділення зв’язаних компонент (екстремальних регіонів); знаходження порогу, за якого екстремальний регіон буде максимально стабільним. MSER детектор достатньо добре позначає області тексту, але він також детектує багато інших стабільних областей на зображенні, які не є текстом. Регіоникандидати потім фільтруються, використовуючи геометричні властивості та інформацію про ширину лінії для виключення нетекстових областей. Процес сегментації дозволяє виділити символи для подальшої їх класифікації, а також сформувати датасет, необхідний для навчання класифікатора. Експериментальні дослідження виконано з допомогою мови програмування python.
Опис
Ключові слова
optical character recognition, maximally stable extremal regions, symbol allocation, intensity, оптичне розпізнавання тексту, максимально стабільні екстремальні регіони, виділення символів, інтенсивність
Бібліографічний опис
Kashalian, A. Segmentation of text information in natural scene images [Текст] / A. Kashalian // Вісник Хмельницького національного університету. Технічні науки. – 2017. – № 6. – С. 106-110.