Сегментація та кластеризація аудіо сигналу на основі прихованої марківської моделі

Каштальян, А.С.Kashtalian, A.2019-01-302019-01-302018Каштальян, А.С. Сегментація та кластеризація аудіо сигналу на основі прихованої марківської моделі [Текст] / А. С. Каштальян // Вісник Хмельницького національного університету. Технічні науки. – 2018. – № 6, т. 1. – С. 123-127.https://elar.khmnu.edu.ua/handle/123456789/7310Аналіз аудіо сигналу є одним з важливих завдань з огляду на постійно зростаючі об’єми аудіо та відео інформації. Стаття присвячена задачі сегментації та кластеризації аудіо сигналу.. Сегментація аудіо сигналу передбачає визначення границь, на яких змінюються характеристики, та виділення однорідних ділянок. Багато існуючий методів ґрунтуються на детектуванні точок зміни характеристик для пошуку границь сегментів. В статті розглядається об’єднаний підхід до сегментації і кластеризації, що ґрунтується на підході без вчителя в моделях послідовних даних. Приховані харківські моделі є вдалим вибором для моделювання аудіо сигналу, що представляє собою послідовність даних. В статті досліджено метод сегментації та кластеризації на основі такого типу моделей. Представлено існуючий ітеративний ЕМ алгоритм (Expectation-maximization algorithm) для прихованих моделей Маркова та розширення методу для напівприхованих моделей Маркова та їх застосування до моделювання аудіо сигналу його сегментації та кластеризації. В запропонованому методі кожний прихований стан харківської моделі відображає кластер сегментів. Початково модель ініціалізується з завідомо більшою кількістю кластерів, ніж існує за апріорною оцінкою, з метою зменшення ймовірності потрапляння неоднорідних сегментів в один кластер. Сегментація виконується з використанням алгоритму Вітербі в кожному кластері. Наступним кроком є зменшення числа кластерів шляхом їх об’єднання. Кластери об’єднуються відповідно до відношення правдоподібності. Новий клас представляється новою моделлю, параметри якої формуються за ЕМ алгоритмом. Сегментація переоцінюється з новою топологією прихованої харківської моделі, яка містить на один кластер менше ніж попередня. Процес ітеративно повторюється до досягнення максимуму оціночної функції. В статті представлені результати експерименту сегментації та кластеризації аудіо сигналу з різним типом змісту з неоднорідними ділянками.The audio signal analysis is important task in the condition of continuous growing amount of audio and video information. The article is devoted to the issue of audio signals segmentation and clustering task. Audio signal segmentation means the definitions of borders, on which characteristics are being changed, and homogenous segments allocation. Many existent methods are based on change points detection for segment bounds search. The join approach of simultaneous segmentation and clustering is considered in the article. It is based on a unsupervised learning approach in sequential data models. Hidden Markov models is a successful choice for audio signal modeling because it represents data sequence. The segmentation and clusterization method based on such type of models is investigated. The existent iterative EM algorithm (Expectation-maximization) for hidden Markov models and expanded method for semi-hidden Markov modes and their application to audio signal modeling, segmentation and clustering are presented. Every hidden state of Markov model reflects segments cluster in the proposed method. Initially the model is initialized with notoriously bigger number of clusters than exists by aprioristic estimate with the purpose to reduce the probability of allocation of non-homogeneous segments in one cluster. The segmentation is performed with using of Viterbi algorithm for every cluster. The next step is reducing of the cluster number by the way of joining them. Clusters are joined in order to likelihood-ratio value. A new class represents by the new model, which parameters are formed with EM algorithm. Segmentation is re-estimated with new hidden Markov topology, which contains one less cluster than previous one. The process repeats iteratively to reach the maximum of estimate function. The experiment results of segmentation and clustering are presented in the article, the audio signals have different content type with non-homogenous chunks.ukмоделі Марковаапостеріорна ймовірністьалгоритм Вітербіпослідовність прихованих станівMarkov modelsposterior probabilityViterbi algorithmhidden states sequenceСегментація та кластеризація аудіо сигналу на основі прихованої марківської моделіAudio signal segmentation and clustering based on hidden markov modelСтаття621.382.2