Адаптивне управління ресурсами комплексної системи захисту інформації на основі синтезу теорії ігор та посиленого навчання
Вантажиться...
Дата
2026
Назва журналу
Номер ISSN
Назва тому
Видавець
Хмельницький національний університет
Анотація
У статті розроблено та теоретично обґрунтовано метод адаптивного управління ресурсами кіберзахисту, що
базується на поєднанні підходів динамічних Баєсівських ігор та посиленого навчання. Цей метод моделює протистояння
між раціональним захисником та нападником в умовах, коли захисник має неповну інформацію про зловмисника.
Невизначеність щодо рівня кваліфікації чи мотивації нападника формалізується через апріорні ймовірнісні припущення про
його прихований тип.
Запропонований метод функціонує як безперервний цикл, що складається з моніторингу, адаптації та прийняття
рішень. Ключовим елементом є механізм адаптації, який використовує принцип Баєса для коригування ймовірнісних
припущень про тип зловмисника щоразу, коли спостерігається його дія. Для розрахунку найкращої довгострокової
стратегії захисника (що мінімізує сукупні витрати) застосовується алгоритм посиленого навчання (Q-learning), який
обчислює Байєс-Нешівську рівновагу.
Доведено, що цей динамічний та проактивний підхід значно ефективніший за статичні чи реактивні методи,
забезпечуючи глобальну мінімізацію очікуваних витрат. Метод має практичне значення для розробки інтелектуальних
систем підтримки прийняття рішень (СППР) та легко інтегрується в наявні системи безпеки, такі як Комплексні
системи захисту інформації (КСЗІ) та Системи контролювання доступу (СКД).
The article develops and theoretically substantiates a method of adaptive cyber defense resource management based on a combination of dynamic Bayesian games and reinforcement learning approaches. This method models the confrontation between a rational defender and an attacker under conditions where the defender has incomplete information about the adversary. Uncertainty regarding the attacker’s level of skill or motivation is formalized through prior probabilistic assumptions about the attacker’s hidden type. The proposed method operates not as a one-time calculation but as a continuous, iterative cycle consisting of monitoring, adaptation, and decision-making phases. A key element of this research is the dynamic adaptation mechanism, which employs the Bayesian principle to update and adjust probabilistic assumptions about the adversary’s type each time a specific attack action is observed. This allows the system to refine its understanding of the threat landscape in real-time. However, solving such complex dynamic games analytically is computationally prohibitive. Therefore, to compute the optimal long-term strategy of the defender—specifically, the strategy that minimizes cumulative costs associated with both security implementation and potential damage—a reinforcement learning algorithm, specifically Q-learning, is used to approximate the Bayesian–Nash equilibrium. This allows the defense agent to learn the optimal policy through simulated interactions, balancing immediate defense costs against future risks. It is theoretically proven that this dynamic and proactive approach is significantly more effective than traditional static or purely reactive methods. By anticipating rational attacker behavior and adapting to the attacker's type, the method ensures a global minimization of expected costs over the entire duration of the conflict. The method has substantial practical significance for the development of next-generation intelligent decision support systems (DSS) for Security Operations Centers (SOCs). Furthermore, the algorithmic nature of the proposed solution allows it to be easily integrated into existing security frameworks, such as Comprehensive Information Protection Systems (CIPS) and Access Control Systems (ACS), providing them with an intelligent core for automated resource allocation and strategic defense
The article develops and theoretically substantiates a method of adaptive cyber defense resource management based on a combination of dynamic Bayesian games and reinforcement learning approaches. This method models the confrontation between a rational defender and an attacker under conditions where the defender has incomplete information about the adversary. Uncertainty regarding the attacker’s level of skill or motivation is formalized through prior probabilistic assumptions about the attacker’s hidden type. The proposed method operates not as a one-time calculation but as a continuous, iterative cycle consisting of monitoring, adaptation, and decision-making phases. A key element of this research is the dynamic adaptation mechanism, which employs the Bayesian principle to update and adjust probabilistic assumptions about the adversary’s type each time a specific attack action is observed. This allows the system to refine its understanding of the threat landscape in real-time. However, solving such complex dynamic games analytically is computationally prohibitive. Therefore, to compute the optimal long-term strategy of the defender—specifically, the strategy that minimizes cumulative costs associated with both security implementation and potential damage—a reinforcement learning algorithm, specifically Q-learning, is used to approximate the Bayesian–Nash equilibrium. This allows the defense agent to learn the optimal policy through simulated interactions, balancing immediate defense costs against future risks. It is theoretically proven that this dynamic and proactive approach is significantly more effective than traditional static or purely reactive methods. By anticipating rational attacker behavior and adapting to the attacker's type, the method ensures a global minimization of expected costs over the entire duration of the conflict. The method has substantial practical significance for the development of next-generation intelligent decision support systems (DSS) for Security Operations Centers (SOCs). Furthermore, the algorithmic nature of the proposed solution allows it to be easily integrated into existing security frameworks, such as Comprehensive Information Protection Systems (CIPS) and Access Control Systems (ACS), providing them with an intelligent core for automated resource allocation and strategic defense
Опис
Ключові слова
динамічні баєсівські ігри, посилене навчання (Q-learning), адаптивне управління кіберзахистом, теорія ігор, асиметрія інформації, комплексна система захисту інформації, система контролювання доступу, оптимізація ресурсів, dynamic Bayesian games, reinforcement learning (Q-learning), adaptive cyber defense management, game theory, information asymmetry, comprehensive information protection system (CIPS), access control system (ACS), resource optimization
Бібліографічний опис
Джулій В., Муляр І., Ратушняк М., Чешун В. Адаптивне управління ресурсами комплексної системи захисту інформації на основі синтезу теорії ігор та посиленого навчання // Herald of Khmelnytskyi National University. Technical Sciences. 2026. Vol. 361, No. 1. P. 120-126.