ПОДХОДЫ К ОДНОКЛАССОВОЙ КЛАССИФИКАЦИИ РЕГУЛЯРНЫХ ВЫРАЖЕНИЙ
Скачать PDF
Аннотация: Резюме
Цели. В статье рассмотрена задача выявления паттернов новизны в списке регулярных выражений. Цель работы –
исследование подходов к выявлению паттернов новизны в списке регулярных выражений посредством
алгоритмов одноклассовой классификации.
Методы. Для решения поставленной задачи предложено использовать подходы, основанные на алгоритмах
одноклассовой классификации, таких как One-Class SVM и Isolation Forest. Для представления регулярных
выражений в векторном виде предложено использовать модели двунаправленных предобученных
трансформеров BERT и ModernBERT.
Результаты. Результаты экспериментальных исследований подтверждают целесообразность использования
алгоритмов одноклассовой классификации для разработки классификаторов, реализующих выявление паттернов
новизны в списке регулярных выражений. При этом наблюдается превосходство модели ModernBERT по
отношению к модели BERT в смысле обеспечения высокого качества классификации при выявлении паттернов
новизны в списке регулярных выражений.
Выводы. Рассмотренные подходы к одноклассовой классификации регулярных выражений могут быть
рекомендованы к использованию для выявления паттернов новизны в списке регулярных выражений. При этом
векторизация регулярных выражений, используемых при обучении и тестировании одноклассовых
классификаторов, может быть выполнена на основе моделей двунаправленных предобученных трансформеров.
Одноклассовые классификаторы регулярных выражений могут быть применены для проверки новых данных, в
том числе – генерируемых, на наличие в них нормальных паттернов и паттернов новизны.
Ключевые слова: регулярное выражение, паттерн новизны, BERT, ModernBERT, одноклассовая классификация,
One-Class SVM, Isolation Forest
Номера страниц: 32-48.
Для цитирования: Демидов Н.А. Подходы к одноклассовой классификации регулярных выражений // Электронный научный журнал «ИТ-Стандарт». – 2025. – № 2. – С. 32-48.