Аннотация

РАЗРАБОТКА ПРОГРАММНОГО И МАТЕМАТИЧЕСКОГО ОБЕСПЕЧЕНИЯ ОЦЕНКИ ИСКАЖЕНИЙ РЕЗУЛЬТАТОВ SQL-ЗАПРОСОВ В УСЛОВИЯХ СНИЖЕНИЯ КАЧЕСТВА ДАННЫХ
Скачать PDF
Аннотация: Настоящая работа посвящена практическому применению стандартов управления качеством данных в рамках повышения качества данных в реляционных СУБД. Исследуется задача определения влияния, которое оказывают искажения целевого набора данных на результаты SQL-запросов, выполняемых над этим набором. Рассмотрен случай искажений, выявляемых на основе показателей качества данных для наполненности. Предложен алгоритм оценки для разложения SQL-запросов на элементарные операции реляционной алгебры, такие как расширенная проекция, фильтрация, объединение и декартово произведение, и отслеживания распространения пустых значений в результате применения операции. Сформулирована задача ранжирования выявленных множеств пустых значений с целью построения эффективного процесса заполнения данных и представлен алгоритм, реализующий её решение. В рамках тестирования разработан экспериментальный стенд на наборе открытых данных Open University и реализованы предлагаемые алгоритмы. Результаты эксперимента подтвердили, что алгоритм оценки распространения пустых значений может быть успешно применён для определения порядка их заполнения.
Номера страниц: 58-73.
Для цитирования: Духовенский С.Е., Никульчев Е.В. Разработка программного и математического обеспечения оценки искажений результатов sql-запросов в условиях снижения качества данных // Электронный научный журнал «ИТ-Стандарт». – 2025. – № 3. – С. 58-73.