РАЗРАБОТКА МЕТОДИКИ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ОБ УСЛОВИЯХ ХИМИЧЕСКОЙ РЕАКЦИИ ИЗ ТЕКСТА НА ИЗОБРАЖЕНИИ
Скачать PDF
Аннотация: В работе рассматривается методика извлечения ключевой информации об условиях химической реакции
из неструктурированного текста, расположенного на иллюстрациях к научным статьям. Данная методика
позволяет ускорить процесс получения и структуризации данных о синтезе веществ, приводимых в
научных статьях. Для решения поставленной задачи был разработан модуль, выполняющий
распознавание текста на изображении, а также выявление и классификацию параметров реакции в
распознанном тексте при помощи нейронных сетей. Для сокращения объёма целевых данных, требуемого
для обучения модели распознавания текста, был создан генератор синтетических изображений и меток к
ним. В этих же целях был применён подход предобучения модели распознавания сущностей на большом
наборе размеченных химических патентов, размещённом в открытом доступе. При обучении модели
распознавания текста были использованы аугментации входных изображений для моделирования
различных особенностей в целевых данных, увеличения объёма обучающего набора данных, повышения
его разнородности, а также улучшения обобщающей способности модели. Предложен модифицированный
алгоритм получения векторного представления текста в модели BERT для учёта словесной информации
при использовании символьных токенов. После обучения моделей было проведено развёртывание и
тестирование модуля, выполнены замеры производительности и объёма потребляемых ресурсов.
Ключевые слова: машинное обучение, глубокое обучение, извлечение ключевой информации, оптическое
распознавание символов, распознавание именованных сущностей, предобучение, синтетические данные
Номера страниц: 32-41.
Для цитирования: Скреденас Д.А., Новикова О.А. Разработка методики извлечения информации об условиях химической реакции из текста на изображении // Электронный научный журнал «ИТ-Стандарт». – 2024. – № 2. – С. 32-41.