Аннотация

РАЗРАБОТКА МЕТОДИКИ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ОБ УСЛОВИЯХ ХИМИЧЕСКОЙ РЕАКЦИИ ИЗ ТЕКСТА НА ИЗОБРАЖЕНИИ
Скачать PDF
Аннотация: В работе рассматривается методика извлечения ключевой информации об условиях химической реакции из неструктурированного текста, расположенного на иллюстрациях к научным статьям. Данная методика позволяет ускорить процесс получения и структуризации данных о синтезе веществ, приводимых в научных статьях. Для решения поставленной задачи был разработан модуль, выполняющий распознавание текста на изображении, а также выявление и классификацию параметров реакции в распознанном тексте при помощи нейронных сетей. Для сокращения объёма целевых данных, требуемого для обучения модели распознавания текста, был создан генератор синтетических изображений и меток к ним. В этих же целях был применён подход предобучения модели распознавания сущностей на большом наборе размеченных химических патентов, размещённом в открытом доступе. При обучении модели распознавания текста были использованы аугментации входных изображений для моделирования различных особенностей в целевых данных, увеличения объёма обучающего набора данных, повышения его разнородности, а также улучшения обобщающей способности модели. Предложен модифицированный алгоритм получения векторного представления текста в модели BERT для учёта словесной информации при использовании символьных токенов. После обучения моделей было проведено развёртывание и тестирование модуля, выполнены замеры производительности и объёма потребляемых ресурсов.
Номера страниц: 32-41.
Для цитирования: Скреденас Д.А., Новикова О.А. Разработка методики извлечения информации об условиях химической реакции из текста на изображении // Электронный научный журнал «ИТ-Стандарт». – 2024. – № 2. – С. 32-41.