Автоматизация экологического мониторинга Байкала: в ИДСТУ СО РАН создали специализированный язык обработки данных
В Институте динамики систем и теории управления имени В. М. Матросова СО РАН разработали новый язык паттернов для извлечения наборов записей из документных таблиц редактируемых форматов рабочих книг, текстовых документов, веб-страниц и других. Работа проводилась в рамках крупного научного проекта Минобрнауки России «Фундаментальные исследования Байкальской природной территории (БПТ) на основе системы взаимосвязанных базовых методов, моделей, нейронных сетей и цифровой платформы экологического мониторинга окружающей среды». Результаты опубликованы в журнале «Lobachevskii Journal of Mathematics».
«В рамках крупного научного проекта Минобрнауки России в нашем институте исследуются вопросы первичной обработки табличных данных, представленных в открытых источниках государственного экологического мониторинга озера Байкал и БПТ. Первичная обработка данных во многом определяет стоимость и достоверность результатов последующего анализа данных. По современным оценкам, до 80% рабочего времени аналитиков данных занимает именно этот этап. При текущем уровне развития информационных технологий данные процессы в общем случае не могут выполняться без участия человека. Поэтому автоматизация этих процессов нацелена на сокращение операций, производимых человеком. Одним паттерном можно покрыть целый класс таблиц, созданных по одному шаблону. Например, таблицы с гидрохимической характеристикой грунтовой воды, публикуемые в ежегодном государственном отчете по экологическому мониторингу озера Байкал, содержат данные, собранные за определенные временные рамки, но при этом оформляются по одному шаблону, и поэтому их структура может быть описана одним RTL-паттерном. С помощью RTL-паттернов из коллекции государственных докладов «О состоянии озера Байкал и мерах по его охране» были извлечены данные, касающиеся загрязнений озера Байкал и БПТ за период с 2016 по 2023 год», — говорит автор статьи, ведущий научный сотрудник лаборатории комплексных информационных систем ИДСТУ СО РАН кандидат технических наук Алексей Олегович Шигаров.
В настоящее время новый язык применяется в ИДСТУ СО РАН для извлечения информации, структурированной в виде таблиц и представленной в различных открытых информационных ресурсах по Байкальской природной территории и озеру Байкал с целью создания цифровой платформы экологического мониторинга окружающей среды БПТ и озера.