Сотрудники ИДСТУ СО РАН приняли участие в высокорейтинговой конференции VLDB-2025 в Лондоне
Сотрудники Института динамики систем и теории управления имени В. М. Матросова СО РАН представили свою работу на третьей Международной мастерской по анализу табличных данных (TaDA), состоявшейся в рамках конференции VLDB-2025 в Лондоне в начале сентября. Авторами статьи являются старший научный сотрудник молодежной лаборатории по работе с искусственным интеллектом ИДСТУ СО РАН кандидат технических наук Никита Олегович Дородных и магистрант ИМИТ ИГУ, стажер-исследователь лаборатории Илья Игоревич Охотин. Работа была представлена на постерной сессии «Table Header Recognition Based on Large Language Models», посвящённой задаче автоматического распознавания заголовков столбцов в табличных данных.
В работе впервые предложена методология оценки способности больших языковых моделей (LLM) решать задачу распознавания заголовков таблиц. Практическая ценность работы заключается в определении оптимальных конфигураций промптов и в открытом наборе артефактов (код, данные), опубликованных авторами, что облегчает воспроизводимость и дальнейшее развитие инструментов для автоматизированного анализа табличных данных.
Аспирант ИДСТУ СО РАН, стажер-исследователь молодёжной лаборатории Иван Александрович Поддубный на мероприятии заочно представил постер на тему «Query Plan Generation for Table Question Answering». Его работа посвящена новому подходу, где в течение обучения в языковых моделях типа «encoder-decoder» формируются знания о структуре таблиц и способах их преобразования.
«При этом модель не выполняет преобразований над таблицами, а лишь формирует план таких преобразований, который впоследствии выполняется на отдельном программном модуле для получения итогового ответа. Такой подход позволяет достаточно прозрачно следить за рассуждениями модели и понижает чувствительность модели к ошибкам в регистре ключевых слов в запросе, что позволяет превзойти аналогичное зарубежное решение», — объясняет Иван Поддубный.
Статьи доступны в материалах мастерской TaDA (VLDB 2025) и в открытом репозитории авторов.