Сотрудник научно-исследовательской группы ИДСТУ СО РАН и ИСП РАН Даниил Копылов принял участие в открытой конференции Института системного программирования им. В. П. Иванникова РАН
В президиуме Российской академии наук (Москва) состоялась Открытая конференция ИСП РАН им. В. П. Иванникова. Сотрудник совместной научно-исследовательской группы ИДСТУ СО РАН и ИСП РАН Даниил Евгеньевич Копылов представил доклад, подготовленный в соавторстве с руководителем научной группы и старшим научным сотрудником отделения информационных технологий и систем ИДСТУ СО РАН кандидатом технических наук Андреем Анатольевичем Михайловым. Работа посвящена классификации текста растрового документа по признаку начертания. Над этим направлением Даниил Копылов работает в научной группе.
При выделении логической структуры документов используются ряд свойств, одно из которых — полужирное начертание слов. Таким образом в документах часто выделяют заголовки, определяемые слова, название колонок в таблицах. Иркутские ученые предложили метод классификации текста по жирности начертания, который состоит из последовательных шагов.
«На первом шаге проводится бинаризация всего изображения. Целью шага является разделение пикселей изображения на пиксели текста и фона. Вторым шагом проводится оценка каждого слова. В качестве результата возвращается величина, характеризующая толщину основного штриха символа в данном слове. На последнем шаге проводится кластеризация оценок на два кластера: жирный текст и обычный», — говорит Даниил Копылов.
Предложенный метод был реализован и протестирован на трех наборах данных, исходный код опубликован в открытом репозитории. Материал по докладу будет опубликован в сборнике «Труды ИСП РАН».
Конференция проводится ежегодно по инициативе Института системного программирования им. В.П. Иванникова Российской академии наук (ИСП РАН) при поддержке ряда российских и зарубежных партнеров (в том числе IEEE и IEEE Computer Society).