Формализация рукописного текста

В музеях, архивах, институтах и библиотеках России находится значительный корпус не исследованных и не введенных в широкий научных оборот рукописных текстов. Особую актуальность это приобретает по отношению к литературным памятникам XIX – ХХ вв., более 80% которых до настоящего времени не опубликовано. Расшифровка этих источников крайне затруднена, и, за редким исключением, они остаются вне внимания исследователей и читателей.

В последнее десятилетие хранение архивных документов осуществляется в том числе в виде электронных копий, что создает предпосылки для автоматизированной обработки информации. Тем не менее, цифровое изображение страницы делает невозможным основные виды работ с информацией (аннотирование, поиск элементов текста, цитирование) без предварительной обработки. Поэтому большое значение при работе с источниками приобретают методики и соответствующие им технологии, формализующие и облегчающие выполнение рутинных операций по распознаванию, индексированию и поиску структурных элементов текста.

Система автоматизированного анализа электронной версии источника может предоставить информацию о составе и полноте документа, датировке, количестве, стиле и жанре записей и их расположении на странице. Более того, локализация структурных элементов позволит уточнить практику цитирования рукописного источника, при которой единицей цитирования и визуализации станет не страница, а сегмент текста – абзац или строка. Историк получит возможность изучить фактографию, статистик – обработать новые данные, текстолог – сопоставить варианты произведений и поэтапно восстановить историю текста, лингвист – изучить поэтический словарь и процесс формирования языка, литературовед – познакомиться с записями, относящиеся к биографии писателя.

Подобная формализация рукописного текста предполагает определение высокоуровневых (семантических) структурных элементов через низкоуровневые (графические, позиционные и метрические элементы: количество и длина строки, взаиморасположение строк на странице и т.п.). Важным фактором, позволяющим проводить исследования  на современном мировом уровне, станет адаптация международного стандарта семантической классификации текста TEI (Text Encoding Initiative, 2011) к особенностям рукописных текстов, имеющим свою графику и характерные приемы структурирования информации. 

Существенным достоинством формализации рукописных текстов является междисциплинарный подход к проблеме: ряд задач решается методами гуманитарных наук (компонентный анализ, графическая и семантическая классификация текста), ряд – методами  интеллектуального анализа данных и математической статистики (распознавание образов, кластеризация, анализ связей).

Особенность предлагаемой постановки комплекса задач, определяющая его новизну и сложность, состоит в сегментации и компоновке текстовых блоков в документах из архивов писателей. Такая постановка задачи предполагает использование двух важных факторов. Первый фактор — это геометрические особенности форматирования и размещения текста. К ним относятся: форма очертания прозаических и стихотворных фрагментов, форма полей между ними, ориентация строк на странице, положение тестов относительно краёв листа. Вторым фактором являются стилевые индивидуальные особенности авторов. Наличие таких особенностей, с одной стороны, существенно усложняет задачу создания универсального инструмента, который можно применить к архивам разных авторов. С другой стороны, уникальность, ценность и значительные размеры этих архивов делают оправданным затраты времени, направленные на автоматизацию работы с рукописными документами.

Формализация рукописного текста предполагает определение высокоуровневых (семантических) структурных элементов через низкоуровневые (графические, позиционные и метрические элементы: количество и длина строки, взаиморасположение строк на странице и т.п.). В технологическом плане можно выделить две основные группы задач: автоматическое кодирование исходных цифровых изображений и последующее использование полученной разметки. В данном проекте основные усилия по разработке математического и программного обеспечения будут направлены на кодирование текста, которое в свою очередь разбивается на задачу сегментирования изображения и задачу распознавания структуры. Задача сегментирования изображения состоит в выявлении на изображении характерных графических элементов, определении их состава и положения. При этом в общем случае предварительно требуется повысить качество изображения. Задача распознавания структуры позволит скомпоновать графические элементы в структурные, имеющие запрашиваемую семантику, распознать значения атрибутов этих структурных элементов. Разнообразие графических и структурных элементов растёт с каждым новым жанром документов, новой областью исследований, новой общей и индивидуальной традицией ведения рукописи (язык, время, страна, автор), что и определяет масштаб задачи. Отметим, что при распознавании элементов рукописи не предполагается распознавать все символы текста, что отделяет решаемую задачу от задач оптического распознавания символов.

Программное обеспечение, использующее исключительно предварительно полученную разметку, опирается на стандартные подходы к информационному поиску. Для стандартных форматов представления разметки некоторую базовую функциональность обеспечивают уже существующие программы и сервисы, например http://www.tei-c.org/oxgarage. Отдельного внимания заслуживают специализированные для разных областей исследований системы поиска и визуализации результатов.

Математическое обеспечение разрабатываемых систем опирается на методы повышения качества изображения, методы сегментации изображения, методы распознавания структуры. В проекте предполагается развить подход к сегментации текста, который был частично апробирован в проекте РФФИ 08-01-00670 и проекте RM2-2245. Основная идея подхода состоит в следующем.

1. Бинаризация исходного изображения, представление документа в виде многоугольной фигуры, имеющей внешнюю границу в виде прямоугольника, описывающего страницу текста, с «дырами» в виде многоугольников, описывающих сам текст.

2. Построение медиального представления многоугольной фигуры в виде множества срединных осей и радиальной функции, определяющей ширину фигуры относительно этих осей.

3. Выделение на основе анализа медиального представления компактных компонент текста по ширине пробелов, соответствующих широким ветвям медиального представления.

4. Локализация выделенных компонент и визуализация прямоугольными рамками. Параметры алгоритма, адаптирующие его к конкретному стилю автора, которые должны определяться на основе обучения, описывают способ бинаризации текста, пороговые значения ширины пробелов между словами, строками, фрагментами. Определение состава этих параметров, способов их вычисления, а также методов обучения алгоритмов является предметом исследований, планируемых в рамках данного проекта.

В связи с ограниченным количеством размеченных экспертами структурных элементов на изображениях (обучения) и существенным различием в индивидуальных характеристиках каждого автора рукописных текстов при решении задачи распознавания структуры предлагается использовать метрические информационные модели, которые хорошо зарекомендовали себя при ограниченном объёме обучения, а не только статистические, лучше работающие на больших обучающих выборках. Применение метрических моделей в структурном распознавании в данном проекте тем более оправдано, что их формализм опирается на те же понятия, в которых эксперт попытался бы описать структурные элементы рукописи. Идея базируется на использовании наборов первичных функций сходства между графическими элементами. Математические методы, разрабатываемые участниками проекта, позволят провести агрегирование функций сходства и получить проблемно-ориентированные метрические описания, предназначенные для анализа структуры документа определённого типа.

На современном этапе развития науки программы, выполняющие соотнесение между собой различных текстов, создаются в области корпусной лингвистики. В течение последних десятилетий во многих странах ведется работа над созданием национальных корпусов текстов. Наиболее интенсивно идет разработка корпусов английского языка, первые из которых появились еще в 1960-е годы: Brown University Corpus и Lancaster/Oslo-Bergen Corpus (LOB). Самым крупным в мире в настоящее время является Британский Национальный Корпус (BNC). Крупнейшим собранием текстов и речевых записей на немецком языке является корпус Института немецкого языка в Маннгейме. Работы по созданию корпуса русского языка находятся в стадии подготовки: существуют только отдельные тематические корпусы. К ним можно отнести Русскую виртуальную библиотеку (РВБ) и Фундаментальную электронную библиотеку (ФЭБ). Примером тематического корпуса может служить Компьютерный корпус текстов русских газет конца XX века, созданный Лабораторией общей и компьютерной лексикологии и лексикографии МГУ в 2000–2002 гг. К сожалению, все перечисленные выше разработки работают исключительно с распознанными текстовыми массивами. Создание тематического корпуса рукописных текстов с использованием цифровых форм рукописей (в том числе черновых записей) позволит исследователям анализировать контекст словоупотребления и восстанавливать процесс создания словоформ. Репрезентативный тематический корпус также расширит ресурсы для формирования национального корпуса русского языка.

Тематика кодирования текстовых документов в мире постоянно и последовательно развивается с 1980-х годов. В настоящее время в мире есть несколько сообществ, разрабатывающих проблемно-ориентированные схемы кодировании текстовых документов, например EpiDoc, Music Encoding Initiative, Charters Encoding Initiative, Medieval Nordic Text Archive. Многие из них опираются на формат TEI, предлагая свои собственные расширения. Ещё больше сообществ пользуется указанными расширениями TEI, среди которых можно выделить проекты национального уровня: British National Corpus, Oxford Text Archive, New Zealand Electronic Text Centre. Практически все эти сообщества и проекты работают с печатными текстами. Что касается кодирования рукописных источников, то в рамках TEI ведущую роль играет Manuscripts Special Interest Group. До настоящего времени их разработки носят методический характер: разрабатывается многоцелевая схема кодирования рукописей, но не обсуждается автоматизация процесса кодирования. Популярные проекты по разметке рукописных источников ориентированы на поддержку коллективной разметки вручную, например FromThePage, T-PEN (Transcription for Paleographical and Editorial Notation).

Многие научные и коммерческие группы умеют распознавать движения пером. Известно, что такая динамическая постановка существенно отличается от статической, причём в существующих решениях не идёт речи о распознавании структуры документа.

В 1994 г. в исследованиях по кодированию и распознаванию рукописных текстов наметился серьезный прорыв. После шести лет разработок учеными Оксфордского университета (Лу Бернард (Lou Burnard) и С. Шперберг­Мак­Куин (C. Sperberg­McQueen) были опубликованы основные принципы системы кодирования текстов TEI. Изначально система TEI базировалась на электронном корпусе текстов классиков английской литературы (Oxford Text Archive). Сейчас в состав международной научной группы,  адаптирующей систему TEI для кодирования документов национальных литературных корпусов, вошли более 100 ученых различных специальностей из разных стран мира, в т.ч. Центры электронных текстов университетов Мичигана и Вирджинии (США). К сожалению, до настоящего времени русскоязычные тексты и электронный корпус классиков русской литературы в этой системе не представлены. Учитывая это, разработка российской системы кодирования рукописных текстов должна базироваться на неопубликованных рукописных материалах классиков русской литературы, имеющих четкую организацию текстового массива  (письмах, дневниковых записях, рабочих тетрадях), находящихся в архивах России. Таким образом, будет создан инструмент, позволяющий включить рукописные тексты в электронный корпус всемирного культурного наследия.

Л.М. Местецкий, Л.В. Хачатурян1

Примечания:

1. Исследование подготовлено в рамках проекта РГНФ № 14-04-12027в «Разработка компьютерного модуля для автоматической сегментации текста рукописных документов».
Наверх
 

Все права на размещенные здесь материалы принадлежат предоставившим их архивохранилищам или ученым.
Если вы хотите опубликовать эти материалы в своей книге или сделать перепост, пожалуйста, согласуйте это с редакцией сайта
или обратитесь непосредственно в предоставившую их организацию.