Обзор исследований по проблемам распознавания рукописных текстов

Актуальность задачи создания информационных ресурсов на основе рукописей очевидна. Это подтверждается тем вниманием к различным сторонам ее решения специалистами в области гуманитарной информатики, историками, лингвистами, филологами, работниками музеев и архивов.

Однако на данный момент не существует универсальных алгоритмов распознавания, которые могли бы применяться к рукописям разных эпох и написанных на разных языках. Основной круг проблем распознавания рукописных текстов обрисован в обзорной статье профессора Джона Эдвардса (John Alexander Edwards, Easily Adaptable Handwriting Recognition in Historical Manuscripts) из Калифорнийского университета в Беркли (http://www.eecs.berkeley.edu/Pubs/TechRpts/2007/EECS-2007-76.pdf). Он отмечает, что сделаны существенные шаги в области каталогизации, документирования, сохранения и визуализации исторических источников на основе информационных технологий. В Интернете растет количество проектов, содержащих электронные версии различных рукописей. В то же время, в большинстве случаев такие ресурсы представляют собой только коллекции цифровых изображений памятников, что позволяет решать задачи их сохранения, визуализации, расширения доступа к ним исследователей, но не дает возможности содержательного информационного поиска и анализа с помощью современных компьютерных технологий. Ограничения исследовательских возможностей связаны, прежде всего, с трудностями представления электронных версий рукописных и старопечатных книг в формате электронного текста, ввиду отсутствия эффективных систем распознавания.

Невозможность использования для создания электронных версий рукописных книг в формате электронного текста с помощью существующих программ распознавания обусловила развитие такого направления в решении этой задачи, как создание специальных текстовых редакторов для ручного набора с клавиатуры. Как и ручной набор вообще, такая технология создания электронных текстов на основе рукописных и старопечатных изданий достаточно трудоемка. К тому же она требует от пользователя овладения специальными навыками. В конечном итоге, она не позволяет проводить перевод исторических памятников в формат электронного текста в нужном объеме и темпе, однако, за неимением лучшего, продолжаются разработки подобных проектов. Российские исследователи из Петрозаводстка подчеркивают, что в каждом конкретном случае требуется свой собственный алгоритм решения исследовательской задачи, что, с их точки зрения, делает создание автоматической системы дешифровки невозможной и неэффективно     й. В качестве альтернативы они предлагают создать автоматизированную систему, упрощающую расшифровку рукописного текста (переведенного в электронный вид) путем коррекции шрифтов, формирования виртуальной клавиатуры и последующим набором текста (А.А. Рогов, А.Н. Талбонен, А.Г. Варфоломеев ««Автоматизированная система распознавания рукописных исторических документов» // http://rcdl.ru/doc/2010/469-475.pdf). Эти же авторы применили предлагаемые методы в дешифровке исторических стенограмм. Предлагаемая ими информационная система обладает следующими отличительными свойствами: учет особенностей исторической орфографии XIX и начала XX веков, учет индивидуальных знаков разных стенографистов, возможность критического анализа, использование словаря для подсказки при дешифровке текста и т.д. Разрабатываемая информационная система будет находиться в открытом доступе и предлагаться к использованию работникам архивов, научным сотрудникам, исследователям текстологам (http://conf.infosoc.ru/2011/matherials/book1/I_2_4Rogov.pdf).

К проектом по автоматическому распознаванию исторических стенограмм, где обеспечить автоматизацию распознавания и дешифровки оказывается проще из-за особенностей знаковой системы, примыкает проект по «Разработка словарных компонентов интегрированной информационной технологии переиздания печатных источников XVIII – нач. XIX вв.» (http://it-claim.ru/Projects/DicXVIII/DicXVIIImain.htm). В рамках данного проекта была разработана теоретическая модель и алгоритмы распознавания скорописных текстов, ключевыми аспектами которых являются: «структурный подход; двухуровневая схема распознавания (слово-буква); распознавание, управляемое гипотезами; нечёткость в описании; использование базы знаний и участие эксперта» (http://it-claim.ru/Projects/DicXVIII/Public/PhilippovichForumslav.pdf). Также необходимо отметить проект по созданию информационной системы для дешифровки и распознавания записей музыкальных произведений XI-XVI вв., которые писались с помощью специальной музыкальной системы (нотации) – крюками (знаменами) (http://compsemiografy.ru/). Эта система позволяет представить специалистам и заинтересованным пользователям Интернет необходимые ресурсы и средства автоматизации по электронному ведению рукописей, интерактивному воспроизведению песнопений, их синтаксического и семантического анализа, генерации и анализу вариантов расшифровки (перевода в современную нотацию).

Все эти проекты предполагают частичную автоматизацию работы исследователя, но не включают собственно автоматисческих модулей расшифровки текстаю

Больше количество материалов по рассматриваемым проблемам можно найти в «Международном журнале по анализу и распознаванию документов» (International Journal on Document Analysis and Recognition, IJDAR). Регулярнопроводитсяконференция «International conference on document analysis and recognition». В 2013 году она проводилась в двенадцатый раз (ICDAR 2013:  http://www.icdar2013.org/http://www.icdar2013.org/ ) В рамках этой конференции организуются соревнования среди разработчиков по созданию лучшей программы и алгоритма (http://www.icdar2013.org/program/competitions). Список рабочих тем даёт представление о том, на что направлены основные практические усилия разработчиков. Среди них есть такие важные направления исследований, как соревнование по распознаванию рукописных китайских иероглифов, нот, математических символов, исторических текстов, по проверке подписей, соревнование по определению авторства рукописи, сегментации рукописного текста и др.

Учёные из Центра передового опыта анализа и распознавания документов (Center of Excellence for Document Analysis and Recognition, CEDAR) Университета штата Нью-Йорк в Буффало, одного из ведущих научных центров по интересующей нас проблеме, опубликовали в последнее время информацию о нескольких интересных разработках, направленных на улучшение распознавания рукописного текста. Профессор Вену Говиндараджу очертил круг проблем, связанных с распознаванием рукописей, в обзорной статье «Парадигмы распознавания рукописного текста: интерпретация, транскрипция, поиск приложений» (Govindaraju, V, Handwriting Recognition Paradigms in Interpretation, Transcription, and Search Applications). Он указывает на то, что распознавание рукописных документов достигло больших успехов в определённых областях, прежде всего прикладных, таких как автоматическое распознавание почтовых адресов или проверка сумм на банковских чеках. Однако проблема распознавания рукописей по-прежнему остаётся для науки сложной задачей, особенно если лексикон текста велик или необычен, что является проблемой для сегментации его отрезков и отдельных слов. Таким образом, многие рукописи и исторические материалы до сих пор остаются недоступны для поисковых систем. В статье описаны текущие исследования Центра передового опыта анализа и распознавания документов по прочтению исторических рукописей, представлены образцы распознанного текста, графики и диаграммы, а также анализируется то, как улучшение распознавания рукописного текста может помочь интернет-безопасности (http://www.cse.unsw.com/research/groups/ai/seminars/sem_2007_11_09.html).

Роберт Милевски и Вену Говиндараджу (Govindaraju, V. andMilewsky, R.) также опубликовали статью, в которой представили методику отделения пикселов рукописного текста, находящихся на переднем плане, от фоновых пикселов (пятна на бумаге, потемнение листа, отпечатки копировальной бумаги и прочие «шумы», которые может помешать распознанию оригинальной рукописи). (http://link.springer.com/chapter/10.1007%2F11669487_10).

Коллектив греческих авторов: Базилиос Гатос, Костас Нтзиос, Иоаннис Пратикакис, Сергиос Петридис, Т. Конидарис, Ставрос Перантонис (Basilios Gatos, Kostas Ntzios, Ioannis Pratikakis, Sergios Petridis, T. Konidaris, Stavros J. Perantonis) – представили результаты своих исследований в статье «Техника бессегментационного распознавания древнегреческих рукописей» (A Segmentation-Free Recognition Technique to Assist Old Greek Handwritten Manuscript OCR). Учёные ставили перед собой задачу распознавания ранних христианских рукописей. Они предлагают новый, быстрый и высокопроизводительный способ распознавания текста без сегментации каждого символа, основанный на отслеживании и распознавании наиболее часто встречающихся символов и лигатур. Сначала распознаётся пустое фоновое пространство, затем – выступы за наружный контур буквы; разработанная учёными программа сама предлагает свои варианты для распознавания целых слов и отрезков текста (http://link.springer.com/chapter/10.1007%2F978-3-540-28640-0_7).

Исследователь Шахар Армон (Shahar Armon) из Еврейского университета в Иерусалиме описывает в статье «Распознавание рукописного текста и быстрая загрузка древнееврейских рукописей» (Handwriting Recognition and Fast Retrieval for Hebrew Historical Manuscripts) новую методику распознавания рукописей на иврите и быстрого поиска в них. Чтобы распознать букву или изображение, предполагаемый знак генерируется на основании выделения в нём ряда признаков. Эксперименты с архивом рукописей Каирская гениза показали, что эта система хорошо распознаёт повреждённые рукописи, содержащие большое количество аномальных букв (смазанных, утраченных или нечитаемых). (http://www.citeulike.org/user/shahar06/article/10205510)

В 2012 году учёные из Гамбургского университета Бернд Нойман, Райнер Герцог, Арвед Золд, Оливер Бестманн и Юлиан Шиль (Neumann, Bernd; Herzog, Rainer; Solth, Arved; Bestmann, Oliver; Scheel, Julian) опубликовали исследование под названием «Восстановление текста исторических рукописей с использованием локальных дескрипторов» (Retrieving Writing Patterns From Historical Manuscripts Using Local Descriptors). Компьютерная поддержка поиска рукописей на основании визуальных особенностей запрашиваемого текста – весьма актуальная, но зачастую неосуществимая процедура. Её можно было бы применить, например, чтобы узнать, есть ли в музейной коллекции рукопись, соответствующая имеющейся у исследователя копии. Самое главное, что сервис поможет найти рукописи, содержащие запрашиваемое изображение. Более того, благодаря ему можно найти расположение образцов письменного текста, состоящего из произвольных графических элементов. Похожие графические элементы, извлечённые из различных рукописей, могут дать исследователю ценную информацию о возможной личности писца или общем происхождении рукописей. Гамбургские учёные описывают новый подход к графическому поиску, опирающийся на локальные дескрипторы в «интересующих точках» (Interest points, IPs). Специфическое расположение этих точек в строго определённых местах изображения может интенсифицироваться и тем самым стать достаточно стабильным ориентиром для локальных дескрипторов. Каждый дескриптор представляет собой структуру тензоров, которые дают достаточно точный расчёт в локальном распределении градиента. Для высоко детализированного изображения, например, иероглифа, «интересующие точки» могут содержать несколько сотен значений. «Интересующие точки» хорошо зарекомендовали себя применительно ко многим изображениям, прежде всего китайским иероглифам и арабской вязи. (http://www.dh2012.uni-hamburg.de/conference/programme/abstracts/retrieving-writing-patterns-from-historical-manuscripts-using-local-descriptors/)

Машинное моделирование человеческого чтения уже почти тридцать лет является предметом научных изысканий. Большинство научно-исследовательских работ на эту тему посвящено распознаванию рукописного текста на примере китайских и японских иероглифов (эти рукописи легче поддаются формализации по сравнению с буквенным письмом), а также арабского языка.

30 августа 2013 года исследователи Дэн Сьерзон и Юрген Шмидхубер (DanCires¸anandJurgenSchmidhuber) из Института исследования искусственного интеллекта Далле-Молле, Швейцария, опубликовали отчёт о возможностях использования комитета обученных нейронных сетей (Multi-Column Deep Neural Networks) для распознавания рукописных китайских иероглифов. Обученная нейтронная сеть – это математическая модель, построенная по принципу функционирования естественной биологической нейтронной сети – нервных клеток организма человека. С точки зрения  машинного обучения, нейронная сеть представляет собой частный случай  распознавания образов, что позволяет обучить её узнаванию рукописного знака. Они превзошли иные методы классификации изображений и узнавания объекта. В проведённом учёными эксперименте были представлены изолированные китайские иероглифы (уже извлечённые из текста). Было обработано 224  419 символов, написанных 60 разными людьми. Для эксперимента было создано несколько вариантов комитетов нейтронных сетей, лучший из которых показал результат с 4, 215 % ошибок. Лучшая из программ может классифицировать 45 символов в секунду, работая на четырёхядерном процессоре Intel Core i5 2400. Дальнейшее увеличение скорости может быть достигнуто путём оптимизации кода для конкретной проблемы либо использованием лучшего графического процессора. (http://arxiv.org/pdf/1309.0261v1.pdf) Эта работа является продолжением давнего исследования по нейронным сетям, проводимого той же группой учёных. Они предоставляют регулярные (с периодичностью несколько раз в год) отчёты, каждый из которых демонстрирует улучшение полученных результатов (http://www.idsia.ch/~juergen/handwriting.html).

Техника распознавания написанных от руки китайских иероглифов не так давно нашла практическое применение, продемонстрировавшее успехи, полученные исследователями в такого рода разработках. Национальное бюро статистики Китая использовало программное обеспечение для оптического распознавания текста, предоставленное компанией Fujitsu Group, во время 6-й национальной переписи населения Китая. Завершения этого проекта с нетерпением ожидали как в самом Китае, так и за рубежом, поскольку он должен был решить очень трудную задачу — охватить приблизительно 1,3 миллиарда жителей страны, чтобы получить точную демографическую статистику и информацию о качестве жизни домохозяйств. Бюро NBSC опубликовало результаты проекта 28 апреля 2011 года. Технология оптического распознавания текста, использовавшаяся в этом проекте, была специально разработана подразделением Fujitsu Research & Development Center Co., LTD (FRDC). Это программное обеспечение способно обрабатывать трудные для прочтения рукописные китайские имена с точностью, превышающей 99,4 %. Подразделение FRDC в своё время также разработало мощную технологию оптического распознавания текста, которая использовалась во 2-й национальной сельскохозяйственной переписи населения Китая в 2006 году, однако исследователи и социологи отмечают, что качество обработки данных существенно выросло за разделявшие эти переписи пять лет. (http://www.pfu.fujitsu.com/en/)

Традиционное написание слов в арабской графике также представляет собой уникальную техническую проблему. Для различных типов изображений предлагалось применение различных методов. Их всесторонний обзор представлен в статье профессоров Л. М. Лориго и В. Говиндараджу (Lorigo, L.M., Govindaraju, V.) «Автономное распознавание арабского рукописного текста: обзор» (Offline Arabic handwriting recognition: a survey). Это первое исследование, полностью посвящённое распознаванию рукописных текстов на арабском языке. В нём обсуждаются различные методики и представляется перспектива для дальнейшей исследовательской работы. (http://www.cedar.buffalo.edu/~govind/papers/lg06.pdf)

Исследование рукописных текстов на многих языках с редкими алфавитами испытывает трудности в связи с отсутствием для них систем распознавания. Поэтому одной из важных научных проблем стала разработка систем программ по распознаванию документов на этих языках.

Исследователи из Бангалора Ситарам Рамачандрула, Шранг Джаин и Хариханар Равишанкар (Sitaram Ramachandrula, Shrang Jain, Hariharan Ravishankar) в статье 2012 года «Автономное распознавание рукописных слов на хинди» (Offline Handwritten Word Recognition in Hindi) рассказывают о программе e Hindi offline handwritten word recognizer (HWR). Для развития и тестирования этой программы они создали базу данных с рукописными символами, полученными из книг 100 индийских писателей. Изображения сегментируются на вероятные символы. Для того, чтобы сегментировать каждый элемент, выделяются общие элементы каждого символа и их стратификационные модели. Точность распознавания деванагари колеблется от 79,94% до 91,23%. (http://www.hpl.hp.com/india/documents/papers/p49-ramachandrula.pdf)

Королевский университет Пномпеня начал разработку платформы по распознаванию рукописных текстов на кхмерском языке. Символы кхмерского языка слишком сложны для ввода со стандартной клавиатуры, поэтому власти и научное сообщество страны предполагают, что распознавание рукописных символов было бы более удобным методом работы для разного рода карманных компьютеров. Базой для распознавания рукописных символов была выбрана испытательная модель LipiTk (www.rupp.edu.kh/master/mite/masterthesis/SD-Topic6.pdf‎).

Уже существует ряд исследований, посвященных конкретным аспектам анализа рукописного текста для обеспечения возможностей его автоматического распознавания.

В статье С. Клеменко, Л. Местецкого и А. Семёнова «Моделирование рукописных шрифтов на основе линий различной толщины» (Handwritten Fonts Modeling Based on Fat Lines of Variable Width) рассматривается такой геометрический параметр, как изменчивость ширины линии рукописного текста. Курсив представлен как след подвижной окружности переменного размера вдоль гладкой (smoоth) траектории, называемой осью. Для математического описания и поиска этого параметра используются кубические В-сплайны (сubic B-splines). И ось, и радиус (толщина линии) курсива описаны как В-сплайны. Таким образом, для курсива решается проблема преобразования рукописных символов, представленных как бинарные растровые изображения. В статье также обсуждается метод автоматического кернинга для рукописных символов; представлен прототип редактора шрифтов для рукописных символов. (http://wscg.zcu.cz/wscg2008/Papers_2008/full/A61.html).

В работе Л. Местецкого и А. Мосаловича «Использование непрерывных скелетных изображений для распрямления изображений документа» (Usage of continuous skeletal image representation for document images de-warping) рассматриваются возможности построения непрерывного скелета для изображения из документа. В статье представляется новый метод, который позволяет аппроксимировать деформацию межстрочных промежутков в изображениях, созданных для элементов скелета изображения, лежащих между строками текста. Результаты исследования доказывают эффективность приведённого алгоритма. (http://imlab.jp/cbdar2007/proceedings/papers/O3-2.pdf)

Статья Леонида Местецкого и Эмиля Якупова «Преобразования двоичного растрового изображения для компьютерного хинтирования» (Leonid Mestetskii, Emil Yakupov, Binary bitmap image transforms for computer font hinting) описывается подход к автоматическому хинтированию, то есть изменению контуров шрифта при его растеризации. Главная идея состоит в структурном анализе символов на основании представления скелета и установлении разрыва между этим представлением и границей (http://www.eutypon.gr/eutypon/pdf/e2003-10/e10-a01.pdf).

Продолжаются также коммерческие разработки по распознаванию рукописного текста. История создания систем по оптическому распознаванию символов (англ. Optical character recognition, OCR) уходит корнями в 1950-е годы, однако история исследования распознавания рукописных текстов значительно короче. В целом исследования по оптическому распознаванию символов и созданные на их основе коммерческие программные продукты были направлены на улучшения точности и скорости распознавания небольшого количества широко распространённых современных шрифтов (http://www.eecs.berkeley.edu/Pubs/TechRpts/2007/EECS-2007-76.pdf)

Единственный серьёзным производителем на этом рынке остаётся корпорация ABBYY с программой FineReader. Однако необходимо учитывать, что её программы распознавания разрабатываются с уклоном на стандартную документацию компаний, которые являются основными потребителями. Поэтому продукты ABBYY не дают высокой точности в нестандартных форматах, и уровень достоверности распознавания рукописей бывает невысок. У ABBYY FineReader есть версии программы, в которых после обучения она приобретает свойство распознавания рукописного текста. Но если пользователь пытается распознать в одной версии программы несколько различных образцов почерка, полученных от разных людей, программа не сможет выдать результат. Новая версия программы по автоматическому распознаванию символов FineReaderEngine 11 OCRSDK была представлена 24 октября 2013 г. Движок, на котором работает программа, позволяет использовать функции оптического распознавания текста (OCR), оптического распознавания меток (OMR) и распознавания рукопечатных символов (ICR). Однако для   работы собственно с рукописями художественных произведений, исторических документов, в которых почерки достаточно сложны, эта программа не может. Аналогична в целом и ситуация с проектами GoogleDocs и GoogleBooks.

Таким образом, основные зарубежные разработки в сфере распознавания рукописного текста направлены в основном на решение проблем сегментации текста, ускорения обработки информации и избавления от мешающих работе с текстом шумов, таких как утраченные или неясные фрагменты, пятна на бумаге, а также на увеличение числа языков, для которых можно применить сам алгоритм распознавания. Однако на данный момент нерешенных прикладных и теоретических проблем куда больше, чем достижений.

Елена Бучкина, Сергей Соловьёв
Наверх
 

Все права на размещенные здесь материалы принадлежат предоставившим их архивохранилищам или ученым.
Если вы хотите опубликовать эти материалы в своей книге или сделать перепост, пожалуйста, согласуйте это с редакцией сайта
или обратитесь непосредственно в предоставившую их организацию.