05.07.2019. - ИИ превратит картинки в текст

ИИ превратит картинки в текст

Системы распознавания текста были изобретены еще в прошлом двадцатом веке, когда с помощью сканеров листы отпечатанных документов стало можно переводить в редактируемые компьютерные файлы. Технологический прорыв в этой области сэкономил немало времени тем, кто работал над дипломами, диссертациями, научными докладами, в которых было нужно процитировать большой объем текста. При непосредственном участии Федеральной службы по интеллектуальной собственности («Роспатента») мы решили ввести на сайте рубрику «Патент недели». Еженедельно в России патентуются десятки интересных изобретений и усовершенствований — почему бы не рассказывать о них в числе первых.

Патент: 2691214

Авторы: Никита Орлов, Владимир Рыбкин, Константин Анисимович, Азат Давлетшин

Патентообладатели: ООО «Аби Продакшн»

Проблема, с которой сталкивалось большинство систем распознавания текста, — сложность работы с «нестандартными» шрифтами, а также, например, арабской вязью или китайскими иероглифами. Вариантов начертания и написания подобных символов — бесчисленное множество, вплоть до индивидуальных особенностей, а бесконечное обновление базы данных символов — почти нерешаемая задача.

Человеческий мозг в подобной ситуации ориентируется на ключевые элементы текстовых символов: скажем, букву «а», написанную разными людьми, люди, так или иначе, узнают, несмотря на индивидуальные особенности почерка или стиль печати. Другое дело — машины. По сути, ранние системы распознавания текста были построены на сравнении отсканированной картинки символа с символами в памяти программы: небольшое изменение — и вот уже программа выдает совсем не ту букву или знак, что вам нужен. «Распознанный» текст приходилось вычитывать во избежание ошибок даже при сканировании простых документов на кириллице или латинице.

Лидер российского и международного рынка систем распознавания, компания ABBYY, включила в свою новую систему перевода текстов в редактируемый файл элементы искусственного интеллекта. Благодаря такому подходу система начинает работать, фактически как человеческий мозг, который за индивидуальными особенностями почерка или печати все равно видит знакомые еще со школы буквы.

Система не просто «ждет» добавления в нее новых графических символов, а проводит сравнительный анализ отсканированного символа с уже известным ей набором, расширяя варианты возможного написания и начертания одной и той же графемы, что особенно важно для работы с очень «графическими» шрифтами — иероглифами, арабской вязью. Если в документе есть особенности или недостатки печати: плывущие строки, непропечатаные элементы и тому подобное, «ума» системы хватит, чтобы выдать вам правильный вариант.

Источник