Средства распознавания текста в Windows и Linux

Средства распознавания текста в Windows и LinuxПереходя на Linux у многих возникает вопрос, будут ли мне доступны те же возможности что и в OC Windows? Сегодня речь пойдет о таком сложном процессе, как распознавание текста со сканера и дальнейший перевод его в текст. Все прекрасно знают что для Windows такой программой является ABBYY Fine Reader. Безусловный лидер в этой области, оставивший далеко позади своих конкурентов.

Но увы, эта программа стоит денег. Профессиональная 11 версия доступная для скачивания стоит 3590 р., а коробочная еще дороже.

ABBYY Fine Reader Professional Edition

ABBYY FineReader Home Edition

Как вы видите на картинках, труд профессиональных программистов вознаграждается неплохо, чего нельзя сказать о пользователях, ведь цена на профессиональный пакет достигает средней зарплаты жителя российской глубинки. Причем купив, например 10 версию, вы сможете обновиться только до 11 версии, а 12 вам придется покупать снова. Почему я говорю именно о профессиональной версии? Потому что другие версии дают более урезанный функционал.

Домашний вариант версии за 1340 рублей, дает мало того что урезанный функционал, да еще и функционал 10 версии вместо 11. Кто-то скажет мол какая разница, десятая или одиннадцатая? Разница все таки есть. Чем старше версия тем больше вам придется работать руками. Некоторые куски текста могут не правильно распознаться. В итоге вам придется либо вбивать их руками, либо сканировать несколько раз ваш бумажный оригинал и распознавать его повторно.

Теперь поговорим о Linux. Речь в данном случае пойдет о Ubuntu, так как до недавнего времени он оставался наиболее дружественным к малоопытному пользователю. Не беру в расчет варианты чисто консольных программ без GUI, возможно у них более лучшие результаты. Но мое мнение — операционная система или программа в ней должна быть максимально простой и функциональной, чтобы люди не теряли времени на ее изучение и начинали работать с ней сразу.

Наиболее вменяемой в данном случае мне показалась программа cuneiform с графической оболочкой Yagf.

На рисунке смотрите результат распознавания скриншота экрана этой программой. Я просто сделал скриншот текста этой статьи, которую я набираю в Google docs. Картинка кликабельна.

Вот такие результаты распознавания

На следующей картинке результат распознавания электронного журнала в формате pdf, скачанного мною из интернета для опытов с распознаванием текста.

Распознавание листа PDF из отсканированного журнала

Как видите в данном случае качество распознавания — 100%, в отличие от скриншота экрана, где не распозналось ни одного слова. Ради интереса попробовал навскидку распознать пару других листов из журнала и везде получал разный результат.

Так же хочу заметить, что помимо десктопных программ распознавания текста вы можете воспользоваться онлайн сервисами.
Если вы считаете, что ABBYY FineReader на Linux вам ничего заменить не сможет, воспользуйтесь их онлайн сервисом по адресу finereader.abbyyonline.com.

Подробнее об этом сервисе я писал в статье Конвератция PDF в Word. Но не все так гладко — этот сервис платный. Но и тут у вас есть выход, вы можете зарегистрировать электронный кошелек и заработать на оплату этого сервиса в интернете. Как это сделать — почитайте блог о заработке в интернете. Я думаю вы найдете пару подходящих для себя способов. Если же совсем нет времени, то проще конечно ввести деньги на электронный кошелек и оплатить услугу сервиса.

Отдельного обзора заслуживает программа ABBYY Screenshot Reader. О ней читайте в моем следующем обзоре.

ABBYY Screenshot Reader

Резюме:

Если вы пользуетесь десктопными программами. то при наличии бумажного оригинала документа и поиграв с глубиной сканирования вам со временем удастся извлечь текст из изображения. Но если бумажный оригинал отсутствует или вы пытаетесь распознать захваченное изображение с экрана, то у вас есть шанс не получить желаемого. Абсолютно все инструменты распознавания очень чувствительны к разрешению изображения, используемому шрифту на нем. Поэтому коммерческие решения в этом плане более выгодны чем бесплатные, потом у что более адаптированы к различным шрифтам и глубине сканирования.

Автор:
Категория: Ubuntu

Вам понравилась статья? Поделитесь ссылкой с друзьями в социальных сетях

Если вы не наши того что искали - отпишитесь в комментариях, чем смогу помогу

Есть что сказать? Скажи!

О комментах: Ручная модерация, чушь и спам не пройдет

*