Как конвертировать pdf в текст

Как конвертировать pdf в текстНа днях тут возникла одна задачка — нужно было конвертировать большой документ pdf в текстовой формат. Сходу это сделать не получилось. Была альтернатива, либо быстро конвертировать этот pdf документ, любо тупо сидеть набивать все руками, а это больше 50 страниц! Причем под рукой только Linux! Да и платные решения совсем не было желания пробовать или идти туда, где есть Windows и что-то ставить на чужой машине тоже не хотелось.

Исходные данные:
— OpenSuse
— большой документ pdf с картинками и сложной графикой на 13 мегабайт, материал в котором представлен в виде картинок, результат сканирования журнала + обычный pdf документ, информация в котором была представлена в виде текста.
— интернет
— несколько текстовых редакторов на компьютере

Основная задача:
— Получить текст документа

Почему я взял два разных документа, вы наверное уже догадались, так как задачи и методы будут совсем разные. В первом случае предстоит найти средство распознавания картинок и преобразования в текст, во втором случае предстоит простое преобразование текста из одного формата в другой.

Первая пришедшая в голову мысль — интернет сервисы по конвертации pdf файлов. В роли подопытных файлов выступили два документа с разной структурой. Первый был сканом печатного журнала, преобразованного в pdf документ. Второй был настоящим текстовым документом, просто конвертируемым в дальнейшем в формат PDF.

Наш испытуемый — интернет-сервис pdfonline.com я нашел благодаря посту на блоге моего знакомого.
Результаты проверки — смотрите на видео.

Как видно из видео сервис поддерживает конвертацию только небольших текстовых документов. Второй документ был размером чуть меньше 1 мегабайта. А для более тяжелых предлагает скачать платную десктопную версию Windows программы.

Есть правда триальный режим, что бы подошло для разовой проверки, но у меня Линукс, так что этот вариант сразу отпадает. Но так легко сдаваться не стоит, я решил большой PDF документ разбить на несколько документов.

В итоге попробовать вновь этот сервис, чтобы быть полностью объективным. При помощи GIMP выдернул 1 лист из документа и при помощи встроенного Libre Office преобразовал картинку к формату PDF.

Сервис выдал таки документ для загрузки, но открыв его я увидел свою картинку плюс текст гиперссылки на сайт конвертора.

Вывод:

Если у вас PDF документ в виде набора сканированных страниц, не стоит ожидать от онлайн сервисов и десктопных программ-конверторов чудес распознавания. Будьте реалистами.

Почему не удалось сконвертировать отсканированную книгу в формате PDF?

Извлечение текста из отсканированной картинки более сложный процесс, чем конвертация текста из одного формата в другой. Процесс такого извлечения очень сложен, поэтому даже программы специально написанные для этого могут допускать ошибки распознавания.

Для Windows единственно достойная программа, выполняющая эту функцию это ABBYY Fine Reader. Да она платная, и стоит немало, но это не остановит любителей халявы, ведь есть интернет, где можно ее найти. Реальных и достойных аналогов, тем более бесплатных, для Windows платформы нет.

Единственный минус — вам необходимо иметь бумажный аналог книги, которую вы пытаетесь перевести в электронный вид, так как лучше 5 раз пересканировать страницу чем учить программу правильно распознавать страницу. Небольшой перекос страницы, смещение или еще что-то и вместо текста вы получите набор не читаемых символов. В самых последних версиях процент распознавания текста примерно равен 90%. Это значит что 10% косяков вам придется править руками.

Но не совсем так плохо, как могло показаться на первый взгляд. Погуглив пару часов я все таки нашел онлайн сервис, который справился с переводом картинки в текст. Это онлайн сервис от создателей программы ABBYY Fine Reader.

Итак, заходим на сайт http://finereader.abbyyonline.com/, регистрируемся. Есть также возможность войти через акаунты социальных сетей. Что бы избежать мороки с регистрацией я вошел под социальным акаунтом.

Если у вас отобразился сайт на другом языке, то в правом верхнем углу можно перейти на русский язык. Хочу сразу сказать что сервис платный, но дается при регистрации некоторое количество бесплатных распознаваний, а потом платите денежки. Количество как-то зависит от страны к которой относится ваш IP адрес. Мне дали 30 страниц бесплатно. Также пригласив друга вы получаете 3 страницы бесплатно, но мне почему то дали 2.

конвертировать pdf в word

Интерфейс на русском, в первом пункте выбираем файл для распознавания, нажимаем загрузить. Во втором выбираем язык распознавания, их там достаточно. В третьем пункте выбираем в каком формате нам надо получить текст.

конвертировать pdf в word

Ну и в заключение проверяем стоит ли галочка рядом с нашим загруженным файлом и нажимаем на кнопку распознать.
Далее откроется следующее окно, и подождав немного вы сможете загрузить распознанный готовый документ.

конвертировать pdf в текст

Так же можно загрузить его в 3 сервиса (Google Docs, Evernote, Dropbox) или на свой компьютер, как вам будет удобнее. Подсказка — если у вас не хватает страниц и совсем нет денег, регистрируетесь под другим почтовым ящиком.

Для Linux есть конечно бесплатные решения, но они настолько сырые, что руками там придется работать еще больше.
В следующей статье напишу о таких решениях, если конечно найду достойные.

Автор:
Категория: Suse  Теги:

Вам понравилась статья? Поделитесь ссылкой с друзьями в социальных сетях

Если вы не наши того что искали - отпишитесь в комментариях, чем смогу помогу

Одинокий коммент
  1. Den:

    Статья замечательная! Но можно рассмотреть и бесплатный аналог в виде программы Fistp PDF и онлайн-сервиса на основе этой программы pdftoword.ru . Я думаю что, это не хуже FineReadera

Есть что сказать? Скажи!

О комментах: Ручная модерация, чушь и спам не пройдет

*