Файн ридер конечно штука хорошая но это долго, тем более что надо после него править, а если в тексте много формул и картинок то ...(((. Тем более что есть куча программ извлекающих текст за считанные минуты, но непонятно почему разработчики этих программ не подумали про шрифты. Что не ужели нельзя извлечь шрифты. Обидно за 1 минуту я извлек 300 страниц кракозяблен в ворд, и что с ними дальше делать. Тема уже подымалась не раз, но решения так и нет, хоть сталкиваться приходиться часто. Я понимаю что pdf так придумало намеренно, чтоб не кто не копировал текст, но ведь пароли на чтения в данных документах ломаются как семечки. Почему же нельзя вытянуть и шрифты.
p.s. прошу тех кто не ориентируется в теме не отвечать. А то как на mail.ru один модератор ответил что pdf это набор картинок, и там нет не какого текста, и закрыл тему. Ну хорошо что хоть не отнес pdf к видео, ведь если быстро листать...
Примечание:
White Angel 71 спасибо за ссылочку, потестирую
Расставлю еще раз точки над и:
1 Есть действительно сохраненные картинки в формате pdf, они огромных размеров (за это сейчас речь не идет) это однозначно Файн ридером
2 Есть (я такие делаю) текст поверх картинок -- сохраненный в pdf с нормальной кодировкой
3 Есть просто текст с картинками который сохранен в pdf в обычной кодировке (одной с кодировок установленной в ОС) такой по видемому попался вам -- и нормально извлекся, мне тоже такие попадались.
4 Но есть опция в pdf -- встраивание шрифтов -- это значит что (кодировка, или шрифт не буду вдаваться в детали) встроена в самом документе, и его нет в системе, он только там, поэтому когда документ открыт буквы отображены нормально, но стоит их копировать, или извлекать то получаются кракозяблены, поскольку шрифт не копируется, и не извлекается.
вот как этот например
http://www.scbmt.ru/mag/osn-bio/section_vii.pdf
За программы онлайн я вроде не писал пользовался PDF-XChange 4 Pro утилита PDF-Tools 4 (кстати на много лучше Акробата), так же пробовал раньше VeryPDF PDF2Word v3.0 -- но не чего не получилось. Не ужеле нет решений? Должны быть, не такой уж у них и сложный алгоритм если например пароли моментально можно снять -- Advanced PDF Password Recovery, а вот шрифт вытянуть ..((
Примечание:
Все! Спасибо разобрался конвертировал pdf2word 3й версией . Файл после конвертации весил в 5 раз больше, но мне главное вытянуть текст, так что в докх весил уже в 4 больше меньше а в тхт в 2 раза меньше. Но буду еще разбиратся в опциях
Примечание:
adabsurdum я уже разобрался, и нормально извлек текст не заморачиваясь с шрифтами писал в Дополнение #2 .
Интеллектуальная собственность должна быть бесплатной, как и любая информация, для развития общества, но это долго рассказывать что и как да почему, не в этой теме.
Стыдно признаться, но я уже давно хотел закрыть тему т.к. разобрался в проблеме, но не знаю как... А выбрать лучший вопрос не могу -- нет такого.
RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.
Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.
Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.