Як перемогти PDF: Короткий огляд програм конвертерів PDF (англ. PDF converters)
Завданням цієї невеликої статті-керівництва є відповідь на поставлене її назвою питання.
Відразу подякуємо компанію «Adobe» за цей чудовий формат - PDF. Ще більші подяки тим, хто заштовхує в цей формат всі, що тільки попадеться під руку: і текст, і графіку, а також вважає поганим тоном надіслати вам звичайне лист не конвертіровав його в PDF ...
Але, спокійно, без нервів! Що потрібно перекладачеві від PDF? Вірно - ТЕКСТ. Краще навіть неформатований (Plain Text). Ну, а на картинки можна подивитися і в «Adobe Reader» (раніше Acrobat Reader).
Тож почнемо.
Запам'ятайте! Якщо замовник хоче отримати на виході PDF та ще й з малюнками в растрі, і щоб форматування збереглося, сміливо шліть його до верстальщику з Adobe inDesign! Або освоюйте його самі і вимагайте надбавку за верстку!
Спочатку спробуйте отримати у замовника исходник PDF - може його якраз з вашого улюбленого Microsoft Word конвертером PDF і зробили ... Якщо його немає, тоді розберемося, якого виду бувають файли PDF і як з нього вивудити текст.
2. PDF зібраний з картинок або шрифти в ньому в кривих або «кривий» кодуванні. Ось це вже «важкий випадок». Тут не обійтися без обожнюваного «FineReader» (ABBYY PDF Transformer не дає таких же хороших результатів як конвертер PDF, оскільки не в змозі правильно визначити всі блоки автоматично. Скажімо так: PDF Transformer - це урізана автоматична версія FineReader). За перетворення в текст теж непогано б отримати додаткову винагороду, адже ви витрачаєте ваше дорогоцінний час на процес розпізнавання, який проходить не завжди так гладко, як хотілося б. Але ж замовнику-то все одно, користуєтеся ви електрословарямі і засобами автоматизації чи ні. Так що це ваші проблеми. (
3. PDF зібраний з картинок з неподдающимся розпізнаванню тексту. Співчуваю. Роздруковуємо, забуваємо про всяких «просунутих прогах», вішаємо папірець на планшет і переводимо, удосконалюючи свої навички чмаканія по клавіатурі.
Тепер, як і обіцяв, детальніше по першому пункту. Для прикладу візьмемо досить складний файл нестандартного формату паперу з керівництвом до велонавеске з сайту компанії Shimano: SI-41R0F-PD-M970_540_520-EN.pdf (182 Кбайт). У ньому є все: і таблиці, і малюнки в растрі, і текст в різних шрифтах і розмірах. Спробуємо перетворити його по черзі різними способами.
Adobe Reader 7.0 або 8.0
Adobe Reader 7.0 або 8.0 Файл - Зберегти як текст - * .txt
(Той же результат, що і збереження через Word «методом» CTRL + a, CTRL + c, CTRL + v). Є зайві знаки абзацу, а так цілком піде :)
Подивитися сконвертовані файл:
Save as * .txt
Ctrl + C з Acrobat Reader і Ctrl + V в MS Word (* .doc)
Тепер випробуємо спеціалізовані програми-конвертери PDF (а не конвертори!).
Adobe Acrobat 7.0 або 8.0
Adobe Acrobat 7.0 або 8.0 Файл - Зберегти як ... - * .doc, * .rtf
Краще їх і не дивитися: це жах якийсь. І це «рідний інструмент» для роботи з PDF. Текстовий формат - то ж, що і в Adobe Reader.
Подивитися сконвертовані файл:
Save as * .txt,
Save as * .doc,
Save as * .rtf
Чи не кривлячи душею, скажімо: «кривуватою текстик-то ...» Простий текст містить зайві знаки абзацу. Могло б бути і краще. Багато, однак, задоволені цією програмою - Solid PDF Converter.
Подивитися сконвертовані PDF файл:
* .doc
* .txt
Був обраний автоматичний режим обробки. Результат, треба зауважити, не поганий, але для перекладу мало придатний - ті ж зайві знаки абзацу, незручний текст. Тут також представлено файл, збережений в Word «Як простий текст»
BCL Jade 130 USD; 2 Mb
Штука, звичайно, хороша. Тільки для роботи BCL Jade потрібен ще й сам Adobe Acrobat (НЕ Reader). Він в нього вбудовується як плагін. І звикнути до нього доведеться - «зонувати» все доведеться вручну. Зате він часто справляється з такими речами, які іншим не під силу (правда, тільки за умови «живого» PDF). Зазвичай використовується для «довитасківанія» того, що не витягнув або не так витягнув Solid.
BCL easyConverter
Прямо-таки верх аскетизму! Нічого зайвого. Тобто, взагалі нічого: «Failed to convert» - це єдине, що вдалося домогтися від BCL easyConverter :(
Качаємо, качаємо, качаємо ... Що ж. скачав! І хотів би подивуватися на прегарний файл формату * .doc. Але ось надії обдурені: незважаючи на всю значимість, програма видала файл з відсутністю фрагментами тексту! Забути як страшний сон.
Вже майже зневірившись, запускаю якийсь Infix PDF Editor. Відкриваю PDF-ку, вибираю зберегти «Як простий текст» ... Дивимося ... І, о диво (!). ми отримали більш-менш прийнятний в перекладацькій кухні текст, зайві знаки абзацу відсутні як клас - клас, в загальному і цілому, і «одобрямс» (навіть RTF у них приємний оку - розмір і колір шрифту збережений).
Online PDF конвертер ZamZar.com
Цей он-лайн сервсіс призначений для конвертації всього в усі і скачування фільмів в YouTube і подібних сервісів, але в тому числі вміє і конвертувати файли PDF в формати DOC, RTF, ODT, TXT
Текстовий файл, вилізлий з надр Замзара, жахливий, а ось * .doc приємно здивував - це ПЕРШИЙ пристойний макет документа. Картинки понівечені неабияк, але текст скрізь на місці. Навіть зі спецсимволами. Однак він зовсім непридатний для перекладу: черезсмужжя якась та й годі плюс знаки абзацу в кінці КОЖНІЙ рядки.
Online PDF конвертер FreePDFConvert
А ось цей перетворювач попрацював на славу: все виглядає дуже пристойно! І картинки нормальної якості і текст. Зайві знаки абзацу (які можна прибрати макросом) стоять там, де і в самому PDF. Якщо працювати тільки у вигляді "Розмітка сторінки", то "тверде чотири".
Результат перекладу сервісом Freepdfconvert.com тестового PDF файлу в формат Microsoft Word - Дивитися * .doc файл
Є он-лайн сервіс і від самих творців PDF:
Висновок: Варто почати з самих надійних та простих програм. Якщо ж результат незадовільний, залишається пробувати інші.
Уф. Так ось він який, цей «пе-де-еф». Сподіваюся, я вам хоч трохи допоміг. Успіхів!
Посилання по темі:
Історія створення PDF в красивій флешці: