Сканування і розпізнавання архівних описів в - finereader 8

Відсканувати і розпізнати архівну опис в FineReader набагато швидше, ніж набирати її вручну в Word'е або тим більше набирати її вручну в архівному фонді.

1. Скануйте не кожного сторінку окремо, а кілька сторінок в автоматичному режимі. Поставте затримку 4 сек. - цього вистачить для перевертання сторінки.

2. Виберіть режим сканування - відтінки сірого. Сканування в чорно-білому режимі дуже сильно ускладнить розпізнавання. Вибирайте цей режим тільки для сучасних описів з дуже гарною якістю, надрукованих на лазерному або хорошому матричному принтері. Сканування в кольоровому режимі уповільнює роботу сканера, збільшує обсяг файлів на диску, на якість розпізнавання не впливає.

2.1. Розтягніть вікно «Зображення» ширше, щоб відразу бачити результати сканування. Вікно «Текст» поки не потрібно, зменшіть його розмір.

2.2. Почніть сканування. Сканувати всі листи архівного опису, включаючи титульний і завірчі листи. У процесі сканування в автоматичному режимі від вас вимагається тільки перевертати листи - все інше програма може зробити сама.

3. Якщо кордону осередків чітко виражені (сучасні якісні архівні описи), спробуйте запустити фонове розпізнавання під час сканування.

4. Найчастіше кордонів немає (старі описи, надруковані на друкарській машинці, з Лексикону). Щоб не розмічати блоки вручну на кожній сторінці, можете їх зберігати і завантажувати. Виділіть блок «Таблиця» на другій сторінці (де є таблиця, що не немає шапки опису), встановіть вручну стовпці, збережіть виділення і завантажте для всіх сторінок.

4.1. Виберіть інструмент «Виділити блок Таблиця», виділіть блок.

4.2. Виберіть інструмент «Додати вертикальну лінію», виділіть стовпці.

4.3. Збережіть шаблон - виберіть меню Зображення | Зберегти шаблон блоків ....

4.4. Виділіть сторінки без розмічених блоків (все, якщо немає передмови, титульного аркуша) у вікні «Пакет» - клацніть на третій сторінці, натисніть Shift і тримайте, клацніть по останній сторінці. Як варіант - виділіть всі сторінки. Завантажте блоки - виберіть меню Зображення | Завантажити шаблон блоків .... Виберіть раніше збережений файл. Тепер на всіх сторінках пакета блоки виділені.

4.5. Підправте на всіх сторінках блоки. Утримуючи Alt. посуньте мишкою блок, щоб поєднати з таблицею опису. Додайте горизонтальні кордони - виберіть інструмент «Додати горизонтальну лінію», клацайте мишею в тих місцях, де повинні відокремлювати рядки один від одного лініями. Для швидкого переходу до наступної / попередньої сторінці використовуйте клавіші Alt + Вниз. Alt + Вгору.

5. Якщо архівний опис надрукована на друкарській машинці або на матричному принтері з Лексикону, встановіть в налаштуваннях тип друку «Друкарська машинка».

5.1. Виберіть меню Сервіс | Опції ... На вкладці «Загальні» натисніть кнопку «Додаткові опції ...». Виберіть Тип друку «Друкарська машинка».

6. Розпочніть фонове розпізнавання - виберіть меню Процес | Розпочати фонове розпізнавання.

7. У міру сканування / розпізнавання можете виділяти блоки (якщо ще не виділені), поправляти, і виправляти помилки розпізнавання.

7.1. Розтягніть вікно «Текст» ширше, зменшіть розмір вікна «Зображення».

8. Пройдіться по всіх сторінках, виправте помилки розпізнавання. Для швидкого переходу до наступної / попередньої сторінці використовуйте клавіші Alt + Вниз. Alt + Вгору. При редагуванні звіряйтеся зі збільшеним зображенням нижче тексту - в Word'e доведеться звіряти з паперовим оригіналом, що зовсім незручно.

8.1. Перевірте невірно розпізнані переноси - часто FineReader замість м'яких переносів вставляє дефіс (дефіс). Виберіть меню Правка | Знайти .... У рядку «Текст для пошуку» наберіть «- ^ l» (або наберіть дефіс, клацніть кнопку >> і виберіть меню М'який перенос). Таких помилок не дуже багато, тому обов'язково перевірте весь текст.

8.2. Розпізнавати стовпець «Номер справи» необов'язково, тому що ви можете номера справ в Word'е розставити автоматично через списки. АвтоАФ підтримує подібну нумерацію. Справи можете пронумерувати також через АвтоОпісь.

9. Передайте результати в Word. В опціях скасуйте м'які переноси і графіку.

9.1. Виберіть меню Сервіс | Опції ... На вкладці «4. Зберегти »натисніть кнопку« Формати ... ». На вкладці «RTF / DOC / Word XML» виберіть оформлення «Таблиці, абзаци, шрифти».

9.2. Зніміть галочки Зберігати поділ на рядки. Зберігати поділ на сторінки. Зберігати колір тексту. У Word'е не доведеться видаляти зайві розриви сторінок, опис буде складатися з однієї таблиці, а не з декількох окремих.

9.3. Поставте галочку Видаляти варіант переносу. М'які переноси зазвичай ніколи не потрібні і лише заважають.

9.4. Можете поставити галочку Виділяти невпевнено розпізнані символи (в FineReader підфарбовані блакитним), тоді вони будуть підфарбовані і в Word'е. Після перевірки опису зніміть виділення.

9.5. Зніміть галочку Зберігати малюнки. щоб в Word'е не виявилося зайвих чорних ліній.

9.6. Виберіть меню Процес | Зберегти результати | Передати всі сторінки в | Microsoft Word.

10. У Word'е виділіть все, встановіть один формат шрифту, формат абзацу, приберіть зайве оформлення.

11.Удаліте зайві абзаци, розриви рядків, сторінок, розділів між таблицями, щоб таблиці злилися в одну.

12. Щоб вирівняти всі стовпці. перетворіть таблицю в текст і назад в таблицю.

12.1. Видаліть всі знаки абзацу з елементів таблиці.

Виберіть меню Правка | Замінити .... В поле «Знайти» введіть текст ^ p (знак абзацу). В поле «Замінити на» поставте пробіл (натисніть один раз пробіл). Натисніть кнопку «Замінити все». На питання про продовження пошуку натисніть «Ні».

Якщо заголовки складаються з декількох абзаців, наприклад заголовок та анотація, то збережіть знаки абзаців. Замініть знаки абзацу на який-небудь інший текст, наприклад @@@.

12.2. Таблицю перетворіть в текст. Виберіть меню Таблиця | виділити | Таблиця. Виберіть меню Таблиця | перетворити | Таблицю в текст ...

12.3. Текст перетворіть в таблицю - виберіть меню Таблиця | перетворити | Текст в таблицю .... Виберіть автоматичний підбір ширини стовпців «За вмістом», щоб ширина кожного стовпчика налаштувалася автоматично - номер, кількість вужче, заголовок ширше. Виберіть роздільником «Знак табуляції».

При необхідності після перетворення таблиць замініть назад текст @@@ на знак абзацу ^ p.

13. Скасуйте перенесення рядків в таблиці, щоб кожен заголовок цілком містився на сторінці. Виберіть меню Таблиця | виділити | Таблиця. Виберіть меню Таблиця | Властивості таблиці .... На вкладці «Рядок» зніміть галочку Дозволити перенесення рядків на наступну сторінку.

Через АвтоОпісь скасувати перенесення рядків простіше і швидше.

14. Оформіть заголовки Рубрикатора опису. щоб не відривалися від тексту і не залишалися в кінці сторінки. Виділіть рядок таблиці з заголовком рубрикатора - виберіть меню Таблиця | виділити | Рядок. Встановіть жирний шрифт. Виберіть меню Формат | Абзац .... На вкладці «Положення на сторінці» поставте галочку Розбивка на сторінки | не відривати від наступного.

Через АвтоОпісь оформити заголовки Рубрикатора простіше і швидше.

15. Видаліть зайві пробіли. поставте потрібні, зверстати. Одночасно на всіх етапах виявляйте помилки розпізнавання.

17. Готову опис збережіть як текст. перенесіть в Архівний Фонд через АвтоАФ.

18. розпізнаний пакет збережіть у вигляді картинок у форматі JPEG для фонду користування - виберіть меню Файл | Зберегти результати | Зберегти зображення .... Поставте галочку Зберегти сторінки | Усе. Виберіть Тип файлу «JPEG, сірий (* .jpg)».

Спробуйте зберегти зображення у форматі без спотворень і обробити програмою IBCB для очищення фону.

19. Збережіть всю опис в форматі PDF або DJVU - виберіть меню Файл | Зберегти результати | Зберегти сторінки .... Поставте галочку Зберегти | Всі сторінки. Виберіть Тип файлу «Документ PDF (* .pdf)». Щоб вибрати потрібну якість збереження, натисніть кнопку «Формат ...».

Зберігати текст під графікою.

P.S. У новій версії FineReader 9.0 інтерфейс істотно змінений. Програма на описах не тестувалася.