Розмітка документу

Інформацію в електронному документі можна умовно розділити на три категорії: текст, таблиця й малюнок. При розпізнаванні програмі FineReader бажано «знати», з чим вона має справу. У принципі, аналізуючи сторінку, виявити її структуру FineReader може й самостійно. Але при складному форматуванні можливі помилки. Наприклад, якщо в документ вставлене зображення вікна Windows. FineReader напевно спробує розпізнати текст меню цього вікна, хоча за змістом нічого такого робити не потрібно.

У простих випадках опирайтеся на автоматичну розмітку тексту. Якщо форматування йде в декількох колонках, перемежовується малюнками, таблицями – робіть розмітку самі. Виправляти помилки FineReader-а вийде довше. Тому треба освоїти «ручну» розмітку документа, тим більше, що зробити це зовсім не складно.

Подивіться на панель інструментів розмітки ліворуч від області сторінок. Почнемо з іконки з буквою «Т»: це інструмент для визначення текстового блоку. Клацніть на іконці лівою кнопкою миші. Поставте покажчик на зображенні документа там, де повинен починатися фрагмент тексту. Утримуючи натиснутої ліву кнопку миші, обведіть текстовий блок. Відпустите ліву кнопку миші. У документі з'явилася прямокутна область зеленого кольору. Вона повинна охоплювати фрагмент зображення, що FineReader тепер буде розглядати як текст. На рис. 2 текстовий блок охоплює всю частину документа, за винятком таблиці. Він позначений номером 1.

Щоб видалити блок розмітки потрібно виділити його щигликом миші й нажати клавішу «Del». Щоб змінити розмір блоку виділите його й розтягніть за кут або границю так, як ви міняєте розмір вікна Windows.

Таким же чином ви можете виділити блок з таблицею або малюнком. Ці іконки розташовані нижче інструмента виділення текстового блоку. З областями малюнків все зрозуміло: ці ділянки зображення FineReader розпізнавати не буде. Він перенесе їх у результуючий документ «як є». А от з таблицями має сенс познайомитись докладніше. Зазвичай розпізнавання таблиці робиться так.

- Вибираємо інструмент визначення блоку з таблицею.

- Акуратно обводимо фрагмент зображення, де міститься таблиця. Зайвий простір при цьому краще не чіпати, але й зовнішня границя таблиці повинна повністю перебувати всередині блоку:

- Клікаємо усередині створеного блоку правою кнопкою миші. З контекстного меню (рис. 3) вибираємо «Анализ структуры таблицы».

- Переглядаємо результат розмітки. Особливу увагу звертаємо на те, як розташувались окремі осередки таблиці. Для цього є сенс послідовно клацати лівою кнопкою миші по осередках таблиці в області розмітки й аналізувати правильність їхнього розташування.



- Якщо FineReader усе зробив правильно, переходимо до наступного етапу роботи.

А що робити в тому випадку, якщо при розмітці таблиці є певні помилки? Наприклад, FineReader не розпізнав бліду лінію границі й об'єднав декілька осередків в один? Для цього на панелі розмітки блоків є інструменти: «Добавить вертикальную линию», «Добавить горизонтальную линию» й «Удалить линии». Користуватися ними дуже просто. Клацніть на іконці «Добавить вертикальную линию». Переведіть покажчик миші у віконце «Изображение» на таблиці. Разом з покажчиком по зображенню буде переміщатися вертикальна лінія розмітки. Поставте її на потрібне місце й клацніть лівою кнопкою миші. Таким же чином додайте всі відсутні вертикальні лінії в розмітці таблиці. Щоб закінчити роботу в режимі додавання ліній виберіть інший інструмент розмітки.

За таком ж алгоритмом розберіться з горизонтальними лініями. Інструмент «Удалить линии» допоможе стерти зайві лінії розмітки таблиці. При роботі з таблицями часто доводиться поєднувати або розділяти окремі осередки таблиці. Зробити це простіше всього через праву кнопку миші. Поставите покажчик на осередок таблиці. Клацніть правою кнопкою миші. З контекстного меню (рис. 3) виберіть пункт «Ячейки таблицы». У ньому є три розділи: «Разбить ячейки», «Объединить ячейки», «Объединить строки». Якщо FineReader помилково злив кілька осередків в одну, скористайтеся з можливості «Разбить ячейки». Якщо буде потрібно об'єднання осередків в одне ціле, виділіть їх і зверніться до пункту «Объединить ячейки» контекстного меню.


7698341068024668.html
7698436293148399.html
    PR.RU™