Як відсканувати документ і розпізнати його в MS Word

Якщо ви вибрали швидкий шлях написання теоретичної глави, про який ми говорили в параграфі 2.1., скоріш за все, вам не обійтися без сканування документів. В іншому випадку, цей пункт можете пропустити, і починати конспектувати матеріали, знайдені в бібліотеці .

Перед початком сканування потрібно визначитися, що саме ви хочете використовувати при написанні роботи. А для цього потрібно спочатку переглянути наявну літературу і виділити олівцем потрібні моменти.

Коли я вперше сканував статтю з журналу для своєї першої курсової, для мене це заняття було неймовірно складним. В результаті декількох годин роботи зі сканером і FineReader’ом у мене на виході вийшла бредятина, що не піддавалася редагуванню. У підсумку довелося все набирати руками. Щоб у вас не сталося подібного, розглянемо докладніше всі технічні моменти сканування.

Для сканування нам, звичайно ж, буде потрібно сканер. Його не обов’язково купувати. Можна, наприклад, на час взяти у товариша. Я користуюся сканером CanoScan Lide 60. Це хоч і не найновіша модель, але мені дуже подобається цей компактний, швидкий і зручний в роботі “девайс”. Якщо ви взяли на час сканер, для того щоб він працював потрібно спочатку встановити програму-драйвер. Драйвера й інструкцію по установці завжди можна знайти на установчому диску, який додається до пристрою, або завантажити на сайті у виробника. Після установки драйвера, підключіть сканер до комп’ютера за допомогою з’єднувального шнура. Тепер можна вже безпосередньо приступити до сканування.

Але спочатку трохи теорії. Ви повинні знати, що процес сканування складається з двох етапів:

1. Безпосередньо сканування документу. На цьому етапі сканер як би фотографує поверхню сканування документа, і зберігає отримане зображення на комп’ютер у вигляді звичайного файлу .jpg .gif або в іншого формату;

2. Розпізнавання документу. Це процес перетворення тексту з зображення, зробленого сканером, в звичайний тест, який потім можна зберегти в Word і редагувати. Розпізнавання здійснюється без участі сканера, за допомогою спеціальної програми (найпопулярніша Adobe FineReader). Таким чином, ви можете спочатку відсканувати кілька аркушів тексту і зберегти їх у вигляді зображення, і тільки потім перетворювати в текст.

Отже, почнемо етап перший – сканування :

– Запускаємо драйвер сканера: Пуск – Всі програми – Canon – ScanGear (назва драйвера я вказую для свого сканера). З’явиться вікно драйвера:

Canon - ScanGear

– Відкриваємо кришку сканера і кладемо книгу, журнал або їх копію текстом вниз, як можна рівніше стосовно країв робочої поверхні сканера:

Покласти книгу в сканер

Тут дуже важливо зробити так, щоб кришка сканера якомога щільніше притискала сканований документ, не допускаючи попадання зовнішнього світла не робочу поверхню сканера, на якій знаходиться документ;

– Виконаємо необхідні установки драйвера сканера. Насамперед, потрібно встановити роздільну здатність, в якому буде відсканований документ. Роздільна здатність (рус. разрешение) – це показник, який визначає рівень деталізації об’єкта при скануванні і визначається в точках на дюйм (dpi, або т / д). Чим більше роздільна здатність, тим якісніше виходить зображення. Але, при скануванні текстових документів, немає сенсу встановлювати максимальний дозвіл, оскільки користі від цього буде нуль. Крім того, сканування з великою роздільною здатністю займає більше часу. Я рекомендую встановлювати дозвіл в межах 400-500 т / д (dpi). При такому налаштуванні зображення виходять досить якісними, для хорошого їх розпізнання, а сам процес сканування не займає багато часу. Пропоную подивитися на скріншот установки мого принтера:

параметри сканування

Для початку потрібно перейти в “Розширений режим”. Джерелом завжди буде “Планшет” (планшетний сканер). Кольоровий режим краще встановити “Чорно-білий” , адже для сканування тексту нам кольори не потрібні, а це зменшить розмір зображень на виході. Роздільну здатність, як я вже сказав, слід встановити 400 т / д . Вихідний розмір зображення – обов’язково “А4” . Тепер можна сміливо тиснути на кнопку “Сканувати” . Мій сканер влаштований таким чином, що спочатку запам’ятовує відскановані зображення у внутрішній пам’яті, і тільки при закритті вікна драйвера пропонує зберегти їх на комп’ютер. Мені залишається тільки вказати місце, куди будуть збережені результати роботи.

У вас повинні виходити файли такого типу:

відсканований документ

При збільшенні такого зображення повинен бути чіткий текст.

Другий етапрозпізнання отриманих зображень і їх перетворення в текст. Як я вже говорив, для цього потрібна спеціальна програма – FineReader . Скачайте програму за цим посиланням (32Мб) . Пароль до архіву – diplomguide.ru . Запропонована мною версія не вимагає установки (portable). В папці з програмою буде безліч різних файлів, але Вам потрібен тільки один – FineReader.exe . Подвійний клік на цьому файлі запустить програму на вашому комп’ютері.

Ця версія програми досить стара. Всі скріншоти нижче я робив використовуючи саме її. Якщо ця версія  FineReader у вас не запускається – виберіть новішу тут .

Вікно FineReader має наступний вигляд:

вікно FineReader

Після установки мови, на якому надруковані відскановані вами раніше документи, можна починати розпізнання. Якщо в тексті присутні відразу дві мови (наприклад, російська та англійська) установку зробіть відповідно.

Щоб почати розпізнання натисніть на стрілку праворуч від першої кнопки Сканувати – а потім – Відкрити зображення:

Відкрити зображення в файнрідере

Відкриється вікно вибору зображень. Відкрийте папку в яку ви зберегли відскановані зображення, натисніть CTRL + A (англійське) на клавіатурі і натисніть на кнопку Відкрити .

Вибір картинки для розпізнавання

Після цього, зліва у вікні FineReader’а з’являться ескізи файлів, по центру – на даний момент виділений ескіз в збільшеному вигляді, знизу – ще більше збільшення, а праворуч результат розпізнання:

результат розпізнання

Для прикладу я взяв лише два зображення. На скріншоті вище виділено перше з них, його зараз і розпізнаємо. Як бачите, зображення відскановано вертикально, щоб розпізнати текст знімок потрібно спочатку повернути на 90 градусів. Для цього скористаємося кнопками розгорнути на 90 градусіві розгорнути на 90 градусів. Наступним кроком потрібно вказати програмі, яку саме частину зображення потрібно розпізнати, а також задати тип даних, які повинні вийти на виході текст: таблиця або зображення. Для цього існують кнопки, відповідно: текст Таблиця зображення. Наприклад, якщо потрібно виділити текстовий блок, натискаємо лівою кнопкою на Розпізнати як текст, після цього натискаємо лівою кнопкою мишки в лівому верхньому кутку текстового блоку і, утримуючи ліву кнопку, перетягуємо в правий нижній кут. Для прикладу я повністю підготував до розпізнавання одне зображення:

Розмітка в файнрідере

Як бачите, всі текстові блоки в прикладі вище виділені зеленим, а малюнки – червоним. Таблиці готуються до розпізнавання аналогічно. Для цього призначена кнопка Розпізнати як таблицю. Для того, щоб перейти до наступного знімка, натисніть лівою кнопкою миші на його ескізі зліва. Таким чином готуються до розпізнавання всі отримані в результаті сканування зображення. Після того, як підготовка зображень завершена, слід виділити все. Для цього клацніть лівою кнопкою в порожньому місці на панелі ескізів (вона називається Пакет ) і натисніть Ctrl + A (англійське) на клавіатурі. Далі клікніть на кнопку розпізнатиі почекайте поки FineReader перетворює зображення в текст. Після цього можна зберігати отриманий текст в Word за допомогою кнопки зберегти, після натискання на яку відкриється вікно Майстер збереження результатів . У ньому необхідно вибрати формат для збереження – Microsoft Word, а також поставити позначку щоб збереглися всі сторінки:

Майстер збереження результатів

Після натискання кнопки ОК програма створить документ Word, і вставить в нього текст з розпізнаних сторінок в тому порядку, в якому вони знаходяться на панелі ескізів (Пакет). Отриманий документ відразу ж збережіть в папку в файлової структурі дипломної роботи і можете приступати до редагування. Як це робиться, описано в моєму безкоштовному курсі .

І останній момент. Якщо ви сканували газету або журнал, текст там часто дається у вигляді колонок (як в розглянутому прикладі вище). Ці колонки в Ворді потрібно перетворити в одну. Виділіть текст у вигляді колонок і виконайте команду: Формат – Колонки – Одна – ОК . Тільки після цього можна ставити Книжкову орієнтацію в Параметрах сторінки, відступи полів, шрифт і т.д.

Як відсканувати документ і розпізнати його в MS Word
Рейтинг статьи: 4.23
Оценок: 13