<<
>>

3.6.2. Сканирование текста

При подготовке научной работы автору приходится работать и с уже опубликованными материалами, в частности со статьями, книгами. И чаг/то возникает потребность включить в свою книгу цитату, таблицу или другой материал опубликованного источника.
Если объем включения невелик, допустим строчек, текст несложно набрать вручную. Однако для больших объемов текста удобнее прибегнуть к помощи сканера и программы распознавания символов.

Сканер, работая по принципу фотоаппарата, передает в компьютер точный ^имок-кйргн.чку страницы с текстом. Однако работать с таким текстом невозможно: во-первых, Б графическом формате страница занимает слишком много места, а во-вторых, сканированный текст можно только читать, но нельзя редактировать и нельзя вставлять его фрагменты в создаваемый автором документ. Сканер нераспозвае г буквы: они для него - некие пятна

Однако разработаны программы, способные перевести сканированный текст из графического в текстовый формат - программы распознавания (OCR). Современная OCR умеет многое: распознавать таблицы, тексты, набранные не только определенными шрифтами так работали программы

первого поколения), но самыми экзотическими, вплоть до

242

рукописных; корректно с

слова на языках, и

не только четкие но и далеко идеальные, например с

пожелтевшей потной вырезки или третьей машинописной копии. Но распознать важно обеспе

чить возможность сохранения результата в файле популярного текстового (или табличного) формата - формата Microsoft Word или Excel.

Трон «короля» OCR в России делят две программы - CuneiForm и FineReader. Обе программы можно приобрести или получить бесплатно при покупке сканера. В компания Hewlett Packard, на долю которой приходится добрых три четверти рынка сканеров в России, поставляет со своей продукцией упрощенную версию CuneiForm.

FineReader традиционно славится высочайшим качеством распознавания. Так. например, при "'^ОТО':"'?'; распознавании книжного с помощью FineReader можно

обнаружить не более 5 ошибок на странице распознанного текста. При работе с Сіте/Рот- -.га 7-8 ошибок. Что же касается бледных и смазанных документов, то тут FineReader вне конкуренции. Эта система безукоризненно справляется с многоколонными и многостраничными ??егсгакїі, а также стаатипллпт корректно экспортируя их в программы Microsoft Office. Наконец, как и CuneiForm, FineReader способен работать с многоязычными документами - программа около 40 4jbiK03. в том числе языки республик бывшего СССР.

Едва ли не главное достоинство FineReader - простой и удобный интерфейс (визуальная оболочка про! рам^ы. с которой и общается при что редко для профессиональных Для распознавания достаточно положить документ в сканер и нажать единственную кнопку на панели инструментов программы. При распознавании мпсі (V-mxiніічньі.ч документов пользователю нужно только менять страницы и дава гъ команду для продолжения скнпи- рования. По окончании распознавания FineReader самостоятельно все распознанные страницы в один файл, который потом можно передать в Word или Excel.

Еще большими возможностями обладает профессиональная версия - Она

243 ет читать позволяет добавлять

базу данных новые языки. Кроме того, эта версия великолепно работает с формами типовых документов (модификация FineReader Forms), И уж поистине гсгав секпм интеллектом обладает третья модификация программы - FineReader Рукопись, которая способна корректно распознать даже нечеткий рукописный шрифт.

<< | >>
Источник: Кузнецов И.Н.. Курсовые и дипломные работы: От выбора темы до защиты: Справочное пособие. 2003

Еще по теме 3.6.2. Сканирование текста:

  1. Тексты источников:
  2. 3.4, РАБОТА С ТЕКСТОМ
  3. 3.4.2. Текст документа
  4. 1.4. Написание текста
  5. Тексты законодательных актов
  6. ЧАСТИНА ІІ ВИБРАНІ ТЕКСТИ
  7. ЛИТЕРАТУРНОЕ РЕДАКТИРОВАНИЕ ТЕКСТА
  8. LI. МЕТОДИКА РЕДАКТИРОВАНИЯ ТЕКСТА
  9. Понятие о тексте
  10. Проблема текста
  11.     Тексты и подтексты
  12. ОСНОВНОЙ ТЕКСТ
  13. Чтение текста
  14. Текст как семиотическая проблем