OCR – это сокращение от Optical Character Recognition, то есть, оптическое распознавание текста. Эта технология позволяет автоматически распознавать текст на отсканированном документе.
Существует ряд момент между человеческим и машинным пониманием содержимого.
- Во-первых, если мы читаем текст на другом языке, мы можем распознать различные знаки, но мы не в состоянии понять слово в целом. С другой стороны, у нас нет проблем с чтением и пониманием цифровых символов, которые широко используются. Это объясняет, почему многие системы OCR распознают только цифры, а сравнительно немного полностью распознают все алфавитно-цифровые символы.
- Во-вторых, существует сходство между различными символами. Очень маленькая разница, например, между символами О и 0.Человек должен перечитать абзац или предложение, чтобы помочь себе в понимании точного значения слов. Эта процедура является гораздо более сложной для машины (программы).
- В-третьих, в рассмотрении символов помогает контраст. При чтении текста на очень темном фоне может возникнуть много трудностей.
Кроме всего прочего, есть ряд других моментов, с которыми сталкиваются разработчики OCR программ и инструментов – направление текста, расстоянием между словами и строками и так далее.
Оптическое распознавание сканированного текста (http://matrixblog.ru/ocr-raspoznavaniye-skanirovannogo-teksta/) заключается в анализе образа документа, содержащего как машинные, так и написанное от руки письмо, с использованием передовых алгоритмов, построенных на основе сложных научных теорий и перевода содержимого в цифровой вид (например, в стандарте ASCII). OCR работает по принципу разбивки цифрового изображения страницы на ее наименьший элемент для того, чтобы найти блок текста, предложений и слов. Другие элементы, как например, линии, изображения, фотографии и т. д. будут распознаны и отвергнуты. Блоки символов разбиваются на отдельные составные элементы, сравниваются с эталоном (словарями символов из различных языков и шрифтов). Когда знак соответствует шаблону, он сохраняется. Далее следует процесс сравнения остальных символов и блоков.
Современные инструменты OCR повышают точность распознавания слов и символов путем более продвинутой предварительной обработки цифровых изображений и улучшенных алгоритмов коррекции и грамматических замеров для более точного определения релевантности слова.
Системы оптического распознавания символов используются там, где данные обрабатываются в огромных масштабах, например, библиотеки, органы статистики. Цены таких систем выходят за возможности рядового пользователя. Существуют, однако, более дешевые программы, которые можно использовать в офисе и дома. Эти программы могут быть полезны при написании дипломных работ, где вместо утомительного цитирования отрывков из книги, эти фрагменты обрабатываются и вставляются. Другим примером может быть сканирование электронных таблиц, содержащих числовые данные, которые в таблице будут подвергаться дальнейшей обработке. Приложения OCR находят также применение при создании все более и более популярных электронных книг (детально на http://matrixblog.ru), необходимы в системах идентификации, контроля и управления, например, при распознавании номерных знаков, анализе изображений в медицинской диагностике, а также в системах чтения для слепых.