Как компьютер распознает текст?

Как компьютер распознает текст?

Человеческое существо, взглянув на текст на этой странице, мгновенно узнает знакомые образцы, из которых состоят буквы и слова. Компьютеру, чтобы осуществить то же самое, требуется специальное оборудование и сложная программа. На первом этапе оптическое сканирующее устройство должно «прочитать» текст и ввести его в компьютер. Затем компьютер должен проанализировать каждый символ текста, чтобы правильно идентифицировать материал. Эта задача может быть усложнена разнообразием шрифта и размера.

Компьютеру следует сравнить каждый символ с имеющимися у него образцами, идентифицирующими буквы. Закончив с отгадыванием букв, компьютер сохраняет текст для дальнейшего просмотра или отпечатки. Компьютер, оборудованный синтезатором голоса, может прочитать текст вслух, после того как определен синтаксис, ударение, интонация. Чем больше входят компьютеры в повседневную жизнь, тем важнее становится их способность принимать печатный текст и читать его вслух.

Распознавание символов

Компьютеры идентифицируют символы, графику и звуки посредством распознавания образцов. Если звуки для анализа разлагаются на частоты, печатный материал идентифицируется при помощи пошагового сравнения текстовых символов с набором хранимых в памяти компьютера форм и образцов.

Сканирование ввода

Когда компьютер сканирует текст, он преобразует его в электрические сигналы и отсылает в память

Преобразование

Образцы символов преобразованы в двоичные числа: единицы для темных частей и нули для светлых.

Экстрагирование

Компьютер извлекает (экстрагирует) идентифицируемые элементы каждого символа из двоичного образца при помощи одного из нескольких методов. Модельный анализ.

Сканеры сдвигают элементы растра с границ образа и подвергают центральную или контурную линию модельному анализу. Контуры анализируются при помощи векторов направления. Анализ формы.

Полигональные фигуры (сверху, розовый цвет) исследуют форму символа. Символ анализируется в соответствии с тем, в каких местах он соприкасается с полигонами.+

Фоновый анализ.

Пока компьютер сканирует в четырех направлениях, к каждой части символа прикрепляются ярлыки (за каждой частью символа закрепляются ярлыки), указывающие, есть или нет элементы растра в данном месте. 4. Сравнивание

Информация, получаемая из извлеченных характеристик, сравнивается с набором хранимых моделей. Символы идентифицируются методом установления степени сходства с имеющимися образцами

Читая текст

Текст, идентифицированный при помощи распознавания символов, затем структурно анализируется. Этот анализ осуществляется при помощи словаря и набора синтаксических правил, хранимых в памяти компьютера. Искусственный интеллект определяет, где встречаются разрывы между слогами. Дополнительные программы снабжают компьютер информацией о произношении, интонации, ударении, и синтезатор голоса читает текст вслух