FineReader как детектор лжи. Библиотека I2R. Фирма ABBYY в соответствии с пословицей о выборе сезонов подготовки телег и саней выпустила летом сразу три варианта шестой версии программы FineReader: Professional Edition/Corporate Edition/Scripting Edition. Кататься на них до сессии пока некуда, но запрячь в сканер и опробовать можно.

Радость более совершенна, чем знание, ибо не каждый в процессе познания радуется, но всякий, кто радуется - познает при этом.
Марсимо Фичино (1433-1499)

Фирма ABBYY в соответствии с пословицей о выборе сезонов подготовки телег и саней выпустила летом сразу три варианта шестой версии программы FineReader: Professional Edition/Corporate Edition/Scripting Edition. Кататься на них до сессии пока некуда, но запрячь в сканер и опробовать можно.

Не пугайтесь, мы не будем рассматривать использование этих тяжеловозов по прямому назначению. А последуем осенней традиции учебного самообмана: разложим на столе умные учебники, откроем только что начатые конспекты и, прочитав пару абзацев теории, незаметно отвлечемся на мелочи. Итак, формально FineReader ¹ (рис. 1) - омнифонтовая система оптического распознавания текстов (толкования цитируемых терминов «по версии разработчика» сведены в таблице).

Термины и определения

Термин	Толкование
Адаптивность	Способность OCR-системы к самообучению.
Запрещенные символы	В качестве запрещенных символов для текущего языка указываются те, которые заведомо не могут встречаться в текстах, распознаваемых с подключением данного языка. Указание таких символов может существенно увеличить скорость и надежность распознавания. Например, при распознавании текстов, в которых встречаются только заглавные буквы, в качестве запрещенных следует указать все строчные буквы.
Игнорируемые символы	В качестве игнорируемых символов указываются те, которые могут встречаться внутри слова, например, знаки слогоделения или ударения в словарях. При проверке по словарю программа не учитывает эти знаки. В распознанном тексте эти символы сохраняются, но при проверке орфографии не учитываются.
Лигатура	Пары или тройки букв, которые из-за особенностей начертания склеиваются между собой. Например, ге, го, fe, ffi, tt и т. п.
Омнифонтовая система	Система распознавания, которая распознает символы практически любых размеров и начертаний.
Парадигма	Совокупность всех грамматических форм слова.
Целенаправленность	Распознавание строится как процесс выдвижения и целенаправленной проверки гипотез.
Целостность	Объект описывается как целое с помощью значимых элементов и отношений между ними.
Эталон	Набор пар «усредненное точечное изображение символа — его название», который создается в процессе обучения системы на конкретном тексте.

Процесс чтения с точки зрения науки есть опознание и декодирование изображенных на бумаге символов. И он существенно отличается даже у разных людей ². Чтобы выяснить локализацию мозговой активности при чтении, ставились непростые и небезопасные эксперименты на, очевидно, живых и грамотных добровольцах, и после ознакомления с их содержанием пытливые инопланетяне из фильмов ужасов покажутся неземными гуманистами. Я не решился проводить нечто подобное даже в отношении «чтеца» электронного, ограничившись простым наблюдением за его внешними реакциями в сравнении с реакциями человеческими (сходство которых разработчики декларируют, не поясняя деталей).

Рис. 1

Помните ли вы, как научились читать и что тогда изменилось? У меня, например, ухудшился сон. Содержание прочитанного значения не имело - влиял сам факт развития способности «распознавания». Раньше в снах не было лихорадочной активности мозга, пытающегося «читать» - текст воспринимался как узор. Другое дело - сон, «снятый» по материалам дней школьных и последующих, отягощенных «тайной чтения» - тут, сдавая экзамен по всем дисциплинам зараз, я лихорадочно вглядываюсь в «знакомую» книгу и не могу назвать ни буквы, хотя иллюстрации запоминаю до утра. А всё из-за того, что некоторые зоны мозга спят «крепче» других. Кстати, следует отметить, что носители восточных языков часто способны к распознаванию приснившихся иероглифов. Дело в том, что в японском и китайском языках употребляются две формы письменности. Кандзи (рис. 2, слева) использует символы почти пиктографического характера, отображающие не звуки, а предметы и понятия. Кана (рис. 2, справа) - символы, означающие комбинации звуков или слоги. При этом зрительно-пространственное восприятие иероглифов осуществляется правым полушарием мозга, а символов Кана, как и любых европейских букв, - левым ³.

Рис. 2

«Сны» в FineReader’е, конечно, невозможны ⁴, ведь FineReader всего лишь распознает символы, а мы еще и осознаем их смысл. А вот трудности узнавания без понимания смысла распознанного хорошо видны при попытке переписать, например, колонку ответов к кроссворду - все слова знакомы, но их неожиданная последовательность заставляет сверять каждый слог. Елена Григоренко, доцент факультета психологии МГУ и одновременно генетик, профессор Йельского университета (Коннектикут, США), приводит такое сравнение: «Если человек не умеет играть на виолончели, а его заставят, он будет неизбежно „застревать“ на технических деталях: как держать смычок, куда ставить палец и т. д.». Что и происходит в FineReader’е: анализируя графическое изображение, переданное сканером, «система сначала выдвигает гипотезу об объекте распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее». Данный процесс доступен для визуального контроля в специальном режиме «обучения», для выхода в который необходимо перед распознаванием трудночитаемого шрифта установить опцию «Распознавание с обучением» (рис. 3). В соответствующем окне видно, как именно FineReader пытается «обнаружить все структурные элементы и связывающие их отношения». При этом пользователю предлагается самостоятельно указывать FineReaderу «правильное» значение распознаваемых символов, соглашаясь или корректируя его «гипотезы». Все поучения FineReader сохранит в так называемом пользовательском эталоне.

Рис. 3

Для получения сколько-нибудь полезного пользовательского эталона соответствия отсканированных элементов изображения буквам, цифрам и знакам, необходимо пройти в ручном режиме как минимум одну отсканированную страницу (примерно две тысячи знаков). Сверяясь с русскоязычным файлом справки, попробовать это очень просто и поучительно. Дело в том, что FineReader помещает в пользовательский эталон все варианты начертания нераспознанного символа. Анализируя эталоны рукописей большинства людей, можно заметить значительное число вариантов написания некоторых букв на фоне двух-трех стабильных начертаний для остальной части алфавита. Психологи используют это свойство почерка для выявления травмирующих образов и ситуаций, сохранившихся у испытуемого с дошкольного периода.

«Обученный» FineReader неплохо справляется с чертежными и архитектурными шрифтами в написании студентов старших курсов и некоторыми стабильными учительскими почерками. Но тут следует констатировать не столько приближение машины к человеку, сколько уподобление профессиональных писарей машинам.

Для практических же целей не следует переоценивать возможности этой функции: может статься, что «…затраты на обучение будут больше, чем полученный выигрыш в качестве распознавания». При этом «необученный» FineReader, коверкающий некоторые слова и знаки, хорош в совершенно неожиданном качестве… детектора письменной лжи!

С фрейдистских трудов принято считать, что подсознание просматривается через оговорки (в нашем случае опечатки). Современная многоступенчатая корректура, казалось бы, не оставляет для подсознания никаких лазеек, но… Не тут-то было - «мозг хитрее человека», и для обмана литредакции он призывает в помощь художника-оформителя. В результате наиболее дискуссионные пассажи набраны «нераспознаваемым» шрифтом на пестром фоне - типично детский прием, когда неуверенный в собственных знаниях первоклассник произносит ключевые слова ответа исключительно невнятно.

Три примера работы FineReadera в режиме детектора лжи помогут вам научиться выявлять подобные «текстовые уловки» невооруженным глазом.

При этом мы сравним «наш» и «их», отягощенный законодательным регулированием, подходы к «маскировке» рекламной неправды.

Рис. 4

На рисунке 4 представлен результат чтения FineReader’ом этикетки средства после бритья известной международной компании. Слова «Arctic Peak» и «revitalizing» практически нераспознаны, что коррелирует с их смысловой нагрузкой: в Арктике нет «пиков» - это не Антарктида, а «revitalizing» - «оживление» - на данном препарате звучит сродни «реинкарнации» ⁵. На рисунке 5 - отечественная работа. В отличие от предыдущего примера всё наоборот: в диссонансе слоганов «лечебные травы» и «с экстрактами крапивы и коры дуба» предпочтение отдано ясности первого. У FineReaderа «язык не повернулся» признать дуб травой на фоне нарисованных вишневых листьев.

Рис. 5

О правдоискательных свойствах своей программы разработчики пока не догадываются, поскольку принятый ими новый логотип тоже не проходит этого теста (см. рис. 1). И вправду, какой смысл в отечественной разработке акцентировать внимание на однозначно немецком родовом определении «…der OCR» в концовке логотипа? Это не улучшает распознавания сцепленных строчек.

Рис. 6

Следует ли говорить, что условия распространения FineReader’а в качестве детектора лжи никак не отражены в лицензионном соглашении. Поэтому вопрос о легитимности использования контрафактных версий в указанных целях остается дискуссионным. Однако в случае его положительного решения для себя лично будьте готовы к сюрпризам: противопиратские мины-ловушки срабатывают даже после успешной инсталляции (рис. 6). Правда, иногда «бьют и по своим» - в данном обзоре рассмотрена лицензионная коробочная версия.

1 (обратно к тексту) - Здесь и далее цитаты с официального сайта.
2 (обратно к тексту) - Около 95% «праворуких» людей справляются с чтением силами левого полушария мозга, 5% - правого. 70% «леворуких», как ни парадоксально, также используют левое полушарие, 15% - правое, и еще 15% - оба полушария.
3 (обратно к тексту) - Блум Ф., Лейзерсон А., Хофстедтер Л. - Мозг, разум и поведение. Пер. с англ. - М.: Мир, 1988. с. 182-183.
4 (обратно к тексту) - Вниманию разработчиков! «Первая компьютерная программа, видящая и толкующая сны» - вакантный слоган.
5 (обратно к тексту) - Конечно, это всего лишь попытка объяснить чисто случайное совпадение.

	Библиотека Интернет Индустрии I2R.ru	Малобюджетные сайты... Продвижение веб-сайта... Контент и авторское право...
Забобрить! Блог		Поиск:	Рассылки для занятых...»

Библиотека Интернет Индустрии I2R.ru

Малобюджетные сайты...

Продвижение веб-сайта...

Контент и авторское право...

FineReader как детектор лжи