Библиотека Интернет Индустрии I2R.ru |
|||
|
Речевые коммуникации мобильного интерфейсаДавайте быть честными: доступ к сервисам Интернета через интерфейс мобильных устройств -- огромная проблема. Несомненно, имеются программы, которые позволяют пользователям обращаться к электронной почте c их мобильных телефонов. Но использовать клавиатуру мобильного телефона, чтобы напечатать адрес электронной почты, уже не говоря о простом сообщении, -- настолько неудобно, что это практически сводит на нет саму возможность. Но беспроводной доступ никогда не будет развиваться, если интерфейс не станет проще. Конечно, некоторые производители мобильных устройств кое-что сделали в нужном направлении. Но 90% из этого -- всего лишь красивые маркетинговые фразы о дружественном пользовательском интерфейсе. Существенно более серьезное изменение ситуации обещает подход под названием «речевые коммуникации» (voice-based communications). «Речевые коммуникации» -- это тип взаимного обмена «вопрос--ответ» между пользователем и компьютером. Очевидно, способ давать входную информацию голосом имеет огромное преимущество перед другими типами интерфейса. Звуковая связь -- это то, что люди осуществляли в течение тысячелетий, в отличие от ввода информации посредством печатания на клавиатуре, которому столетие или максимум два. Основную надежду сторонники «речевых коммуникаций» связывают с разработкой VoiceXML. VoiceXML -- это часть семейства языков XML, новая спецификация, по сути конверсионный язык. VoiceXML позволяет преобразовывать звуковые сигналы пользователей в язык разметки, который распознается и может быть использован приложениями и серверами. VoiceXML берет начало от языка по имени VoxML, разработанного Motorola. VoxML -- основанный на речевых сигналах язык, используемый в ряде приложений телефонной связи компании Motorola. Когда стала понятна необходимость создания промышленного стандарта для языка такого типа, Motorola вместе с рядом других компаний инициировала создание форума VoiceXML (www.voicexml.com). Схема работы VoiceXML подобна модели других Web-технологий. Посланые данные (в нашем случае -- звуковой сигнал от пользователя) поступают на шлюз, который преобразует звуковой сигнал в язык меток VoiceXML, после чего данные VoiceXML посылаются запрашиваемому серверу через обычный протокол HTTP. Соответственно для использования VoiceXML на мобильных устройствах необходимы две вещи: VoiceXML-плагин к микробраузеру (например, звуковой браузер Alphaworks от IBM) и телефонная связь с VoiceXML-шлюзом. Казалось бы, «речевые коммуникации» выглядят как прекрасное и единственно разумное решение проблемы интерфейса с мобильными устройствами. Но это только на первый взгляд. К сожалению, имеются серьезные проблемы, которые должны быть устранены, прежде чем VoiceXML реально сможет стать основой для интерфейса мобильного пользователя. Одна из самых больших проблем -- формальная строгость формулировок, необходимая при подаче голосовых сигналов. В качестве примера посмотрим на следующую ситуацию - посетитель заходит на сайт setevoi.ru: Устройство: «Добро пожаловать на setevoi.ru. Что вы хотели бы открыть: Новости, Журнал, Консультации, Университет?» Пользователь: «Новости». Устройство: «Добро пожаловать в Новости. Что вы хотели бы открыть: Главные новости недели, Последняя лента новостей, Выбор тематики новостей, Архив новостей?» Пользователь: «Последняя лента новостей». Устройство: «Какое сообщение из Последней ленты новостей вы хотели бы открыть: Секретный чат в ЦРУ, Сетевые продажи идут не очень хорошо, Новый альянс на рынке B2B, Тенденции широкополосного доступа в Европе, Oracle и Alcatel вкладываются в цифровое телевидение, Что похищено из корпоративной сети Microsoft, Насколько опасен мобильник?» И так далее. Странное общение, не правда ли? На сегодня приложения VoiceXML обеспечивают очень формализованный вид вопросов и ответов. Для многих пользователей такие автоматизированные переговоры не особенно привлекательны. Теоретически, проще, если содержание сообщения и ответы пользователя сводятся к минимуму, причем и навигация очень проста. Однако далеко не всегда можно упростить содержание и навигацию. Как быть, если в нашем примере в Последней ленте новостей имеется 10--20 сообщений? Если пользователь не знает точно, что он хочет, ему придется прослушать все два десятка названий и как-то умудриться запомнить, что из них ему нужно. Причем запомнить точное название новости, и с первого раза. Два-три таких испытания -- и никто больше вообще не захочет сюда заходить. Естественно, что огромные усилия сейчас брошены на исследования в области речевых технологий. Одна из самых последних новинок здесь, технология, называемая мультимодальным интерфейсом (MultiModal interfasing), возможно, существенно облегчит работу с мобильным интерфейсом. MultiModal interfasing (www.speech.kth.se/multimodal) -- это технология, которая позволяет использовать различные типы взаимодействий, вход с клавиатуры и речь. Такой подход часто называют взаимодействием типа Tap and Talk («Сигнал-и-Разговор»). Хотя технология MultiModal interfasing пока еще пребывает в стадии исследований, но их результаты уже обещают многое. Microsoft даже недавно анонсировала прототип PDA, работающий на технологии MultiModal interfasing. Первоначально мобильные устройства не были предназначены для обеспечения беспроводного доступа в Интернет или работы с мобильными приложениям. В результате перед индустрией сегодня стоит вопрос создания такого интерфейса пользователя, который преодолеет ограничения, свойственные мобильным устройствам. Речевые коммуникации -- определенно одна из возможностей, но, по всей видимости, не окончательный ответ. Более вероятна комбинация сенсорного и звукового входа. Примет ли это решение форму усовершенствований VoiceXML или дальнейшей разработки технологии MultiModal interfasing, на сегодняшний день пока неясно. Угадаю URL В сентябре 2000 года нью-йоркская компания Eatoni Ergonomics объявила о выпуске ПО для упрощения текстового ввода символов на мобильных телефонах. «Новое программное обеспечение текстового ввода Eatoni решает проблему ввода URL, имен собственных, сокращений и адресов обмена сообщениями в сотовых сетях», -- заявил основатель и CEO Eatoni Ховард Гутовитц (Hovard Gutowitz). До сих пор печатание на телефонной клавиатуре было в лучшем случае неудобным. Программное обеспечение текстового ввода Eatoni лингвистически-оптимально прогнозирует вводимые символы и делает стандартную клавиатуру мобильных телефонов не менее удобной, быстрой, точной и универсальной, чем обычная клавиатура». Рынок мгновенных сообщений через мобильные телефоны растет очень быстро. «Восемь миллиардов сообщений в месяц сегодня посылаются в Европе и Азии, и эта цифра удваивается каждые шесть месяцев», -- отметил глава Eatoni. По его прогнозам, очень скоро произойдет взрывной рост в мобильном текстовом обмене сообщениями. ПО Eatoni WordWise -- лингвистически-оптимизированная замена для алгоритмов предположительного ввода, применяемых некоторыми изготовителями телефонов для облегчения текстового ввода. Эти основанные на словарях методы не могут обрабатывать общие задачи текстового ввода, типа ввода URL. Они требуют от пользователя постоянного внимания для проверки сделанного алгоритмом предположения. WordWise не использует словарь, а основан на статистических данных и лингвистических образцах. Этот алгоритм использует менее половины объема памяти, требуемого при словарном методе, и, кроме того, достигает значительно лучших результатов в угадывании вводимых слов. Облегченный вариант ПО -- LetterWise -- может работать даже на обычной SIM-карте для GSM-телефонов. Поскольку ни WordWise, ни LetterWise не требуют от пользователей никаких материальных модификаций их телефонных трубок, они имеют все шансы стать мировым стандартом для текстового входа на мобильных устройствах. |
|
2000-2008 г. Все авторские права соблюдены. |
|