Библиотека Интернет Индустрии I2R.ru |
|||
|
Программа-архиватор узнает Шекспира06.02.2002 15:10 Знаменитое "быть или не быть" с легкостью узнается более или менее просвещенной половиной человечества как цитата из шекспировского "Гамлета". Но в скором будущем даже компьютеры смогут автоматически определять автора каких-либо строк или текста - с помощью программы, уже распространяемой свободно в интернете. Согласно отчету, опубликованному в журнале Physical Review Letters, ученые из римского университета La Sapienza обнаружили скрытые возможности для анализа строк данных в обычной программе под названием Gzip, предназначенной для сжатия файлов. Обычно программы-архиваторы вроде Gzip сжимают большие файлы, в том числе и текстовые, путем поиска повторяющихся фрагментов данных. Находя и распознавая в тексте определенные комбинации символов, программа сжатия классифицирует их и уменьшает размер файла, включая в архивный файл лишь основные компоновочные блоки, "кирпичики" данных, из которых состоит исходный текст, и инструкции, следуя которым, его можно заново "собрать". Эмануэле Кальоти (Emanuele Caglioti), адъюнкт-профессор математики и один из авторов отчета, утверждает, что процесс сжатия данных, используемый программой, также может играть ключевую роль в распознавании незнакомых текстовых файлов. Когда программа вроде Gzip сжимает данные, "она узнает кое-что о файле", говорит г-н Кальоти. В частности, она определяет так называемую файловую энтропию, или же минимальное число битов, необходимых, чтобы зашифровать файл. Файлы с одним и тем содержимым имеют одинаковую энтропию, ведь они содержат одни и те же базовые компоненты. "Если вы сжимаете файл, скажем, состоящий из английского текста, то пока Gzip его читает, она изучает статистику английского языка, - объяснил г-н Кальоти. - Чем больше она его читает, тем больше она может его сжать". Если добавить еще один файл на английском, то это существенно не изменит размера файла, так как базовый компонент - его энтропия - уже известен. Но если второй файл будет на итальянском языке, к примеру, то процесс придется начать заново, и программа определит новую энтропию. "Ей нужно выучить итальянский, - продолжает г-н Кальоти. - Такой объем работы измеряется в битах. Для обработки файла на итальянском потребуется больше места, так как это другой язык". Как выяснил г-н Кальоти и его сотрудники, тот же самый принцип и процесс можно использовать для распознавания автора текста. В своем исследовании ученые использовали 90 текстов 11 итальянских авторов, и в 93% случаев программа правильно классифицировала маленькие отрывки текстов по авторам. Как считает г-н Кальоти, можно смело говорить о том, что процесс сжатия данных можно использовать и в других целях. "Кроме распознавания текстов, его можно использовать для сравнения веб-страниц и нахождения одинаковых", - сказал он. По его словам, похожие методы сжатия данных используют ученые, пытающиеся расшифровать геном человека, о чем сообщалось в журнале Bioinformatics. По словам Марка Адлера (Mark Adler), одного из программистов, написавших Gzip в начале 90-х гг. как альтернативу существующим архиваторам, он был удивлен, узнав, что кто-то использует его программу таким образом. "Меня впечатляет и немного удивляет, как простое сравнение длины результата сжатия от соединенных вместе известного и неизвестного текстов дает такую высокую точность", - заявил он. Однако программист слабо верит, что итальянским ученым действительно удалось создать надежный механизм распознавания авторства текстов - по крайней мере, пока не будет проведено больше исследований. "С некоторой точки зрения, использования энтропии в качестве единицы измерения может оказаться недостаточным для того, чтобы отличить двух авторов с похожими стилями или использующих одни и те же слова и фразы, - заявил он. - Интересно, насколько хорошо это сработает при выборе не из дюжины, а из тысячи авторов". последние новости 07.02.2002 03:25 | В программных "неуязвимых" продуктах Oracle обнаружена куча дыр...» 07.02.2002 03:11 | IBM, Microsoft и другие крупные компании образовали альянс для стандартизации веб-сервисов...» 07.02.2002 03:02 | Google SearchTool - программа, использующая возможности поисковика Google...» 07.02.2002 02:53 | СПС взял под контроль создание законов для интернетчиков...» 07.02.2002 02:44 | "Рамблер" переехал в Силиконовую слободу...» 07.02.2002 02:37 | DARPA вплотную занялось безопасностью Linux...» 07.02.2002 02:17 | CyberQuest и "Сачок.ру" в середине февраля устраивают чемпионат по сетевым играм...» 07.02.2002 01:27 | Госдума отклонила законопроект о размещение в Интернет списка клиентов всех банков на территории РФ...» 07.02.2002 01:10 | Выставка NET&COM 2002 посвящена мобильным и домашним сетям...» 07.02.2002 00:57 | Телефоны Samsung покажут только питерскому Интернету ...» 06.02.2002 18:02 | Flash идет на телевидение...» 06.02.2002 17:59 | Интернет-агентство GRADI WEB проводит праздничную рекламную кампанию...» 06.02.2002 17:26 | Dot разработал интернет-систему закупок для Procter & Gamble...» 06.02.2002 17:18 | Macromedia в ударе. Выпущена бета-версия Flash Player 6...» 06.02.2002 16:10 | Информационная акция "Выбор системы управления сайтом"...» 06.02.2002 15:53 | В Интернете началась прямая трансляция "Технологии безопасности"...» 06.02.2002 15:28 | On-line-конкурс на лучшую телогрейку...» 06.02.2002 15:10 | Программа-архиватор узнает Шекспира...» 06.02.2002 14:45 | Для Adaytum 2001 год оказался самым успешным...» 06.02.2002 14:06 | Сжатой музыке — сжатые диски...» |
|
2000-2008 г. Все авторские права соблюдены. |
|