Библиотека Интернет Индустрии I2R.ru |
|||
|
Программа-архиватор узнает Шекспира06.02.2002 15:10 Знаменитое "быть или не быть" с легкостью узнается более или менее просвещенной половиной человечества как цитата из шекспировского "Гамлета". Но в скором будущем даже компьютеры смогут автоматически определять автора каких-либо строк или текста - с помощью программы, уже распространяемой свободно в интернете. Согласно отчету, опубликованному в журнале Physical Review Letters, ученые из римского университета La Sapienza обнаружили скрытые возможности для анализа строк данных в обычной программе под названием Gzip, предназначенной для сжатия файлов. Обычно программы-архиваторы вроде Gzip сжимают большие файлы, в том числе и текстовые, путем поиска повторяющихся фрагментов данных. Находя и распознавая в тексте определенные комбинации символов, программа сжатия классифицирует их и уменьшает размер файла, включая в архивный файл лишь основные компоновочные блоки, "кирпичики" данных, из которых состоит исходный текст, и инструкции, следуя которым, его можно заново "собрать". Эмануэле Кальоти (Emanuele Caglioti), адъюнкт-профессор математики и один из авторов отчета, утверждает, что процесс сжатия данных, используемый программой, также может играть ключевую роль в распознавании незнакомых текстовых файлов. Когда программа вроде Gzip сжимает данные, "она узнает кое-что о файле", говорит г-н Кальоти. В частности, она определяет так называемую файловую энтропию, или же минимальное число битов, необходимых, чтобы зашифровать файл. Файлы с одним и тем содержимым имеют одинаковую энтропию, ведь они содержат одни и те же базовые компоненты. "Если вы сжимаете файл, скажем, состоящий из английского текста, то пока Gzip его читает, она изучает статистику английского языка, - объяснил г-н Кальоти. - Чем больше она его читает, тем больше она может его сжать". Если добавить еще один файл на английском, то это существенно не изменит размера файла, так как базовый компонент - его энтропия - уже известен. Но если второй файл будет на итальянском языке, к примеру, то процесс придется начать заново, и программа определит новую энтропию. "Ей нужно выучить итальянский, - продолжает г-н Кальоти. - Такой объем работы измеряется в битах. Для обработки файла на итальянском потребуется больше места, так как это другой язык". Как выяснил г-н Кальоти и его сотрудники, тот же самый принцип и процесс можно использовать для распознавания автора текста. В своем исследовании ученые использовали 90 текстов 11 итальянских авторов, и в 93% случаев программа правильно классифицировала маленькие отрывки текстов по авторам. Как считает г-н Кальоти, можно смело говорить о том, что процесс сжатия данных можно использовать и в других целях. "Кроме распознавания текстов, его можно использовать для сравнения веб-страниц и нахождения одинаковых", - сказал он. По его словам, похожие методы сжатия данных используют ученые, пытающиеся расшифровать геном человека, о чем сообщалось в журнале Bioinformatics. По словам Марка Адлера (Mark Adler), одного из программистов, написавших Gzip в начале 90-х гг. как альтернативу существующим архиваторам, он был удивлен, узнав, что кто-то использует его программу таким образом. "Меня впечатляет и немного удивляет, как простое сравнение длины результата сжатия от соединенных вместе известного и неизвестного текстов дает такую высокую точность", - заявил он. Однако программист слабо верит, что итальянским ученым действительно удалось создать надежный механизм распознавания авторства текстов - по крайней мере, пока не будет проведено больше исследований. "С некоторой точки зрения, использования энтропии в качестве единицы измерения может оказаться недостаточным для того, чтобы отличить двух авторов с похожими стилями или использующих одни и те же слова и фразы, - заявил он. - Интересно, насколько хорошо это сработает при выборе не из дюжины, а из тысячи авторов". последние новости 01.02.2013 15:18 | Интернет и малые предприятия...» 22.01.2013 13:30 | Провал с планшетом от Microsoft...» 27.11.2012 13:14 | Ключ к лучшему софту для вас!...» 22.11.2012 14:39 | Выбор домашнего компьютера...» 16.11.2012 15:17 | Старый знакомый - Dr. Web...» 04.04.2012 13:35 | Как играть в игровые автоматы и как они устроены...» 04.04.2012 13:08 | Интернет-вклады набирают популярность...» 21.03.2007 17:33 | Вышел 3-й номер Юзабилити Бюллетеня...» 16.03.2007 00:16 | Индивидуальное обучение поисковому продвижению...» 15.03.2007 19:16 | Анонс места проведения PHPCONF 2007...» 14.03.2007 17:21 | Спонсоры конференции PHPCONF 2007...» 14.03.2007 00:29 | Аккредитация журналистов на участие в конференции «РИТ-2007» началась ...» 07.03.2007 12:12 | ЦБ обяжет аудиторов раскрывать банковскую тайну ...» 04.03.2007 20:30 | «1С» и «Битрикс» создают совместную компанию «1С–Битрикс»...» 01.03.2007 18:42 | Adobe выпустит Creative Suite 3 в конце марта...» 01.03.2007 17:44 | Oracle намерена приобрести Hyperion Solutions за $3,3 млрд ...» 28.02.2007 17:15 | Google улучшает систему уведомлений веб-мастеров...» 28.02.2007 16:09 | Adobe выпустит средства для редактирования видео в интернете...» 27.02.2007 19:29 | Большие ИТ-компании обещают возможности Web 2.0...» 27.02.2007 16:35 | Page Promoter 7.5: глобальная платформа для анализа, продвижения и управления ресурсом...» |
|
2000-2008 г. Все авторские права соблюдены. |
|