Американский онлайновый журналист, программист и веб-дизайнер Адриан Холоваты создал онлайновый скрипт под названием GetContentSize tool, который позволяет определить долю полезного содержания в общем объеме HTML-страницы.
Подсчет производится только в самом HTML-файле страницы и не затрагивает внешних данных, которые также загружаются браузером при просмотре: файлы изображений, таблицы стилей и прочее.
Скрипт позволяет отделить собственно текстовое содержание страницы от HTML-разметки, Java-скриптов и тому подобного, после чего вычисляется соотношение полезной и служебной информации в процентах. И наконец, скрипт отображает все то, что он счел текстовым содержанием указанной страницы.
Последняя версия скрипта Холоваты учитывает не только текст, доступный при обычном просмотре через браузер, но текстовое содержание тэгов title, alt и summary, которые хотя и не всегда видны пользователю, но также могут нести полезную текстовую информацию.
Скрипт доступен по этому адресу. Там же имеется и его исходник.