27.01.2006 10:50 • Posted by pilot • View: 4215 • Версия для печатиКомпания Google провела масштабное исследование различных аспектов HTML-синтаксиса на выборке из более чем 1 млрд веб-страниц.
Собиралась и анализировалась информация о самых популярных названиях классов, элементах, атрибутах и метаданных. Хотя сам по себе HTML является четко формализованным языком, но использовать его можно по-разному. Подобные исследования показывают, каким образом авторы используют HTML, как предпочитают оформлять текст, какие самые распространенные ошибки и т.д.
Согласно статистике Google Web Authoring Stats, средняя веб-страница в Сети содержит 19 элементов разного типа. Около 98% всех веб-страниц содержат элементы «head», «html», «title» и «body». Нужно заметить, что три из них являются обязательными элементами HTML-документа. В то же время элемент «title» таковым не является, но все равно встречается в подавляющем большинстве веб-страниц.
После этих четырех самым популярным элементом является "a". Почти во всех случаях вместе с этим элементом используется атрибут «href», а в более чем половине страниц — атрибут «target».
Вот список других элементов в порядке убывания их популярности: «img» (кстати, на 24% изображений отсутствует тег «alt»), «meta», «br». На десятом и последующих местах расположились «table», «td» и «tr». После «href» и «target» самым популярным атрибутом является «border» для изображений и таблиц, затем «height» and «width» для изображений и различные параметры разметки таблиц. Для элемента «html» самыми популярными атрибутами являются «xmlns», «lang», «xml:lang» и «dir».
Анализ веб-страниц показывает, что очень часто в синтаксисе HTML встречаются ошибки. Это и бессмысленные, и странные атрибуты. Например, многие авторы включают в код страницы совершенно бессмысленный атрибут «revisit-after» для «meta name», вероятно, чтобы дать указание роботу поисковой системы. Но ни одна крупная поисковая система не поддерживает эту команду.
В итоговом документе много интересных фактов. Например, оказывается, тег «br» популярнее, чем тег "p". Еще один интересный факт: в интернете огромное количество страниц, в которых упоминается элемент «table», но отсутствует элемент «td». То есть имеется таблица, но отсутствуют ячейки.
Интересна статистика по редакторам, загрязняющим HTML-код своими нестандартными тегами. Повсеместно в интернете встречаются следы GoLive — это огромное количество тегов «table gridx=», «gridy=», «csscriptdict», «csactiondict», и «csobj». Конечно, GoLive не одинок. Например, в Сети чаще встречается нестандартный тег «o:p» из Microsoft Office, чем стандартный «h6». Кроме того, много элементов «x-claris-window», «x-claris-tagview» и «x-sas-window» (следы Claris Homepage), а также «отпечатков» ставшего популярным в последнее время пакета для создания интернет-магазинов британской компании Actinic — это «actinic:basehref», «actinic:section», «actinic:nowserving» и «actinic:curraccount». Здесь же и Macromedia со своими «mm:endlock» и «mm:beginlock», а также NetObjects Fusion, источник «nof=».
Сбор данных проходил в декабре 2005 г. Для просмотра аналитического отчета требуется браузер с поддержкой SVG и CSS, чтобы корректно отображать графики. Лучше всего использовать Firefox 1.5.