19.08.2005 10:22 • Posted by pilot • View: 4121 • Версия для печатиКак известно, открытая часть веба, доступная для роботов поисковых систем, составляет не более 25% от общего объема Сети. По некоторым оценкам — не более 1%. Индексация так называемой «невидимой» части — сложная проблема.
Всемирная сеть состоит из сотен миллиардов документов, что гораздо больше 8 или 20 млрд, входящих в индекс Yahoo и Google. Но основная их часть недоступна для поисковых роботов, потому что находится в запароленых частях сайтов и базах данных с динамически генерируемым контентом. Примеры таких БД — телефонные справочники, «желтые страницы», юридические базы данных, библиотечные каталоги и другие ресурсы с огромным количеством информации.
Небольшая американская компания Glenbrook Networks заявила о том, что нашла частичное решение этой проблемы. Они сейчас работают над программой, которая могла бы проникать в закрытые части сайтов и «доставать» оттуда недоступную информацию. Интеллектуальный поисковый робот Glenbrook Networks может автоматически заполнять анкеты, формы и поля запросов к базам данных, после чего способен принять информацию, полученную в ответ.
Возможности программы можно посмотреть на экспериментальном сайте Glendor, посвященном поиску работу. Для этого сайта робот собирает информацию в крупнейших американских базах по трудоустройству, а также с закрытых частей корпоративных сайтов. Для большего эффекта, все листинги наложены на географические карты Google Maps.
Компанию Glenbrook Networks основали студент университета Беркли Юлия Комиссарчик вместе со своим отцом — профессором математики Эдвардом Комиссарчиком, эмигрировавшие из России в 1990 г. Раздел: Это интересно! | Источник: Вебпланета |
|