Заметка 63: Mister Scooter, Библиофил И Идиот

Рубрика: Наши сети

Мистер Скутер, библиофил и идиот

Антон Носик <anton@beseder.com>

В прошлом выпуске нашей рубрики мы рассказывали о принципах работы поисковой машины АльтаВиста (http://altavista.digital.com/). Сегодня продолжим и завершим разговор на эту тему - в надежде на то, что читатель получил достаточно информации для самостоятельного продолжения работы над АльтаВистой.

Вчера мы писали о том, как Скутер (робот, пополняющий информационную базу АльтаВисты) собирает свой урожай. В частности, приводился пример того, как за одну секунду добавить наш ресурс к информационной базе, которая еще полгода назад обновлялась не чаще раза в месяц. Вернемся к этому примеру, ибо опубликованный нами вчера листинг HTML-файла нуждается в кое-каких комментариях. Вот этот листинг:

<TITLE>Proverka AltaVisty</TITLE>

</HEAD><BODY>

Eta stranica ne neset nikakoj smyslovoj nagruzki. Vse pretenzii po etomu povodu k <A HREF=mailto:nosik@usa.net>Nosiku</a>.

</BODY></HTML>

В нем, как может заметить читатель, есть две команды класса META. Обе они не несут никакой смысловой нагрузки с точки зрения "рядового" посетителя нашего сайта (ни в Нетскейпе, ни в Эксплорере, ни в Линксе они попросту не видны), а адресованы эти META команды только индексирующим системам - всевозможным роботам, которых кроме альтавистовского Скутера на сети насчитывается несколько десятков. Индексирующие системы пользуются META командой "описание" (description) для того, чтобы аннотировать сообщение о нашей странице в выводимых результатах поиска. Если META-команда description в нашем файле отсутствует - на экран в качестве образчика содержимого файла будут выведены первые 512 символов его видимого текста (команды HTML при индексировании отбрасываются). Что касается META-команды "ключевые слова" (keywords), то ее содержимое прямо заносится в индекс базы данных робота.

Впрочем, стоит сразу оговориться, что далеко не все роботы с готовностью заглатывают две этих наживки. Например, поисковая машина Excite попросту игнорирует все команды META и анализирует лишь видимый текст страницы с помощью своей интеллигентной системы смыслового анализа. Мое собственное мнение об Эксайте и его поисковой технологии таково: гениальная идея, скомпрометированная весьма похабным исполнением - как с лексической, так и с технической точки зрения. О технических недостатках поисковой системы Architext, основанной на эксайтовской технологии, читателю, наверное, не слишком интересно знать - кому интересно, тот уже сгрузил себе этот пакет и поимел своих радостей. А лексически "смысловое аннотирование страниц" в базе данных Эксайт даже приближенно не отражает содержимого документов. Если, например, вы рассуждаете в своем документе о цветовой гамме, то слово "цвет" у вас может появиться один-два раза, да и то в META-списке ключевых слов, в то время как в самом документе вы станете оперировать понятиями типа "палитра", "спектр", "красный", "зеленый", "синий" и т.п. После индексирования по технологии Эксайта, ваша страница будет выводиться при ключевом поиске на слово "красный", и не будет выводиться при поиске на слово "цвет". Если это называется интеллигентным контекстным анализом, то что тогда называется олигофренией в стадии идиотизма?

Кстати об идиотизме. Помните наш рассказ о Скотте Пакине и его романе "Идиот" в выпуске недельной давности? Роман состоит из весьма коротких глав, каждая из которых является перефразировкой одного утверждения: что идиота можно озадачить на много часов, если предложить его вниманию интернетовские информационные базы, созданные с использованием мультимедиа, служащие единственной цели озадачивания идиотов. В конце каждой главы содержался линк, предлагающий читать дальше. Каждая следующая глава генерировалась специальным скриптом, за счет изменения порядка слов и подстановки синонимов для главы предыдущей. Можно не читать последовательно, а затребовать главу с любым самым немыслимым номером - например, главу 98605043, находящуюся, в соответствии с конвенцией наименования глав, в файле с названием chapter98605043.html. Поэтому легко понять, как опешил независимый исследователь Станислав Малышев из Иерусалима (frodo@sharat.co.il), когда обнаружил в АльтаВисте ссылку на такой любопытный файл:

http://www-csag.cs.uiuc.edu/individual/pakin/idiot/chapter2562312585478545782173485617624758445248554856147856175124583.html

Воображение Стаса быстро нарисовало такую картину: Скутер последовательно читает главу за главой пакинского романа, заносит себе в базу каждый следующий залинкованный файл, и со временем вся база АльтаВисты начинает состоять на 99% из несуществующих (но генерируемых скриптом по первому требованию) вариаций на тему "Как озадачить идиота на много часов".

Я написал письмо по этому поводу в отдел технической поддержки АльтаВисты, но ответа не дождался по сей день. Впрочем, за это время объявился сам Скотт (текст нашей заметки за прошлую среду вскорости появится на сайте его Автоматического генератора жалоб, в разделе "Публикации"). Пакин объяснил, что линки на его "Идиота" с астрономическими номерами глав взяты Скутером со страниц разных людей, которые залинковали "Идиота" вручную. "Сам Скутер индексирует только одну страницу за один проход, - напомнил Скотт Пакин, - И следующая глава должна индексироваться лишь тогда, когда до нее дойдет очередь, то есть примерно через неделю после индексирования предыдущей. Таким способом до астрономической цифры, которая указана в некоторых из уже существующих линков АльтаВисты на "Идиота", дело при нашей жизни не дойдет..."

Трудно понять, почему столь очевидное соображение не пришло мне в голову самому. Впрочем, около четырехсот линков на "Идиота" Скутер успел всосать именно таким - последовательным - способом. Всего же в АльтаВисте учтено около девятисот глав романа.

"Тем не менее, я принял меры, - пишет Скотт Пакин, - я поставил инструкцию в файле robots.txt, которая запрещает АльтаВисте и всем иным роботам аналогичной конструкции индексировать файлы chapter*.html в директории Идиота."

Для тех читателей, которым эта тема не близка, поясним: файл robots.txt позволяет владельцу WWW сервера запретить роботам индексирование отдельных документов или директорий на своей сайте.

В заключение нашего рассказа поведаем одну историю, которая отчасти реабилитирует Скутера после столь прямолинейного обвинения в идиотизме. Слово Левону Делицыну, владельцу одного из крупнейших собраний русской литературы на Интернете, держателю американского сервера РОМАНа, учредителю международного конкурса ТЕНЕТА, издателю литературного журнала DeLitZyne.

"На протяжении нескольких лет, просматривая списки посетителей моего сайта, я неизменно с удивлением обнаруживал, что меня снова и снова посещает какой-то господин Scooter из компании Digital. В отличие от всех нормальных посетителей, которые читают зараз две-три страницы, этот странный господин с нерусской фамилией в каждый свой приход прочитывал по очереди все без исключения документы на моем сайте. А потом возвращался снова, и снова читал решительно все. Мне даже захотелось познакомиться с этим редкостным любителем русской литературы... А потом АльтаВиста была официально запущена, и тут я узнал, что Скутер - это всего лишь робот, который собирал все мои страницы для индексирования".

По оценке Делицына, на некоторых сайтах доля обращений роботов от общего числа HTTP запросов достигает 60%. Это утверждение весьма легко проверить арифметически. Если на сервере Шарата имеется 600 документов HTML, и каждый день на сервер заходит 1000 "живых" посетителей, читающих в среднем по 3 страницы на нос, то это означает 90.000 запросов от живых пользователей каждый месяц. Если при этом каждую неделю на тот же сервер заходят 30 индексирующих роботов, каждый из которых просматривает все 600 документов по списку, то за месяц эти роботы направляют Шарату 77.400 запросов на документы. Таким образом, доля запросов роботов составляет в данном конкретном примере около 46% от всех обращений к сайту. И, разумеется, для многих никому не интересных документов индексирующие роботы являются единственными читателями...

Следующую неделю мы начнем с путешествия по Чертовым Куличикам. Дальше последует сводка интернетовских актуалий и очередной рассказ о русской Сети.