Компанию Yahoo, фактически, уличили во лжи. Независимые тесты показывают, что ее поисковый индекс никак не может быть больше, чем у Google. Но компания упорно утверждает обратное.
Неделю назад представители Yahoo заявили, что их поисковый индекс вырос до невероятного размера — более 20,8 млрд документов! Как сообщается, в индекс Yahoo входят 19,2 млрд веб-страниц, 1,6 млрд изображений и 50 млн аудио- и видеофайлов. Это почти в два с половиной раза превышает размер поискового индекса Google (11,3 млрд документов, 8,1 млрд веб-страниц).
Размер поискового индекса неоднократно использовался поисковыми сайтами для пиара. Новость о том, «какой поисковик самый большой», легко разлетается по страницам различных СМИ. Поэтому неудивительно, что данный параметр (хотя он практически не сказывается на результатах поиска, разве что на очень редких запросах) активно эксплуатируется пиарщиками и маркетологами. С периодичностью раз в два года они устраивают «войны индексов». Такое было и в августе 2002 г., и в августе 2003 г., и вот сейчас — в августе 2005 г. Как видим, именно в августе солнце особенно сильно напекает в голову.
Сразу же после появления заявления о рекордном увеличении индекса Yahoo, представители Google выразили сомнение в его правдивости. «Наши ученые не наблюдают увеличения индекса, о котором заявляет Yahoo. Данные, которые есть у нас, не подтверждают цифры в 19,2 млрд страниц, и нас это смущает», — заявили представители Google.
Конечно, никто не может точно подсчитать количество документов в базе того или иного поисковика, поэтому-то фирмы и делает такие громкие заявления, совершенно не стесняясь. Точно так же в ноябре 2004 г. поступил сам Google — когда компания MSN сообщила, что ее поисковый индекс самый большой, то Google в тот же день (!) увеличил размер собственной поисковой базы почти в два раза. Во второй раз такой трюк, наверное, не пройдет, поэтому сейчас компании остается лишь подвергать сомнению заявления Yahoo. Тем более что они действительно слабо соотносятся с видимой реальностью.
А реальность такова: практически по всем поисковым запросам Yahoo выдает меньше документов, чем Google. Это еще раз подтвердили независимые исследователи из университета Беркли. Они провели сравнительное тестирование результатов поиска Google и Yahoo по списку запросов из словаря. Поскольку максимальное количество результатов поиска на Google и Yahoo ограничено 1000, то из словаря выбирались редкие слова, по котором количество результатов меньше 1000. Таких оказалось 10 012 слов. Работа скрипта и выкачка документов заняла 18 ч машинного времени компьютерных центров двух университетов, но результат вполне оправдал затраченные усилия. После анализа логов исследователи убедительно доказали, что индекс Yahoo никак не может быть больше индекса Google. Судя по всему, он значительно — в несколько раз! — меньше.
В среднем количество результатов поиска на Yahoo составляет 37,4% от количества результатов Google. После удаления дублей среднее количество результатов на Google и Yahoo составляет 38 и 14, соответственно. До удаления дублей — 64 и 22. Как видим, разница почти в три раза в пользу Google. Более того, во многих случаях разница составляет один или два порядка. При этом интересно, как соотносится реальное количество результатов с оценкой самого поисковика, которая выводится в поле «Estimated Search Results». У Google оценка превышает реальность в два раза, а у Yahoo — в пять раз!
Известно, что индексы крупнейших поисковиков пересекаются всего на 15%, то есть разница в результатах может и не говорить о превосходстве в размере поисковой базы. Но все равно невероятный размер индекса Yahoo должен хоть где-то прослеживаться. Этого не видно. Таким образом, заявления Yahoo о том, что ее индекс более чем в два раза превосходит индекс Google. можно назвать, мягко говоря, сомнительными. Правда, этому можно найти объяснения. Возможно, огромный поисковый индекс Yahoo пока недоступен для поиска. Или в индексе Google гораздо больше документов, чем написано у них на первой странице. В этом случае ждем от Google обновления информации. Никто не удивится, если в ближайшие дни Google выступит с заявлением, что на самом-то деле в их индексе не 8 млрд, а 22 млрд документов.