почему гугл, википедия и тд так быстро ищут по ключевому слову?

алгоритмы

Как разработчикам ресурсов, у которых поиск является ключевым инструментом, удалось сделать этот поиск таким быстрым, да еще и с подсчетом релевантности? Ну ладно еще википедия - там весь поиск - локальный. Но гугл, яндекс, рамблер... Это же надо пересмотреть десятки тысяч страниц, к большинству из которых сам доступ медленей, чем работает поиск.
Да и википедия - тоже неясно - столько статей не может хранится в памяти, а перелопатить их загружая каждую с винчестера тоже довольно долго.

Как?
Ответы:
Там же не обычные персоналки работают, а целые компьютерные сети, в которых и компьютеры не простые, а специализированные для таких задач.
Во первых большинство страниц сохранено где-то в локальном распределенном хранилище. То есть на куче жестких дисков различных компьютеров.
Дальше по всем данным строиться какой-то индекс, скорее всего являющийся разновидностью суффиксного дерево.
А задача поиска сводиться к выяснению того, запрос какой машине с соответствующей частью индекса нужно отдать, для получения результата.
На самом деле все гораздо сложнее, это лишь первое приближение.
поисковые боты не зря индексируют страницы.
Которые обновляются чаще - чаще, которые реже - реже.
Строится так назваемый "обратный индекс".
От слова - к списку сайтов, страниц где это слово есть.
Для этого используются кластеры, т.е. обьединение многих компов. Как рассказывали на презентациях гугла. Гугл закупает дешевенькие сервера, но в большом количестве. Эта штука была вроде впервые проделана, раньше удмали, что это не нормально в качесвте затрат, но как оказалось все наоборот. Низкая цена добивается за счет того, что с начальных этапов создания гугла, все компы собираются вручную, компектующие дешевле брать, чем готовые варианты. Вот есть кластер. Идет запрос, запрос разбивается на несколько компов и они обрабатывают. В гугле в принципе все сайты хранятся в кеше, т.е. локально и обновляются с опр. промежутком времени. Так сказать бот исследует сеть и индексирует все.
Быстрая скорость и обусловлена кластером и локальным хранением сатов.
Собственно думаю яндекс аналогично использует локальные данные, так как и у яндекса есть возможность просмотреть сайт из кэша яндекса.
Вики так же, и кто сказал что все сайты хранят информацию на одном винчестере и вообще на одном сервере? Все раскидано. Мало того, что это делает некую разгрузку, некие хранилища на одном сервере, некоторые на другом и т.д....
Хм, вот смысл выкладывать длинные статьи? Кидайте ссылки , либо обьясняйте более нормальным языком, не всем же понятны некоторые термины, потому и адают вопросы. Статьи можно и в интернете найти....
Я думаю ето Магия...


17 лет назад

RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.

Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.

Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.