Известны ли причины, по которым на web.archive.org пополнение архива страниц ВиО [http://web.archive.org/web/*/http://otvety.google.ru/] прекратилось с 22 августа 2008 года?
Или база пополняется, но не размещается в доступ? (* по правилам веб-архива материал становится доступным в Internet Archive Wayback Machine через 6 месяцев после сбора данных).
Были ли наложены со стороны Google какие-либо ограничения на сбор данных и/или их размещение в Internet Archive Wayback Machine?
Или объём данных на ВиО превысил допустимый предел возможностей для веб-архива? Возможно-ли узнать какой требуется объём хранилища для хранения всей базы "Вопросов и ответов"?
Примечание:
2 sauri
> ...гугл банально блокировал индексирующих роботов веб-архива...
Нет - это не так -
http://otvety.google.ru/robots.txt содержит только:
User-agent: *
Disallow: /otvety/search
Примечание:
2 AlesFallen
> Для того, чтобы ответить на этот вопрос, необходимо быть минимум администратором ВиО.
Ну, мало-ли? Может где информация просачивалась...
2 NMD
> тут архивировать то нечего
Согласен, что здесь мусора в последнее время много, но IAWM архивирует и не такую ерунду из Интернета, а первые два года он страницы ВиО всё же архивировал:)
2 sauri
> как будто у гугла нет более эффективных средств, чем robots.txt
Например, какие? Это интересно:)
Примечание:
FAQ Wayback Machine
http://www.archive.org/about/faqs.php#103 нам вещает:
Why are there no recent archives in the Wayback Machine?
It generally takes 6 months or more (up to 24 months) for pages to appear in the Wayback Machine after they are collected, because of delays in transferring material to long-term storage and indexing, or the requirements of our collection partners.
In some cases, crawled content from certain projects can appear in a much shorter timeframe — as little as a few weeks from when it was crawled. Older material for the same pages and sites may still appear separately, months later.
There is no access to files before they appear in the Wayback Machine.
Т. е., даже максимально указанный срок в 24 месяца на сегодняшний день уже прошёл, но новых страниц после 22.08.2008 в архиве так и не появилось...
http://web.archive.org/web/*sr_1nr_100000/http://otvety.google.ru/*
А на александрийском зеркале archive.bibalex.org дела ещё хуже: последняя версия в
http://web.archive.bibalex.org/web/*/http://otvety.google.ru от 25.12.2007...
Видимо, действительно, "Вопросы и ответы" не представляют из себя никакой ценности и среди 5 петабайт архивной информации веб-архива им нет больше места...
Примечание:
2 sauri
> #2: да пресечь просто всякий доступ с адресов веб-архива.
Cайты для web.archive.org индексирует робот Alexa.com (User-Agent: ia_archiver).
Т. е., Вы хотите сказать, что Google мог как-то и зачем-то ограничить доступ к ВиО для IP-адресов Alexa crawler?%
Примечание:
Видать и правда: нынешняя помойка ВиО уже не так актуальна для частого архивирования.
Но факт зафиксирован: данные всё же архивируются, хотя и не попадают в доступ ранее чем через два года (наверное, экслклюзивно для ВиО вместо обычных шести месяцев:)
RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.
Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.
Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.