АРМАДА
Фришный индекс веба (5 миллиардов веб-страниц)
Новая тема Написать ответ

Странник
V.I.P.
Зарегистрирован: 28.06.2010
Сообщений: 4069
Обратиться по нику
# Добавлено:Чт Ноя 10, 2011 1:05 pmДобавить в избранноеОтветить с цитатой
У кого какие варианты использования?

Цитата:
В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.

Поисковый кластер Common Crawl работает на Hadoop, данные хранятся в файловой системе HDFS, а обработка осуществляется средствами MapReduce, после чего весь контент сжимается в архивы формата ARC, файлы по 100 МБ (общий объём базы 40-50 ТБ). Файлы можно скачать к себе или напрямую обрабатывать на EC2 с помощью того же MapReduce. Доступ к bucket'у возможен только с флагом Amazon Requester-Pays, то есть для зарегистрированных пользователей EC2 (подробнее о Amazon Requester-Pays здесь). Скачать 40-50 ТБ из внешней сети обойдётся примерно в $130 по текущим расценкам Amazon, обращение через MapReduce внутри EC2 — бесплатно.

Данные доступны практически без ограничений: см. инструкцию по доступу к данным и условия пользования. Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.



хабр

Longer
V.I.P.
Зарегистрирован: 09.10.2007
Сообщений: 2782
Contest (Сумма: 2)
Обратиться по нику
# Добавлено:Чт Ноя 10, 2011 1:11 pmОтветить с цитатой
Это довольно интересно :thup: .

Жесткий микс контента и все в шоколаде, кто шарит наверное уже серваки запустил в бой... r5
Серверы и XEN ВПС с бесплатным 24/7 Администрированием
Превосходное решение для мобильного трафика. Мысли глобально - лей на Bizzclick!

Странник
V.I.P.
Зарегистрирован: 28.06.2010
Сообщений: 4069
Обратиться по нику
# Добавлено:Чт Ноя 10, 2011 1:22 pmОтветить с цитатой
Аж дух захватывает от вариантов. Можно например взять семраш и проанализировать топовые сайты. Все дело лишь в мощностях.

blogmatic
V.I.P.
Зарегистрирован: 10.08.2010
Сообщений: 4080
Обратиться по нику
# Добавлено:Пн Ноя 14, 2011 8:37 amОтветить с цитатой
Можно попробовать вычислить алгоритмы Гугла

dofollow
Свой
Зарегистрирован: 14.10.2011
Сообщений: 83
Обратиться по нику
# Добавлено:Пн Ноя 14, 2011 8:47 amОтветить с цитатой
blogmatic писал(а):
Можно попробовать вычислить алгоритмы Гугла


Думаю, что не получится. Т.к параметров в это базе слишком мало (думаю, что вряд ли мы когда-нибудь узнаем вообще все параметры влияющие на продвижение). Наверное можно только более точно подсчитать формулу вычисления PR.
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ

Перейти:  





Генеральный спонсор



Партнеры