АРМАДА
как правильно собирать базы (msn/google)..
На страницу 1, 2  След.
Новая тема Написать ответ

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18000
Обратиться по нику
# Добавлено:Ср Фев 04, 2009 5:15 pmДобавить в избранноеОтветить с цитатой
как правильно собирать базы (msn/google) :

1) С фильтром или без него ?
(filter=0 ; по умолчанию тама фильтр включен/выключен ? )

3) в МСН параметр "inurl:" кажеться неработает, т.к. воспринимаеться как текст, а не как параметр.
-- Вопрос: а какими аналогами можно тама заменить этот тег ? .. или технология сбора базы, без спец. запросов у кого то есть ?

2) каким способом можно собрать базу по 16000 признакам ( с гугля или мсн/ливе) ?
т.е. запросов к СЕ будет около 16000*5 (1-500 рез.) ?
что для этого надо/ потребуеться ?

Кто знает, - какие есть серверные парсельщики (на перл/ а лучьше на пхп), также чтоб работали тама где есть Curl..
http://m.lsl.com/

Лена
Гуру
Зарегистрирован: 19.10.2005
Сообщений: 1203
Обратиться по нику
# Добавлено:Ср Фев 04, 2009 11:06 pmОтветить с цитатой
1) По умолчанию фильтр включен. Так что собирай с filter=0 то есть отключай фильтр.
3) Ответ тебе уже был дан и ты поблагодарил даже: http://www.armadaboard.com/viewtopic.php?p=4584864#4584864
2) Парсером.
На perl парсер Аура есть: http://auraproff.biz

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18000
Обратиться по нику
# Добавлено:Чт Фев 05, 2009 12:58 amОтветить с цитатой
1) По умолчанию фильтр включен. Так что собирай с filter=0 то есть отключай фильтр.

а почему? я вот напр сегодня небольшой эксперимент провел.. и понял что при выключенном фильтре, слишком много повторов идет.. - хотя это надо еще учитывать - какие "Фразы" парсишь..
.. и убрал суффикс "&filter=0" из строки - линка.

3) Ответ тебе уже был дан и ты поблагодарил даже: http://www.armadaboard.com/viewtopic.php?p=4584864#4584864
Лен, спасибо.. я этот линк уже сегодня открывал..
то что тама выключено - я знаю... теперь мне надо узнать
"а какими аналогами можно тама заменить этот тег ? .. или технология сбора базы, без спец. запросов у кого то есть ? "
т.е. обходные пути.. - конечно - наверно, никто и неспалит бедной лошадке.. а может в личку. Нужна именно Технология т.е. это Мин. Теория и Макс. Практика ? - буду благодарен.


2) Парсером.
На perl парсер Аура есть: http://auraproff.biz


А сколько времени и проксей понадобиться чтоб "собрать базу по 16000 признакам ( с гугля или мсн/ливе) ? т.е. запросов к СЕ будет около 16000*5 (1-500 рез.) ? "
Вообщем, Реквестов на серч. = 80000


[offtop]
Лен, а почему ты с начало на 3-ий вопрос ответила, а потом уже на второй ? :mrgreen:

[/offtop]
http://m.lsl.com/

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18000
Обратиться по нику
# Добавлено:Чт Фев 05, 2009 1:10 amОтветить с цитатой
Лена,

А у тебя был опыт "собрать базу по 16000 признакам ( с гугля или мсн/ливе) ? т.е. запросов к СЕ будет около 16000*5 (1-500 рез.) ? Вообщем, Реквестов на серч. = 80000 "

.. если да, то какие средства использовала ?
http://m.lsl.com/

iwfyb
НЕ Спать!
Зарегистрирован: 14.03.2008
Сообщений: 2865
Обратиться по нику
# Добавлено:Чт Фев 05, 2009 3:28 amОтветить с цитатой
Ну для этого аура лучше всего.
Ну например 277 запросов яху при 5 потоках парсит около 1,5 часа. Ну это я серв просто жалею ща, там ешё скрипты стоят.
Вообщем возьми на месяц мощный серв и парси, это дело не совсем быстрое. Один поток жрет около 3 метров вроде.
1024/3 = 341. Т.е. на серве с гигом оперативы можно будет запускать 341 поток. Ну это отностительно все). + от прокси зависит

Вообще, имхо: легче купить - сам парсить просто заебешся! А ещё можно стукнуть чуваку, который продает базы, 90% работают именно с аурой и попросить его за денюжку по твоим запросам хуйнуть тебе базку. Чувак то в теме, а ты пока все расчехлишь...Но надо чтоб чувак нормальный был, что б не заюзал твои запросы потом Shout
TOP Links - Качественные ссылки для Ваших сайтов

Cabal
Гуру
Зарегистрирован: 20.10.2007
Сообщений: 1360
Обратиться по нику
# Добавлено:Чт Фев 05, 2009 10:16 amОтветить с цитатой
Лена, насколько знаю крайняя Аура это не перл а питон.
Cabal - патентованный зануда.

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18000
Обратиться по нику
# Добавлено:Чт Фев 05, 2009 3:25 pmОтветить с цитатой
Лена, насколько знаю крайняя Аура это не перл а питон.
а что ? пхп / с++ ?
(спасибо!)

Лена, отдельно к тебе еще вопрос:
В гугле - включить/выкл филтер ( можно суффиксом filter=0, сейчас неважно пока, надо или нет )..

а у МСН/LIVE включать/выкл фильтр, какими нить PATH праметрами (как в гугле) .. или через тама настройки ? -- возможно ??
http://m.lsl.com/

Лена
Гуру
Зарегистрирован: 19.10.2005
Сообщений: 1203
Обратиться по нику
# Добавлено:Чт Фев 05, 2009 5:44 pmОтветить с цитатой
Цитата:
а почему ты с начало на 3-ий вопрос ответила, а потом уже на второй ?


Потому что ты так сам сначала спросил. В свой первый пост посмотри - в каком порядке у тебя вопросы идут? Вот в том же порядке я и ответила.
Cabal, да обозналась. Проверила - там в дистрибутиве .py файлы (питоновские).
Цитата:
А у тебя был опыт "собрать базу по 16000 признакам ( с гугля или мсн/ливе) ? т.е. запросов к СЕ будет около 16000*5 (1-500 рез.) ? Вообщем, Реквестов на серч. = 80000 "

.. если да, то какие средства использовала ?


С гугля только. Средство я уже назвала и посоветовала выше.
Цитата:
Лена, насколько знаю крайняя Аура это не перл а питон.
а что ? пхп / с++ ?
(спасибо!)


Вот ты чудак-человек! Сам куда хочешь туда и отнеси питона - хоть к пхп хоть к с++
По остальным вопросам - не знаю, не смогу помочь. Как фильтр в Ливе отключать, нужно ли в Гугле отключать или не нужно, сколько времени и проксей тебе нужно, и прочие заковыристые вопросы вне моей компетенции уже. Smile

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18000
Обратиться по нику
# Добавлено:Чт Фев 05, 2009 7:12 pmОтветить с цитатой
вот такой вот факт реальность -

что говорили, некоторые поники, что гугль засекает линк-спам если появляються линк-беки с доменов edu,gov,mil

т.е. из собранной базы необходимо отфильтровывать домены в зонах edu,gov,mil

edu,gov,mil ... А еще какие ?
( домен .org подпадает под это правило ? )

спасибо.

[offtop]Со мной сегодня, один человек .. отказался "знакомиться",
если в след. раз он также ответит мне отказом - то я покончу с собой прямо "тама"..
-- вот в чего перерасло обычное смазование губ с фразой - "Расслабь губы".
:rr6: Wink :smk:
[/offtop]
http://m.lsl.com/

Li-Hua
Чинамэн
Зарегистрирован: 25.12.2005
Сообщений: 11547
Обратиться по нику
# Добавлено:Чт Фев 05, 2009 9:41 pmОтветить с цитатой
Нет, это неверно. Наоборот ссылки с сайтов, которые находятся в зонах edu,gov,mil более трастовые. Ты либо не так понял что люди говорили либо не тех людей слушаешь. Предостерегают при спаме потому что овнеры edu-сайтов очень любят писать абузы когда их спамишь, поэтому перед спамом многие стараются вычистить базы от edu-сайтов. А зона .org вообще тут не при чем, она обычная такая же как .com и .net

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18000
Обратиться по нику
# Добавлено:Чт Фев 05, 2009 9:50 pmОтветить с цитатой
Да, Li-Hua, ты прав.. путаю.. именно, то что - "они абузы пишут, в этом проблема..",
спасибо что напомнил...
Smile
________________

вот еще Стандартный вопрос 2009 года:

inurl в МСН запрещен..
так как вы базу для линк-... собираете с МСН -а ?
ведь 99% признаков это именно inurl / allinurl ?
или теперь только с гугль есть возможнос собрать базу для линк-... ?


может у кого то есть "признаки" сбора для МСН чисто, которые бы работали.. неважно сколько 10 строк или 10к строк ?

пишите, я вас также отблагодарю .. Smile
http://m.lsl.com/

iwfyb
НЕ Спать!
Зарегистрирован: 14.03.2008
Сообщений: 2865
Обратиться по нику
# Добавлено:Пт Фев 06, 2009 12:35 amОтветить с цитатой
А ты разузнал каким запросом яху парсить ща?
TOP Links - Качественные ссылки для Ваших сайтов

Hello_Kitty
V.I.P.
Зарегистрирован: 30.04.2007
Сообщений: 10705
Обратиться по нику
# Добавлено:Пт Фев 06, 2009 1:21 amОтветить с цитатой
жаль Rastaman сюда не заходит, он бы тебе по MSN и по Live все разжевал.
он по ним Бог, это знают все. :thup:
Цитата:
inurl в МСН запрещен..
так как вы базу для линк-... собираете с МСН -а ?
ведь 99% признаков это именно inurl / allinurl ?
или теперь только с гугль есть возможнос собрать базу для линк-... ?


да нету там теперь ничего взамен снятого с производства inurl.
Цитата:
может у кого то есть "признаки" сбора для МСН чисто, которые бы работали.. неважно сколько 10 строк или 10к строк ?


"Ключевые слова для расширенного поиска":
contains:
filetype:
inanchor: или inbody: или intitle:
IP:111.22.333.444
language:en (language:ru и т.д.)
loc: или location:
prefer:
site:
feed:
hasfeed:
url:
- вот и все. больше нет операторских команд.
Dedicated Hosting & Virtual Dedicated Hosting (XEN virtualization) / Openvpn & Pptp & Double & Http Proxy

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18000
Обратиться по нику
# Добавлено:Пт Фев 06, 2009 5:05 pmОтветить с цитатой
Вообще, при сборе базы (с гугля) по признакам .. inurl , и неюзаю прокси..
.. а парс делаю через реал/одни ИП. (мой)
Насколько быстро можно схватит "бан" и на сколько часов ?

я думаю тема есть четкая форума -
определения время до бана, зависимости от ИП

При (парс делаю через реал/одни ИП. (мой)) во сколько сек сделать паузу меджу запросами ?

также, СЕ Гугль, может определить, что запросы, к нему .. идут с прокси ? .. и это будет способствовать быстрее блокировке, нежели парс идет с реал/одно ИП.
http://m.lsl.com/

IseeDeadPeople
Объединенная Электрическая
Зарегистрирован: 06.12.2005
Сообщений: 18000
Обратиться по нику
# Добавлено:Пт Фев 06, 2009 5:07 pmОтветить с цитатой
iwfyb писал(а):
А ты разузнал каким запросом яху парсить ща?



яху или МСН.
МСН получаеться.. тама в агрессоре надобыло чуть шаблон поменять на гугль и мсн - для нахождения след. линки..

Яху - пока непробовал парсить.. (.. это все потом, после полного освоения гугля/мсн-а)

но думаю - возможно все.. главное шаблон правильно составить...
http://m.lsl.com/
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ

Перейти:  





Генеральный спонсор



Партнеры