АРМАДА
BaseEditor - высокоскоростная прога для работы с базами
Новая тема Написать ответ

Duker Nuken
Свой
Зарегистрирован: 03.08.2007
Сообщений: 6
Обратиться по нику
# Добавлено:Сб Авг 04, 2007 11:53 pmДобавить в избранноеОтветить с цитатой
В практике часто встречается необходимость обработки напарсенной базы ссылок. Обычно необходимо удалить дубли ссылок и ссылки с одинаковыми доменами.

Предлагаю вашему вниманию виндовую программу выполняющую вышеперечисленные и еще ряд других функций.

Программа написана на Visual С++, предназначена для использования на локальном компьютере. Испытывалась на файле размером 92,7 мегабайта, содержащем 1662034 строки. На компьютере с процессором Интел Пентиум 4 тактовой частотой 2,53 гигагерца и объемом ОЗУ 1 гигабайт время обработки тестовой базы составляло не более 10 минут в зависимости от исполняемой операции.
Такая скорость была достигнута благодаря использованию функции CRC32 совместно с технологией бинарного дерева.

Итак перейдем к тому, что же может данная программа.

1. Удаляет дубликаты ссылок, оставляя только одну из всех. Данная фукция позволяет уменьшить размер спам-базы и не дает переоценить её "крутость", то есть реальное количество имеющихся ресурсов.

2. Удаляет ссылки с одинаковым доменом в адресе. Оставляет только одну ссылку. Считается, что n (эн) ссылок с одного домена хуже чем такое же число ссылок с разных доменов. Бытует даже мнение, что все ссылки с одного домена эквивалентны одной единственной ссылке с данного домена. Таким образом данная функция для дорвейщика является более мощным эквивалентом функции "удаление дублей".
Тем не менее, для тех, у кого большиие базы ресурсов находящихся на субдоменах одного хоста (например на блогспоте) имеется функция удаления дубликатов доменов третьего уровня (типа vasya.blogspot.com).

3. Удаляет параметры в адресе (всё что после вопросительного знака и сам вопросительный знак). Пригодится для тех, у кого база разбита по типам скриптов. Например страница с сообщениями находится по адресу типа \guestbook.php?page=1, а страница с формой по адресу \guestbook.php?act=add. Удалив параметры получим \guestbook.php и теперь применив команду заменить .php на .php?act=add получим прямую ссылку на форму.

4. Добавляет http:// в случае отсутствия. Необходимо для тех, у кого спамилки сами эту функцию не исполняют. Применяется обычно совместно с другими командами.

5. Удаляет строки, содержащие некорректные символы. В результате парсинга могут попасться ссылки содержащие символы псевдографики, иероглифы, латинские буквы с диакритиками и прочие символы из расширенных кодировок. Большинство спамилок такие адреса не обрабатывают и их следует исключить из базы.

6. Добавляет в начало каждой строки заданный набор символов. Пригодится при парсинге по бэклинкам конкурентов. Сначала собираем сайты по запросу, скажем, phentermine, затем применяем команду "добавить в начало каждой строки link: или linkdomain:" и тперь уже парсим бэклинки конкурентов.

7. Заменяет одну подстроку на другую.

8. Удаляет из каждой строки заданную подстроку, можно задать сразу несколько значений. Обычно необходимо для удаления из адресов "http://" "https://" и "www.".

9. Сохраняет или удаляет адреса, содержащие определенные значения. Можно задать сразу несколько значений. Пригодится при разбивке общей базы на более мелкие базы по типам скриптов и доменам.

10. Подсчитывает количество строк в файле. Необходимо для определения количества ресурсов в базе.



Цена редактора баз - 20 WMZ (лицензия на один компьютер).

Заявку на покупку пишите в icq 204470961

smeshnoj +
Профессионал
Зарегистрирован: 21.01.2007
Сообщений: 679
Обратиться по нику
# Добавлено:Вс Авг 05, 2007 12:11 amОтветить с цитатой
жора и сюда добрался Laughing

insider
Свой
Зарегистрирован: 24.03.2007
Сообщений: 59
Обратиться по нику
# Добавлено:Вс Авг 05, 2007 1:25 amОтветить с цитатой
Новый маркетинговый ход от Жоры :mrgreen: :mrgreen: :mrgreen:

creator123
Гуру
Зарегистрирован: 25.07.2007
Сообщений: 1145
Обратиться по нику
# Добавлено:Вс Авг 05, 2007 6:43 amОтветить с цитатой
мда....
"Такая скорость была достигнута благодаря использованию функции CRC32 совместно с технологией бинарного дерева. "
:rr6:

жесть!
<----- если понравился пост, жмакай сюды <-----

Duker Nuken
Свой
Зарегистрирован: 03.08.2007
Сообщений: 6
Обратиться по нику
# Добавлено:Вс Авг 05, 2007 2:38 pmОтветить с цитатой
smeshnoj, нет, Жора сюда еще не пробрался Cool
insider, а ты как думал =)
creator123, а что, сильно много букаф? =)

creator123
Гуру
Зарегистрирован: 25.07.2007
Сообщений: 1145
Обратиться по нику
# Добавлено:Вс Авг 05, 2007 3:06 pmОтветить с цитатой
Duker Nuken писал(а):

creator123, а что, сильно много букаф? =)



просто мне эти буквы знакомы, и поэтому я понимаю, что чушь написана частично.
Предлагаю или писать более точно, или не писать вовсе.
тут же не дураки сидят.

Ну как вот скажи, как ты с помощью бинарного дерева или CRC32
решаешь задачу п7,6,9 например.
Smile
<----- если понравился пост, жмакай сюды <-----

Duker Nuken
Свой
Зарегистрирован: 03.08.2007
Сообщений: 6
Обратиться по нику
# Добавлено:Вс Авг 05, 2007 3:17 pmОтветить с цитатой
никак, я эту прогу не писал, я ее просто продаю =)
Сам ее пользуюсь, так что по вопросам скорости обработки и т.д. могу ответить

Germes
V.I.P.
Зарегистрирован: 13.07.2006
Сообщений: 3054
Обратиться по нику
# Добавлено:Вс Авг 05, 2007 4:19 pmОтветить с цитатой
Цитата:

никак, я эту прогу не писал, я ее просто продаю =)


А имеешь право то на продажу?
3а нас наука. Анархия, батенька, не игрушка...
-Почему у тебя синяк под глазом? -А пусть не лезут.

Duker Nuken
Свой
Зарегистрирован: 03.08.2007
Сообщений: 6
Обратиться по нику
# Добавлено:Вс Авг 05, 2007 5:05 pmОтветить с цитатой
Germes, да, имею, я дилер, никаких накруток не делаю, получаю свой % с продаж, прога лицензионная, с подвязкой к железу
Новая тема Написать ответ    ГЛАВНАЯ ~ РЕКЛАМА И ОБЪЯВЛЕНИЯ

Перейти:  





Генеральный спонсор



Партнеры