АРМАДА
A-Parser - продвинутый парсер ПС, Suggest, WordStat, PR, etc
На страницу 1, 2, 3, 4, 5, 6, 7, 8  След.
Новая тема Написать ответ

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Пт Июн 01, 2012 9:21 pmДобавить в избранноеОтветить с цитатой
Что такое A-Parser?

Это быстрый парсер с уклоном на универсальность, удобность и прозводительность.
На данный момент умеет парсить:

Поисковые системы


  • Google
  • Bing
  • Yahoo
  • Yandex


Каждый парсер может парсить ссылки, анкоры, сниппеты, количество страниц

Для гугла умеет обходить ограничение в 1000 результатов(скоро и для всех остальных парсеров так же будет), т.е. по одному запросу собирает всю выдачу

Парсеры кейвордов

Сервисы поиска ключевых слов


  • Yandex WordStat - собирает все кейворды и количество показов до указанной страницы. Так же собирает дополнительные кейворды, показы по главному кейворду и дату обновления статистики.


Подсказки поисковых систем


  • Подсказки и релейтед кеи Google
  • Подсказки и релейтед Bing
  • Подсказки, релейтед и трендовые кеи Yahoo
  • Подсказки и релейтед Yandex


Для подсказок гугла умеет автоматически собирать все кеи(подстановки до указанного уровня), для всех остальных парсеров такая возможность скоро так же появится

Параметры сайтов и доменов


  • Google PageRank - PR страниц и доменов
  • DMOZ - наличие сайта в каталоге DMOZ
  • Google TrustRank - проверка сайта на траст гугла(дополнительный блок ссылок в выдаче и т.п.)
  • Whois - дата экспайра домена


Планируется еще много парсеров в ближайшем будущем, все созданно для того чтобы быстро добавлять новые парсеры.

Не было бы никакого A-Parser'а если бы не он не имел все нижеперечисленные преимущества, оставляя остальные парсеры далеко в стороне:



  • Полностью интерактивный мега-юзабильный веб интерфейс

    • Быстрое добавление заданий - Quick Task, когда не нужны никакие настройки, а хочется только побыстрому спарсить результаты
    • Расширенный редактор заданий, позволяет комбинировать несколько парсеров в одном задании, к примеру можно одновременно парсить ссылки со всех парсеров поисковых систем, делать уник по всем результатам прямо в процессе работы и т.д.
    • Очередь заданий - статистика в реальном времени, выполнение одновременно нескольких заданий и т.д.
    • Встроенные подсказки для элементов управления позволяют просматривать хелп непосредственно в интерфейсе
    • Поддержка русского и английского языка


  • Огромная скорость работы
  • Поддержка двух самых популярных платформ - Linux и Windows, производительность под Windows фактически не отличается от Linux версии
  • Открытая разработка, багтрекер, выслушивание всех мнений и их реализация
  • Первоклассная тех поддержка, знакомая многим по моему старому проекту - A-Poster'у
  • Данный список можно еще долго продолжать, в ближайшее время все уникальные возможности и подробное их описание появится в Wiki


Более подробное описание и скриншоты

Wiki - дополнительная информация, инструкции и т.д.

Скриншот интерфейса:


На данном скриншоте показан пример добавления задания на парсинг одновременно трёх поисковых систем - Google, Bing и Yahoo, одновременный уник по домену всех результатов

Ценовая политика

Цена лицензии - 200$, Абонентская плата - 15$ / 3 месяца, первые 3 месяца без абонентской платы.

Лицензия позволяет запускать A-Parser на одном сервере\компьютере. Переносить можно бесплатно, нельзя одновременно на нескольких запускать.

Чтобы купить - зарегистрируйтесь на a-parser.com и стучите в ICQ 777889

Предварительно перед покупкой с удовольствием отвечу на любые ваши вопросы, а так же возможно обсуждение реализации недостающего вам фукнционала.
icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Вт Июн 05, 2012 10:56 pmОтветить с цитатой
Версия 0.9.4

Парсинг результатов регулярными выражениями, Net::HTTP - скачивание страниц, HTML::LinkExtractor - парсинг внутренних и внешних ссылок, SE::Bing::LangDetect - проверка языка сайта, опции в тестовом парсинге, импорт и экспорт пресетов заданий. Теперь можно парсить сторонние ресурсы. Стучите если необходимо составить пресет для специфичного парсинга. Подробнее тут

Пример кастомного парсинга:


Связанные задачи:
Цитата:
Улучшение #104: Parser options in Parser Test
Улучшение #132: Check domain language from bing serp
Улучшение #136: Net::HTTP Parser - results: {code} {reason} {headers} {data}
Улучшение #138: Results auto generation with RE match
Улучшение #140: Optional check updates
Улучшение #141: HTML::LinkExtractor - extract internal and external links from url, can follow for internal pages
Улучшение #142: Add import / export configs (base64 json)
Улучшение #144: Implement save task preset from Parser Test
Улучшение #145: Save all parsers options to Task preset

icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Чт Июн 21, 2012 7:38 pmОтветить с цитатой
Версия 0.9.16

Новые парсеры


  • Net::DNS - парсер резолвит домены в IP адреса
  • SE::Google::SafeBrowsing - проверка домена в блеклисте гугла(подпись harm в выдачи)
  • SE::Google::Position - проверка позиции домена по ключевому слову в гугле


Новые возможности


  • Подстановка найденных ключевых слов в качестве запросов для парсера SE::Yandex::WordStat, аналогично как сделанно для SE::Google::Suggests
  • Поддержка страниц для парсера Net::HTTP, теперь можно делать полноценные парсеры поисковых систем и т.п., пример для aol.com:


Подробнее тут



Версия 0.9.38

15 Исправлений и улучшений, в т.ч. сохраняемый уник при перезагрузки сервера и парсинг всех позиций для SE::Google::Position с выдачей ссылок с серпа!

Связанные задачи:
Цитата:
Ошибка #105: A-Parser crash when malformed(ascii 127+) ANSI file as queries used
Ошибка #117: When parse with unique - unique reset after pause/stop and start
Ошибка #120: Sometime parser get 100% cpu usage and closed after ~ 2min
Ошибка #156: Bug when use 2+ active tasks and delete
Ошибка #159: Queries file bug on Win7 x64(unknow encoding)
Ошибка #166: No content when login after failed login
Ошибка #169: waitSlot after pause + start + delete +add new task
Ошибка #174: Query format in Add Task not work without iterator
Ошибка #175: A-Parser crash when bad file name specified as Result file
Ошибка #176: Fix Proxy Checker waiting after load proxies
Ошибка #179: Fix Net::HTTP option Use pages when first page is 0
Улучшение #167: Disable unimplemented task conf in tasks queue
Улучшение #172: Ask before deleting task
Улучшение #177: Parse all positions with SE::Google::Position + output link from serp
Улучшение #181: Add settings "max body size" and "proxy ban time" to all parsers configs

icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Пн Июл 09, 2012 11:29 amОтветить с цитатой
Версия 0.9.57

Новый парсер SE::QIP - парсинг яндекса через search.qip.ru(в т.ч. парсинг до 5000 результатов с одного запроса), выбор времени серпа для гугла и яху, а так же множество исправлений и улучшений!

Подробнее тут

Связанные задачи:
Цитата:
Ошибка #164: Unique count not show if use advanced unique
Ошибка #178: Fix 'some error' in queue when connection problems
Ошибка #184: Internal UIDs problem when use pause + start -> server crash
Ошибка #185: Queries format bug when pause\start + iterators
Ошибка #188: Fix SE::Yandex::WordStat
Ошибка #189: Fix interface loading for slow internet connections
Ошибка #190: Fix SE::Yandex content mismatch
Улучшение #158: Serp time selection for Google and Yahoo
Улучшение #191: Add SE::QIP - search.qip.ru parser

icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Вт Июл 10, 2012 6:20 pmОтветить с цитатой
Внимание, ценовая политика изменилась с 10.07.2012!

Цена лицензии - 200$, Абонентская плата - 15$ / 3 месяца, первый год без абонентской платы. Условия по абонентской плате так же распространяются и на существующих пользователей!

А так же спец предложение - всем клиентам A-Parser'а бесплатно приватные прокси на 20 потоков на 2 недели!

Всем клиентам кто имеет лицензию на A-Poster - цена всего 150$

А так же A-Parser + A-Poster всего за 300$!
icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Пн Июл 16, 2012 10:36 amОтветить с цитатой
Версия 0.9.69

Новый парсер SE::Yandex::TIC - проверка индекса цитирования домена, а так же исправление выдачи Яндекс WordStat и Bing, подробнее тут

Связанные задачи:
Цитата:
Ошибка #192: Fix Members Area work with https
Ошибка #193: Fix SE::Yandex::WordStat russian html entities
Ошибка #194: Fix SE::Bing for parsing 10+ results and fix links regex
Ошибка #195: Fix UTF-8 for restore unique from file
Улучшение #196: Add Yandex TIC parser - SE::Yandex::TIC

icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Ср Авг 08, 2012 10:40 amОтветить с цитатой
Версия 0.9.166

Большое количество исправлений, доводим парсер до идеального состояния!

А так же плановые фиксы в связи с изменением выдачи для SE::Google и SE::Yandex.

В следующих версиях ожидается новый HTTP движок, который не попал в текущую версию в связи с продолжительным тестированием.

Связанные задачи:
Цитата:
Ошибка #163: Some bug in proxycheker
Ошибка #197: Fix not save results after stop\pause + start
Ошибка #198: Fix encoding for non-english for Google, Bing and Yahoo parsers
Ошибка #199: Fix non-english queries parsing with SE::Yahoo
Ошибка #201: Fix Google snippets regex
Ошибка #202: Fix parse custom results with arrays -> server crash
Ошибка #204: Fix SE::Yandex next page regex
Ошибка #210: Fix crash on end of file when file used as iterator
Улучшение #206: Add gzip support for SE::Yandex::TIC
Улучшение #207: UTF-8 auto detect for HTML::LinkExtractor
Улучшение #209: Add gzip support for SE::Google

icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Пт Авг 17, 2012 10:23 amОтветить с цитатой
Версия 0.9.182

Очень важные изменения:


  • Новый более быстрый HTTP движок
  • Уменьшение потребления памяти
  • Общее увеличение производительности за счет внутренних оптимизаций


Улучшения:


  • HTML::LinkExtractor: новые результаты {cleananchor} - анкор без html кода, и {nofollow} - определяет есть ли nofollow параметр
  • HTML::LinkExtractor: опция Subdomains are internal - считает ссылки со всех сабдоменнов как внутрение
  • Макрос {queriesfile} в Results -> File name - подставляет название файла с запросами


Исправления:


  • Поправлен парсер SE::Google в связи с изменением формата выдачи


Связанные задачи:
Цитата:
Ошибка #211: Fix SE::Google results count regex
Ошибка #212: Fix SE::Google snippets regex
Ошибка #217: Delete tasks with iterator's from completed queue after parser restarting
Улучшение #200: New fast HTTP engine
Улучшение #205: Reduce memory usage by using new http engine
Улучшение #213: Add posibility to use {query} inside arrays in Results format
Улучшение #214: Add {cleananchor} and {nofollow} to results in HTML::LinkExtractor
Улучшение #215: Название исходного файла в results (New macros {queriesfile} in results file name)
Улучшение #219: Add 'Subdomains are internal' option for HTML::LinkExtractor
Улучшение #221: Many internal perfomance improvement and optimizations

icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Пн Авг 27, 2012 10:21 amОтветить с цитатой
Открылась партнерская программа по продаже A-Parser'a - 50$ с каждого приведенного клиента. Подробнее на сайте парсера.
Регистрируйтесь и свяжитесь со мной для активации аккаунта.

Помимо ICQ 777889 теперь со мной можно связаться через jabber/gtalk [email protected]
icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Пт Авг 31, 2012 10:20 amОтветить с цитатой
Версия 0.9.194

Новые парсеры:

  • SE::Yandex::Direct - парсер direct.yandex.ru, парсит список всех объявлений(титл, текст, домен) и кол-во объявлений по определенному запросу

  • SE::Google::Images - парсер Google Images, парсит прямые ссылки на картинки, сниппеты, разрешение и размер


Новые возможности:

  • Опция, позволяющая парсить разные задания использую одну базу для уникализации, т.е. теперь можно при появлении новых признаков той же категории допарсить только новые результаты в старую базу

  • Возможность залогиниться в 2+ парсера в одном браузере


Всего 12 улучшений и исправлений

Связанные задачи:
Цитата:
Ошибка #222: Fix iterator cleanup when set any error
Ошибка #223: Fix work end when string with zero used in queries/subs files
Ошибка #225: Fix server crash when use Unique queries + iterators + pause start
Ошибка #228: Fix max size handling in http engine
Ошибка #232: Fix pages count on active queue tab
Улучшение #161: Add option for check existing results file for unique before task start(implemented with Keep Unique option)
Улучшение #165: Show old results count when server restart
Улучшение #224: New parser SE::Google::Images - parsing full urls to images, with snippets, width, height and size information
Улучшение #226: New parser SE::Yandex::Direct - direct.yandex.ru parser with total ads count and all ads list(domain, title, text)
Улучшение #227: Allow login to 2+ A-Parser's on same ip/domain
Улучшение #230: Check unique level when restore tasks
Улучшение #231: Disable editing default presets

icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Пн Сен 10, 2012 10:33 amОтветить с цитатой
Версия 0.9.200

Новые парсеры:

  • Rank::Ahrefs - парсер количества беклинков с сервиса ahrefs.com, парсит общее число беклинков, количество ссылающихся страниц, количество уникальных IP-адресов, подсетей класса C и количество уникальных доменов

  • SE::Bing::Translator - переводчик через сервис www.bing.com/translator/, поддерживает все языки сервиса, включая автоопределение языка оригинала текста

  • Rank::Category - автоматически определяет категорию сайта на английском языке, категории такие же как в dmoz.org, например google.com - Computers/Internet/Searching


Новые возможности:

  • Дополнительные опции по сохранению результатов - возможность добавить произвольный текст в начало и конец файла результата, может использоваться к примеру для обозначения названий колонок при формировании результата в csv виде


Связанные задачи:
Цитата:
Ошибка #236: Fix active slot counting when server restart
Улучшение #234: Re-enable https with old http engine
Улучшение #235: New parser Rank::Ahrefs - ahrefs.com parser (backlinks/pages/ips/subnets/domains count)
Улучшение #237: Определение тематики сайта
Улучшение #238: Limit queries field length to 8192 characters
Улучшение #239: More options in add task: prepend and append text in results file(e.g. for cols names)
Улучшение #241: SE::Bing::Translator - translator between any 2 languages, with auto-detect

icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Ср Сен 19, 2012 11:28 amОтветить с цитатой
Версия 0.9.209

Новый парсер Rank::CMS - определение более 200 видов CMS на основе признаков. Определяет все популярные форумы, блоги, CMS, гестбуки, вики и множество других типов движков.

Появилась версия с User API, теперь можно интегрировать A-Parser в свои скрипты и программы, более подробно про API описано тут: User API, взаимодействие с другими программами и скриптами

Исправлен парсер SE::Yandex

Общее повышение стабильности, улучшение интерфейса и другие фиксы.

Связанные задачи:
Цитата:
Ошибка #157: Bug when use non-english presets name
Ошибка #229: Need to auto-flush unique file because it may corrupt if process kill
Ошибка #242: Fix server crash after restarting task with iterator error
Ошибка #244: HTML::LinkExtractor fail with relative links starting with dot-shlash
Ошибка #245: Query format fail for subqueries when use iterator + parse to level option
Ошибка #247: Fix utf-8 check for subqueries files
Ошибка #255: Fix SE::Yandex: gzip and next page regex
Улучшение #243: Disable editing all fixed combobox
Улучшение #246: Need to reload presets combobox's when adding/deleting presets
Улучшение #251: New parser Rank::CMS - auto detect CMS type
Улучшение #252: Implement User Api: ping and oneRequest(parser, preset, query)
Улучшение #253: Fast proxy delivery for new threads

icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Пт Сен 28, 2012 10:36 amОтветить с цитатой
Версия 0.9.220

Улучшения

  • В парсер SE::Yandex добавлена возможность выбора домена yandex.ua для парсинга, так же для этого парсера теперь конвертируется количество результатов в число.
  • Для парсера SE::Google добавлена опция строгого поиска, т.е. если Google говорит что результатов не найдено, но предлагает другие результаты, то парсер не будет их учитывать.
  • Теперь при экспорте пресета сохраняются все значимые настройки(кроме самих запросов).


Исправления

  • В этой версии исправлена ошибка с утечкой сокетов при использовании SOCKS прокси, а так же несколько других ошибок влияющих на общую стабильность парсера.


Связанные задачи:
Цитата:
Ошибка #260: Fix SE::Yahoo regex(loop)
Ошибка #262: Fix wrong proxy ban when malformed url used(status == 595)
Ошибка #265: Fix sockets leak when use socks proxies in new http engine(important!)
Ошибка #267: Fix warnings when fast stop parser test
Ошибка #268: Fix handling cookie expire date(for too big date or unparsable date automatic set expire to now + 1 year)
Улучшение #256: Add option for SE::Google for check not found resutls
Улучшение #257: Convert to numeric results count for SE::Yandex
Улучшение #258: Add more options to import/export presets
Улучшение #263: Зоны парсинга Yandex (option Yandex domain allow select yandex.ua)
Улучшение #264: Show warning for too many subrequests

icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Ср Окт 10, 2012 5:15 pmОтветить с цитатой
Версия 0.9.233

В этой версии полностью закончена разработка нового сетевого стека:


  • Добавлена поддержка SSL/TLS для работы с сокетами
  • Новый HTTP движок поддерживает HTTPS, старый движок полностью отключен

В целом теперь возможна работа по любым защищенным SSL/TLS протоколам через любые прокси. Полный отказ от старого движка уменьшил потребление памяти.

Исправлен парсер SE::Yandex, в парсер SE::Google::Suggest добавлена возможность выбора регионального домена гугла для парсинга.

Связанные задачи:
Цитата:
Ошибка #32: Stopping server bug
Ошибка #271: Fix regex for SE::Yandex(loop)
Улучшение #272: Add posibility to select google regional domain in SE::Google::Suggest
Улучшение #274: New socket-tls engine
Улучшение #275: New http engine now support HTTPS, old module totaly deprecated

icq: 777889 mail: [email protected]

Forbidden
Свой
Зарегистрирован: 18.02.2009
Сообщений: 66
Обратиться по нику
# Добавлено:Ср Окт 17, 2012 1:27 pmОтветить с цитатой
Версия 0.9.240

В этой версии несколько улучшений прокси чекера:

  • Загрузка проксей из локального файла
  • Возможность указать дополнительные регулярные выражения при парсинге проксей с внешних источников
  • Сохранение живых проксей в локальный файл для последующего использования в других программах

Подробнее можно прочитать в документации: Все о прокси чекере

В API добавлена возможность парсинга нескольких запросов в многопоточном режиме, а также опция позволяющая возвращать результат выполнения в виде структуры данных, подробнее в документации: User API, взаимодействие с другими программами и скриптами

Парсер Net::HTTP теперь автоматически перекодирует содержимое страницы в UTF-8, исходная кодировка вычисляется на основании meta-тега http-equiv и заголовка Content-Type.

Парсер Rank::CMS ускорен в ~10 раз, сейчас средняя скорость проверки CMS по всем 277 типам движков составляет около 1500 ссылок в минуту.

Связанные задачи:
Цитата:
Улучшение #162: Add posibility to load proxy from file(files/proxy/proxy.txt)
Улучшение #266: добавить возможность добавления регулярок для парсинга проксей(files/proxy/regex.txt)
Улучшение #277: Increase Rank::CMS speed x10
Улучшение #278: First filter result, next make unique
Улучшение #279: move files/proxy_sites.txt to files/proxy/sites.txt
Улучшение #280: Possibility to save alive proxies to file files/proxy/alive.txt(option name 'Save alive proxies to file' in Proxy Checker presets)
Улучшение #281: Now Net::HTTP automaticaly decode any site encoding to utf-8
Улучшение #282: Add bulkRequest to API - allow multithread\multirequest parsing
Улучшение #283: Add rawResults option for API - return raw results structure

icq: 777889 mail: [email protected]
Новая тема Написать ответ    ГЛАВНАЯ ~ РЕКЛАМА И ОБЪЯВЛЕНИЯ

Перейти:  





Генеральный спонсор



Партнеры