АРМАДА
A-Parser - продвинутый парсер ПС, Suggest, WordStat, PR, etc
На страницу Пред.  1, 2, 3, 4, 5, 6, 7, 8  След.
Новая тема Написать ответ

A-Parser Support + +
Свой
Зарегистрирован: 02.06.2013
Сообщений: 71
Обратиться по нику
# Добавлено:Ср Май 27, 2015 11:52 amОтветить с цитатой
Сборник рецептов #3: мобильные сайты, несколько парсеров, позиции ключевых слов

Итак, продолжаем серию статей с рецептами применения A-parser: комплексные примеры с одновременным использованием различного функционала парсера.

Проверяем наличие мобильной версии для 1000000 сайтов

Работаем с большими объемами данных и учимся искать совпадения в raw data.


  • за 8 часов работы данного задания мы узнали что почти 41% самых посещаемых сайтов не имеют мобильных версий. Кто знает, возможно обзаведясь мобильной версией, они стали бы еще более посещаемыми?


По списку запросов получаем страницы, CMS, PR, e-mail из whois

Комплексное задание, выполняемое в 2 этапа, в котором мы учимся работать с несколькими парсерами, регулярными выражениями, а также красиво выводим результаты во многоуровневые каталоги и несколько файлов.


  • на первом этапе используется 1 парсер, на втором - 3
  • в конструкторе результатов используется регулярное выражения для извлечения необходимой информации
  • результаты выводятся в виде вложенных папок и текстовых файлов по следующей схеме:

Код:
PR_1
     \Joomla
           \domain.com
                   contacts.txt
                   cache.txt
      \Drupal
      \WordPress
     \no CMS
PR_2
PR_3



Узнать позиции по кеям, как?

Знакомимся с парсером SE::Google::Position и проверяем на каком месте в поисковой выдачи находится ключевое слово.


Детальнее о самом парсере здесь.

Предыдущие сборники:

A-Parser Support + +
Свой
Зарегистрирован: 02.06.2013
Сообщений: 71
Обратиться по нику
# Добавлено:Вт Июн 02, 2015 12:26 pmОтветить с цитатой
Сборник рецептов #4: поиск в выдаче, парсинг интернет-магазина и скачиваем файлы

Очередной, 4-й выпуск сборника рецептов. Поехали!

Анализ выдачи гугла на наличие ключа в тайтле и дескрипшене

Пользуемся возможностями шаблонизатора Template Toolkit. Используем циклы и поиск. А также сохраняем разные результаты в разные файлы.

В данном примере осуществляется поиск ключа в анкорах и сниппетах, и в зависимости от результата, сохраняет их в 1 из 3 соответствующих файлов. Все подробности, а также сохранение в 4-ре файла по ссылке выше.

Парсинг товаров с сайта

Парсим интернет-магазин и формируем свою HTML-страницу с результатами.

Суть задания заключается в том, чтобы спарсить названия и характеристики товара из интернет-магазина, сохранив привязку к категории и фото товара. Как все это сделать - по ссылке выше.

Скачиваем файлы

Сохраняем на жесткий диск различные документы из поисковой выдачи, с определением их типа, а также возможностью формировать уникальное имя файла.

Ну а здесь нам необходимо парсить из выдачи Гугла ссылки на документы формата doc, xls и pdf. Так же необходимо скачивать данные документы, при этом обеспечить уникальность имени файла. Детали - по ссылке выше.

Предыдущие сборники:

woodoo
Свой
Зарегистрирован: 15.07.2015
Сообщений: 1
Обратиться по нику
# Добавлено:Чт Июл 23, 2015 9:55 amОтветить с цитатой
Незаменимая вещь в моем хозяйстве)

A-Parser Support + +
Свой
Зарегистрирован: 02.06.2013
Сообщений: 71
Обратиться по нику
# Добавлено:Вт Авг 04, 2015 1:22 pmОтветить с цитатой
Сборник рецептов #7: парсим RSS, качаем картинки и фильтруем результат по заголовкам

7-й выпуск сборника рецептов. Здесь мы рассмотрим вариант парсинга RSS, будем скачивать картинки в зависимости от их характеристик и научимся фильтровать результат по хедерам.

Парсинг RSS
На сегодняшний день RSS остаются довольно популярным вариантом доставки новостей и контента пользователям. В связи с этим его используют почти на всех сайтах, где бывает более-менее периодическое обновление информации. А для нас это возможность быстро спарсить свежие обновления сайта, не анализируя сам сайт. И один из способов, как это сделать описан по ссылке выше.


Как фильтровать результат по определенным хедерам?
Как известно, А-парсер предназначен для парсинга, в основном, текстовой информации. Но кроме этого им вполне реально парсить и другие обьекты (файлы, картинки и т.п.). При этом существует возможность фильтровать их по заголовкам ответа сервера. Об этом по ссылке выше.


Скачивание картинок указанного разрешения и размера
Если выше мы фильтровали результат только по хедерам и рассматривали вариант с документами, то в данной статье мы будем скачивать картинки и фильтровать их по размеру и разрешению. Как это сделать - можно увидеть по ссылке выше.


Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:


A-Parser Support + +
Свой
Зарегистрирован: 02.06.2013
Сообщений: 71
Обратиться по нику
# Добавлено:Вт Авг 18, 2015 9:53 amОтветить с цитатой
Сборник рецептов #8: парсим 2GIS, Google translate и подсказки Youtube

8-й выпуск сборника рецептов. В нем мы будем парсить базу организаций из каталога 2GIS, научимся парсить подсказки из Youtube и напишем кастомный парсер Google translate.

Парсинг 2GIS
2GIS - это довольно большой справочник организаций России (и не только...) с возможностью просмотра их расположения на карте. База содержит более 1580000 организаций в 270 городах России. После парсинга представляет интерес как справочник сайтов, электронных адресов и телефонов организаций.


Парсинг Google Translate
В данной статье рассмотрен способ написания кастомного парсера Google translate на основе Net::HTTP. Также реализована возможность задавать направление перевода. Можно использовать для пакетного перевода больших обьемов текста.


Парсинг подсказок Youtube
Парсинг подсказок поисковых систем - довольно популярный способ поиска ключевых слов. В данной статье также используется Net::HTTP, с помощью которого создается кастомный парсер подсказок Youtube. Реализована возможность задавать язык и страну, а также использовать уже спаршенные подсказки в качестве новых запросов на нужную глубину.


Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:

A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций

A-Parser Support + +
Свой
Зарегистрирован: 02.06.2013
Сообщений: 71
Обратиться по нику
# Добавлено:Ср Сен 16, 2015 7:06 amОтветить с цитатой
Сборник рецептов #9: проверяем сезонность ключевых слов и их полезность

9-й выпуск Сборника рецептов. В нем мы будем работать с ключевыми словами: проверять их сезонность и искать свободные ниши в рунете, проверяя "полезность" ключевиков.

Определение сезонности ключевых слов через Wordstat
Использование нужных ключевых слов в нужное время - один из способов привлечения дополнительного трафика на сайт. Для определения сезонности ключевых слов существует немало различных способов и сервисов. О том, как это делать с помощью А-Парсера - читайте по ссылке выше.


Поиск свободных ниш в RU сегменте интернета
Используя на сайте не только сезонные, а и "полезные" ключевые слова, можно значительно повысить шансы попасть в ТОП10 поисковиков. И если о сезонности мы писали ранее, то о "полезности", а точнее о "незанятости" ключевых слов мы поговорим в данной статье. Полезные или незанятые - это такие КС, которые пользователи часто ищут, но конкуренция по которым не очень высокая. Как их искать - читайте по ссылке выше.


Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:

MrRobot
Свой
Зарегистрирован: 16.09.2015
Сообщений: 3
Обратиться по нику
# Добавлено:Вт Сен 22, 2015 7:01 pmОтветить с цитатой
Пользуюсь парсером часто, один из нужных инструментов в моем сео хозяйстве)

A-Parser Support + +
Свой
Зарегистрирован: 02.06.2013
Сообщений: 71
Обратиться по нику
# Добавлено:Ср Окт 07, 2015 6:19 amОтветить с цитатой
A-Parser - 1.1.292 - парсинг JSON, улучшения использования памяти, множество исправлений

Улучшения

  • Поддержка разбора JSON структур в шаблонизаторе
  • Добавлена опция "Конструктор запросов на всех уровнях", позволяющая использовать конструктор запросов на всех уровнях вложенного парсинга
  • При просмотре статистики работы задания теперь отображается общее число HTTP запросов
  • Новый инструмент отладки Gladiator, позволяющий быстро локализовать возможные утечки памяти

Исправления в связи с изменениями в выдачи

  • Исправлено определение наличия каптчи на этапе логина в парсере SE::Yandex::WordStat
  • Полностью переработан Rank::Ahrefs
  • Исправлен парсинг времени кэширования в SE::Yandex
  • Исправлен SE::Google::Images
  • Исправлен SE::Bing
  • Исправлен SE::Yahoo::Suggest

  • Исправлен SE::AOL

Исправления

  • Исправлен парсер SE::Yandex::TIC - ресурсы у которых тИЦ был неопределен отображались как тИЦ = 0, исправлено на тИЦ = -1
  • Исправлено множество утечек памяти
  • При замене в регулярных выражениях не работал символ переноса \n
  • При использовании большого числа переменных в конструкторе запросов или результатов они могли не влезать в видимую область

A-Parser Support + +
Свой
Зарегистрирован: 02.06.2013
Сообщений: 71
Обратиться по нику
# Добавлено:Ср Окт 14, 2015 8:30 amОтветить с цитатой
Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий

10-й выпуск Сборника рецептов. В нем мы сделаем кастомный парсер поисковика search.disconnect.me и научимся парсить категории из сайтов с сохранением иерархии и путей к ним.

Парсер search.disconnect.me или альтернатива inurl Google
В одном из сообщений на форуме был упомянут довольно интересный сервис search.disconnect.me. Также в последнее время все чаще стали появляться сообщения о проблемах при парсинге Гугла с поисковыми операторами. А так как вышеупомянутый сервис позволяет парсить Гугл, при этом не выдавая каптч и без бана прокси, можно попробовать сделать для него парсер на основе Net::HTTP. Что из этого получилось - можно посмотреть по ссылке выше.



Парсинг дерева категорий с сохранением структуры
В версии 1.1.292 появилась новая опция Query Builders on all levels. С ее помощью можно регулировать, когда применять Конструктор запросов при парсинге "в глубину". И благодаря этой опции стало возможным парсить дерево категорий из сайтов с сохранением структуры. Как это работает - можно посмотреть по ссылке выше.


Еще больше различных рецептов в нашем Каталоге примеров!

Предыдущие сборники:

A-Parser Support + +
Свой
Зарегистрирован: 02.06.2013
Сообщений: 71
Обратиться по нику
# Добавлено:Чт Окт 22, 2015 10:25 amОтветить с цитатой
A-Parser - 1.1.323 - парсинг с помощью XPath, поддержка JavaScript в шаблонизаторе, тестировщик заданий

Улучшения

  • Добавлен новый Тестировщик заданий, позволяющий тестировать все задание целиком, включая использование нескольких парсеров, конструкторов запросов и результатов. Тестировщик позволяет просматривать результаты по каждому созданному файлу, а также отображает логи выполнения по каждому запросу
  • Для парсера Net::Whois добавлена опция Recursive query, которая позволяет получать расширенную версию WHOIS(контактные email адреса и т.п.)
  • Добавлена поддержка XPath запросов, сильно упрощающая разбор HTML документов
  • Добавлен новый инструмент tools.js, позволяющий исполнять JavaScript из шаблонизатора, теперь помимо возможности использовать JavaScript для обработки и вывода результатов стало возможно частично исполнять скрипты встроенные в HTML(Выборочная обработка JavaScript: расшифровка телефонов)




Исправления в связи с изменениями в выдачи

  • Исправлен парсинг рекламных объявлений в SE::Google

  • Исправлен парсер Rank::Ahrefs

  • Исправлен парсер Rank::DMOZ

Исправления

  • При использовании динамического имени файла append text теперь пишется один раз
  • Исправлена работа с ссылками, которые содержат некоторые символы Юникода в Net::HTTP
  • Исправлена обработка каптчи в SE::Yandex::Register
  • Исправлен парсинг подсказок в SE::Google::Suggest

NuPogodi
Свой
Зарегистрирован: 03.10.2015
Сообщений: 1
Обратиться по нику
# Добавлено:Вт Ноя 24, 2015 7:07 pmОтветить с цитатой
Постоянно пользуюсь парсером! Помогает во многом, имеет гибкую и понятную настройку. В нем имеется множество интсрументов для получения нужных результатов от парсинга контента до индексации сайтов, а так же многое другое!

A-Parser Support + +
Свой
Зарегистрирован: 02.06.2013
Сообщений: 71
Обратиться по нику
# Добавлено:Чт Янв 14, 2016 12:58 pmОтветить с цитатой
A-Parser - 1.1.388 - новый парсер disconnect.me, улучшения в экспорте заданий

Улучшения

  • Добавлен парсер SE::DisconnectMe - поисковая система от бывших сотрудников Google, можно выбирать один из трех вариантов выдачи: Google, Bing, Yahoo
  • Теперь при сохранении пресета задания, сохраняется название файла запросов или сам список запросов
  • При экспорте задания, появилась возможность указать включать или нет запросы в код пресета, а также теперь отображается список настроек парсеров которые будут включены в код
  • В очереди заданий добавлена возможность свернуть\развернуть одновременно все задания на странице
  • В очереди заданий для свернутых заданий теперь отображается время выполнения
  • Увеличена скорость парсинга SE::Google

Исправления в связи с изменениями в выдачи

  • В SE::Google::Images больше не парсится параметр size
  • Исправлены SE::Google, SE::Google::TrustCheck, SE::Google::Compromised, SE::Ask, SE::Dogpile, Rank::Mustat, Rank::Category, SE::AOL

Исправления

  • A-Parser мог падать при использовании парсеров SE::Yandex::WordStat, SE::Dogpile, а также при использовании Просмотра логов после перезапуска парсера
  • В парсере Net::Whois не определялась дата экспайра для некоторых доменов
  • В парсере SE::Bing не корректно обрабатывались ссылки содержащие символ &


Обновление партнерской программы

Участвуйте в нашей партнерской программе рекламируя A-Parser в своих блогах и на форумах! Размер комиссии - 15%:

  • A-Parser Lite: $18
  • A-Parser Pro: $30
  • A-Parser Enterprise: $42



В обновленном интерфейсе доступна удобная статистика заработанных средств и выплат, а также список привлеченных пользователей

Подробнее про условия участия в партнерской программе читайте в соответствующем разделе

A-Parser Support + +
Свой
Зарегистрирован: 02.06.2013
Сообщений: 71
Обратиться по нику
# Добавлено:Пн Фев 08, 2016 3:06 pmОтветить с цитатой
A-Parser: видео урок по парсингу 2ГИС

Денис Бартаев рассказывает о парсинге информации о компаниях и их телефонов из базы 2ГИС



В выпуске рассматриваются

  • Использование парсера-паука HTML::LinkExtractor и его настройка для фильтрации ссылок
  • Работа с параметром Parse To Level
  • Использование парсера Net::HTTP и его настройка для выборки данных со страницы с помощью регулярных выражений
  • Создание Excel-таблицы из результатов парсинга


Подписывайтесь на наш канал!

Оставляйте в комментариях свои идеи и пожелания для будущих видео

A-Parser Support + +
Свой
Зарегистрирован: 02.06.2013
Сообщений: 71
Обратиться по нику
# Добавлено:Пн Фев 29, 2016 9:52 amОтветить с цитатой
A-Parser - 1.1.434 - парсинг частотности Яндекс.Директ с большой скоростью, улучшения использования памяти

В этой версии проделана большая работа по добавлению поддержки агрегации запросов. Теперь парсер частотности ключевых слов SE::Yandex::Direct::Frequency может получать данные со скоростью 20000-50000 слов\минуту

Улучшения

  • Уменьшено потребление памяти при использовании большого числа потоков и\или нескольких парсеров в одном задании
  • Уменьшено потребление памяти при большой очереди завершенных заданий
  • В парсере SE::Yandex::Direct::Frequency добавлена возможность выбрать все регионы или выбрать несколько определенных
  • В парсере SE::Yandex::Direct::Frequency добавлена поддержка Яндекс аккаунтов, а так же поддержка AntiGate и парсинг по 500 ключевых слов за один запрос
  • В парсере SE::Yandex::Direct::Frequency добавлена возможность выбора периода за последний месяц, за определенный месяц, за квартал или за год

  • Для Windows и Linux улучшена поддержка юникода в именах файлах, независимо от языка интерфейса ОС
  • Добавлена возможность просматривать логи только неудачных запросов
  • В API добавлена возможность указать флаг removeOnComplete при добавлении задания, тем самым задания будут автоматически удалятся после завершения
  • В просмотре логов теперь можно выделить данные для копирования
  • В парсере Net::HTTP добавлен параметр Max cookies count, ограничивающий число Cookie для сохранения
  • В парсере Net::HTTP расширен список кодов ответов, а также добавлена возможность указать регулярное выражения для проверки кода ответа
  • В очереди заданий теперь можно искать необходимые задания по названию, номеру, подстроке в запросах, имени файлов запросов и результатов
  • В парсере HTML::LinkExtractor добавлена опция Check next page, позволяющая расширить логику перехода по ссылкам
  • Добавлена опция Page as new query, которая передает переход на следующую страницу как новый запрос, тем самым позволяя убрать ограничение на количество страниц для перехода

Исправления в связи с изменениями выдачи

  • В парсере SE::Yandex исправлен парсинг связанных ключевых слов
  • В парсере SE::Youtube исправлен парсинг количества видео по запросу
  • Исправлен парсинг Google Blogs в парсере SE::Google
  • Исправлены SE::AOL, SE::Ask, SE::Baidu, SE::Google, SE::Google::pR, SE::DisconnectMe, SE::QIP, SE::Yandex

Исправления

  • Исправлено отображение длинных выпадающих меню
  • Исправлена кодировка запросов в просмотре логов
  • Исправлено падение при использовании опции Parse to level в некоторых ситуациях
  • Исправлено падение в парсере SEO::ping
  • Прокси с авторизацией теперь сохраняются корректно в файл живых прокси alive.txt
  • Исправлена работа с прокси при указании пустой пары логин\пароль для авторизации
  • В парсере SE::Yandex::WordStat теперь при использовании опции Remove + from keywords плюсы удаляются также для фраз правого столбика
  • Исправлено экранирование символа + в HTTP запросах


Все изменения и описания новых возможностей скоро будут доступны в документации

A-Parser Support + +
Свой
Зарегистрирован: 02.06.2013
Сообщений: 71
Обратиться по нику
# Добавлено:Ср Мар 16, 2016 11:48 amОтветить с цитатой
A-Parser: видео урок - генерация sitemap.xml используя возможности JavaScript

Денис Бартаев рассказывает об использовании JavaScript в A-Parser:



  • Использование LinkExtractor
  • Показан пример разбора заголовков ответов
  • Введение в основы JavaScript
  • Использование возможностей tools.js для решения практической задачи

Подписывайтесь на наш канал!

Оставляйте в комментариях свои идеи и пожелания для будущих видео
Новая тема Написать ответ    ГЛАВНАЯ ~ РЕКЛАМА И ОБЪЯВЛЕНИЯ

Перейти:  





Генеральный спонсор



Партнеры