XseoN.ru

**XseoN Founder** 25 фев 2013, 16:58

Все желающие могут разместить в данной ветке проверенные регулярные выражения для парсинга любого контента.
Описание и синтаксис

1. Парсинг содержимого, находящегося между тегами, ниже приведен пример парсинга заголовка web-страницы:

Код: выделить все: URLListR [<title>(.*?)</title>] [1]

2. Парсинг ссылок, находящихся в web-странице:

Код: выделить все: URLListR [.([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3})\D+([0-9]{2,5}).] [1]:[2]

**exmachina** 07 апр 2015, 23:24

Здравствуйте.

Подскажите, возможно ли с помощью парсера ссылок и регулярок сделать парсинг в Гугле и Яндексе количества страниц в выдаче ПС по списку ключевых фраз в кавычках? Я пока не разобрался.
Если кто делал, поделитесь пожалуйста.

В принципе, для этих целей использую бесплатный СловоЕб, но там проблема с количеством потоков и хорошими прокси. Можно использовать платный KeyCollector, но, опять же, проблема с прокси.
Если такое возможно сделать в Xseon, то зачем пропадать хорошей возможности? Плюс, возможность использовать прокси от авторов.

**XseoN Founder** 08 апр 2015, 03:35

Подскажите, возможно ли с помощью парсера ссылок и регулярок сделать парсинг в Гугле и Яндексе

В парсере XseoN есть парсер с помощью регулярных выражений - см. синтаксис здесь, но под Ваши задачи не тестировали.

**exmachina** 10 апр 2015, 04:21

В общем, попробовал сделать парсер конкурентности кеев из Гугла - не получилось.
Регулярка работает правильно, проверял на исходном коде из браузера в программе TestRExp. Находит то, что нужно:

Код: выделить все: title="Поиск" type="text" value=.(.*?). aria-label="Найти".*<div id="resultStats">Результатов:[а-я ]*([0-9 ]*)<nobr>

Но в парсере не хочет. Проверял в один поток без прокси. В файле с регулярными выражениями Ксеона строка поиска выглядит так:

Код: выделить все: URLListR [title="Поиск" type="text" value=.(.*?). aria-label="Найти".*<div id="resultStats">Результатов:[а-я ]*([0-9 ]*)<nobr>] [1]:[2]

Что-то мне кажется, что дело не в регулярке, а в ссылке на поиск Гугла, например:

Код: выделить все: https://www.google.ru/search?q={QUERY}&ie=utf-8&oe=utf-8 или https://www.google.ru/search?q=территория+фитнес+павлоград+цены&newwindow=1&gbv=1&sei=9RAnVc7AIaPMygPy7IDYCw или https://www.google.ru/search?q=%D1%82%D0%B5%D1%80%D1%80%D0%B8%D1%82%D0%BE%D1%80%D0%B8%D1%8F+%D1%84%D0%B8%D1%82%D0%BD%D0%B5%D1%81+%D0%BF%D0%B0%D0%B2%D0%BB%D0%BE%D0%B3%D1%80%D0%B0%D0%B4+%D1%86%D0%B5%D0%BD%D1%8B&newwindow=1&gbv=1&sei=9RAnVc7AIaPMygPy7IDYCw

Проверял по разному. Вместо "https" писал "http" и т.д. Думаю, дело в редиректе у поиска Гугла, который парсер не обрабатывает, а ищет контент на странице редиректа.
В дальнейшем, если победить все же удастся, всплывет еще одна проблема: к парсеру URLlist не прикручена капча. Она работает при парсинге ПС на предмет ссылок, но в парсинге с помощью регулярок, нет.
В общем, пока плюнул на это и пользуюсь другим софтом.

**XseoN Founder** 10 апр 2015, 19:20

Что-то мне кажется, что дело не в регулярке, а в ссылке на поиск Гугла, например:

От Вас - техническое задание на решение задачи - мы определимся и ответим, реализуем бесплатно, но с учетом реализации в полном функционале XseoN.

XseoN.ru

Примеры регулярных выражений Парсера ПК XseoN

Примеры регулярных выражений Парсера ПК XseoN

Re: Примеры регулярных выражений Парсера ПК XseoN

Re: Примеры регулярных выражений Парсера ПК XseoN

Re: Примеры регулярных выражений Парсера ПК XseoN

Re: Примеры регулярных выражений Парсера ПК XseoN

Кто сейчас на форуме