В общем, попробовал сделать парсер конкурентности кеев из Гугла - не получилось.
Регулярка работает правильно, проверял на исходном коде из браузера в программе TestRExp. Находит то, что нужно:
- Код: выделить все
title="Поиск" type="text" value=.(.*?). aria-label="Найти".*<div id="resultStats">Результатов:[а-я ]*([0-9 ]*)<nobr>
Но в парсере не хочет. Проверял в один поток без прокси. В файле с регулярными выражениями Ксеона строка поиска выглядит так:
- Код: выделить все
URLListR [title="Поиск" type="text" value=.(.*?). aria-label="Найти".*<div id="resultStats">Результатов:[а-я ]*([0-9 ]*)<nobr>] [1]:[2]
Что-то мне кажется, что дело не в регулярке, а в ссылке на поиск Гугла, например:
- Код: выделить все
https://www.google.ru/search?q={QUERY}&ie=utf-8&oe=utf-8
или
https://www.google.ru/search?q=территория+фитнес+павлоград+цены&newwindow=1&gbv=1&sei=9RAnVc7AIaPMygPy7IDYCw
или
https://www.google.ru/search?q=%D1%82%D0%B5%D1%80%D1%80%D0%B8%D1%82%D0%BE%D1%80%D0%B8%D1%8F+%D1%84%D0%B8%D1%82%D0%BD%D0%B5%D1%81+%D0%BF%D0%B0%D0%B2%D0%BB%D0%BE%D0%B3%D1%80%D0%B0%D0%B4+%D1%86%D0%B5%D0%BD%D1%8B&newwindow=1&gbv=1&sei=9RAnVc7AIaPMygPy7IDYCw
Проверял по разному. Вместо "https" писал "http" и т.д. Думаю, дело в редиректе у поиска Гугла, который парсер не обрабатывает, а ищет контент на странице редиректа.
В дальнейшем, если победить все же удастся, всплывет еще одна проблема: к парсеру URLlist не прикручена капча. Она работает при парсинге ПС на предмет ссылок, но в парсинге с помощью регулярок, нет.
В общем, пока плюнул на это и пользуюсь другим софтом.