И вновь продолжается бой

Здесь принимаются пожелания и обсуждаются вопросы, связанные с удобством использования ПК XseoN.

Модератор: XseoN Founder

И вновь продолжается бой

Сообщение kashim 15 май 2013, 04:56

Захотелось собрать свою базу для ксеона в связи с выходом новой версии, конкретно с использованием ПС Яндекс. И зашел, как ни странно в тупик. Делюсь своими проблемами.

Во первых нужно сделать пакет запросов. Для этого благополучно "надергал" слов с какого-то сайта.
А вот с признаками ресурсов появился большущий вопрос. Что же писать в это окно? Там был какой-то пример, но после того как я на обум вставил туда привычные гугловские (как оказалось неподошедшие), этот пример затерся. Да и вообще нипанятна, что там быть должно. Образцов нету, ничего нету, все печально. Вот крин, проблемного места:
Изображение

Ладно, плюнул на гиблое дело.Так как увидел ссылку для скачивания готовых запросов:
Изображение

Тут меня удивил другой момент, то что список "совсем готовый" и одинаковый для всех
Изображение

может логичней было бы сделать заготовку под тот же яндекс, в которую можно было как-то добавить свои слова и т.п.?

Поехали дальше, следом у нас идут прокси:
Изображение
Эээ... вот тут я завис окончально. Как видно на картинке, я указал свой файл с проксями, собранными зеннопостером.
Изображение
Тут я естественно нажал "Да" потому что зенка уже проверила все это.
Только вот ни один из них не подошел :roll:
Изображение
Вот как-то так.
После этого, захотелось использовать сервис, стоящий по умолчанию, готовый список проксей с сервера ксеона..... но как узнать этот урл????? ссылка ведь затерта моей:
Изображение
Что делать теперь? Переустанавливать программу? :evil:

В который раз хочется начать, наконец, работать с ксеоном и все через одно место получается. Вроде все он умеет, только работать с ним невозможно увы. :roll:
kashim
 
Сообщений: 10
Зарегистрирован: 14 фев 2013, 23:44

Re: И вновь продолжается бой

Сообщение XseoN Founder 15 май 2013, 05:38

Вот крин, проблемного места:

Видео с демонстрацией создания пакета запросов для Yandex и Google
Видео создания пакета запросов для гугл Новости от 26 августа 12г.;
Тут меня удивил другой момент, то что список "совсем готовый" и одинаковый для всех

После параметра &text=.... идет для каждого запроса свое слово из словаря (слово+запрос), слово находится в том формате, который понимает Yandex и не надо вручную его кодировать, программа все сама перекодирует, главное, чтобы все файлы, использующиеся в парсере были в кодировке UTF-8 без BOM.
может логичней было бы сделать заготовку под тот же яндекс, в которую можно было как-то добавить свои слова и т.п.?

Это и сделано, см. свой первый скрин - в данное поле вписывается путь до файла с шаблоном Yandex (пример шаблона даже вписан в данное поле, просто берете его и копируете в txt, сохраняете его и выбираете данный txt, всё ),
Пример Шаблона Yandex, который надо вставить в txt:

Код: выделить все
/yandsearch?date=&text=[query]&site=&rstr=&zone=all&wordforms=all&lang=all&within=0&from_day=1&from_month=1&from_year=2000&to_day=28&to_month=1&to_year=2013&mime=all&numdoc=50&lr=10945

как видите после &text= идет строка [query], при формировании пакета запросов, эта строка автоматом заменяется программой на признак движка + тематическое слово,
см. Видео с демонстрацией создания пакета запросов для Yandex и Google
Эээ... вот тут я завис окончально. Как видно на картинке, я указал свой файл с проксями, собранными зеннопостером.

Только вот ни один из них не подошел

В ПК XseoN желательно использовать прокси проверенные или встроенным чекером прокси или с помощью XPCP, что абсолютно гарантирует что прокси не просто отвечает на запрос, а не режет или искажает контент и действительно рабочий.
Я думаю всем уже давно известно, что у ПСов имеется обширная база забаненных прокси, если после отправки поискового запроса парсер получает сообщение, что прокси в бане, от выдает сообщение, что производится смена прокси, и берет др. прокси в рандомном порядке, хотя тот прокси, который был отклонен ПСом может быть абсолютно рабочим, читайте новости от 13 мая 13г.
Вам же программа даже подсказала Ваши дальнейшие действия, но Вы их почему-то проигнорировали :shock:
Для работы всего софта во всех режимах необходимо использовать прокси в формате 123.123.123.123:1234 typeProxy, берете список с проксями и прогоняете или во встроенном чекере проксей или в XPСP, при сохранении тип прокси после адреса сервера и порта будет проставлен автоматом. Если У Вас имеется уже список с заведомо рабочими проксями, можете тип прокси подставить сами через пробел
тип прокси сервера, подставляемый после сервера: порта через пробел
Код: выделить все
HTTP
SOCKS v.4
SOCKS v.5

После этого, захотелось использовать сервис, стоящий по умолчанию, готовый список проксей с сервера ксеона..... но как узнать этот урл????? ссылка ведь затерта моей:

Новости от 30 июня 11г.
Код: выделить все
Включена опция автоматического обновления списка с proxy с нашего сервера прямо во время работы. Обновление будет происходить по достижению числа рабочих proxy = (Кол-во потоков/2). Cписки proxy на сервере проверяются на работоспособность и анонимность один раз в час; Соответственно на сервере запущен сервис автообновления proxy серверов.
  URL HTTP proxy - http://www.xseon.ru/LISTFULL/list_PROXY/xsprhttp.txt ;
  URL HTTPS proxy - http://www.xseon.ru/LISTFULL/list_PROXY/xsprhttps.txt ;
  URL SOCKS proxy - http://www.xseon.ru/LISTFULL/list_PROXY/xsprsocks.txt ;
Все списки кодированные, не забывайте в проекте поставить "галку" вкл./выкл. декодирование.

Или открываете демо-проект и смотрите прописанные по-умолчанию прокси в соответствующем поле.
В который раз хочется начать, наконец, работать с ксеоном и все через одно место получается.

Чтобы не получалось через одно место следите за новостями, где выкладываются все важные моменты работы с софтом, а так же видео материалы.
Мы время от времени делаем специально новые демо-видео, чтобы не возникало таких вопросов.
Если что-то не понятно, почему не обратиться в службу тех. поддержки :?:

ДЕМОНСТРАЦИЯ РАБОТЫ ПК XSEON ОТ ПАРСИНГА ДО РАЗМЕЩЕНИЯ ПРОФИЛЕЙ
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: И вновь продолжается бой

Сообщение kashim 15 май 2013, 22:33

Спасибо большое за развернутый ответ. Будем дальше биться с пс :)
kashim
 
Сообщений: 10
Зарегистрирован: 14 фев 2013, 23:44

Re: И вновь продолжается бой

Сообщение kashim 16 май 2013, 11:22

Сделал все по инструкции, получилось:
Изображение
Правда, пару раз, число потоков в работе падало до 1-го. Пришлось перезапускать.
kashim
 
Сообщений: 10
Зарегистрирован: 14 фев 2013, 23:44

Re: И вновь продолжается бой

Сообщение XseoN Founder 16 май 2013, 14:58

Имхо, использование при парсинге Yandex тега inurl: не приводит к ожидаемому результату, очень много мусора.
И лучше в парсере не держать постоянно снятой галку "отключить статусную строку", ее необходимо убирать не надолго при возникновении какого-то нестандартного поведения парсера, чтобы посмотреть какие сообщения выдает парсер.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: И вновь продолжается бой

Сообщение kashim 16 май 2013, 23:25

А еще вопрос, как правильно теперь отсеять дубли. Смущает то, что результат разбился на несколько частей.
Почистить отдельно каждый файл, потом слепить оставшееся вместе и снова почистить?
kashim
 
Сообщений: 10
Зарегистрирован: 14 фев 2013, 23:44

Re: И вновь продолжается бой

Сообщение XseoN Founder 17 май 2013, 10:55

kashim писал(а):А еще вопрос, как правильно теперь отсеять дубли. Смущает то, что результат разбился на несколько частей.
Почистить отдельно каждый файл, потом слепить оставшееся вместе и снова почистить?

Все верно, только не забудьте, ОБЯЗАТЕЛЬНО сначала надо удалить дубли строк, а затем доменов.
Видео
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: И вновь продолжается бой

Сообщение alexeisp 21 май 2013, 09:59

В общем отписываюсь о парсинге Яндекса с использованием разбивки по дням:
1. Посмотрел обучающее видео.
2. Взял слово
3. Взял признак
4. Составил шаблон (стер из прошлого упоминания дат, как в видео)
5. Все собрал в кучу и запустил парсер.
6. Полторы суток парсер пахал не переставая.
7. В итоге было спарсено чуть более 4кк ссылок и затрачено 18 каптч.
8. Счастью небыло предела.
9. Начал отсеивать дубли.
10. После отсева дублей осталось 998 (!) уникальных домена
11. Печаль и слезы за потраченное время.
Вывод: Разбивка по датам в Яндексе НЕ работает.
alexeisp
 
Сообщений: 17
Зарегистрирован: 07 дек 2012, 13:29

Re: И вновь продолжается бой

Сообщение XseoN Founder 21 май 2013, 15:20

После отсева дублей осталось 998 (!) уникальных домена

Очень странный результат, парсер спарсил 4 млн. ссылок, при парсинге попутно парсятся различные движки, не только те, которые мы ищем, и из 4 млн. ссылок выход всего 900+ уник. доменов?!

Разбивка по датам в Яндексе НЕ работает


На видео видно, как используя одно слово и один запрос мы получили 10К ссылок нужного нам движка, если бы разбивка на временные интервалы не работала, получили бы от силы ссылок 300-400 с данного одиночного запроса.
Видимо у Вас был узконаправленный запрос, по которому в индексе Яндекс очень немного ссылок.
Пришлите признак, который вы использовали, слово и какой задавали временной интервал - на decontent@gmail.com, проверим.
Задание временного интервала в поисковом запросе - это официальный параметр, который можно задать в доп. параметрах поиска Яндекс.

---UPD---

Сделали демонстрацию эффективности использования разбиения запросов на временные интервалы
ВИДЕО
Пояснение к видео:
1. Взяли признак движка PHPBB
Код: выделить все
Powered by PHPBB

2. Выключили опцию использования словаря, таким образом мы используем запрос, состоящий только из признака;
3. Спарсили выдачу Яндекс без использования опции разбиения запроса на временные интервалы;
4. После удаления всех дублей получили 900+ уникальных доменов;
5. Проделали все то же самое, но с разбиением нашего единственного запроса на временные интервалы, длительностью 1 месяц;
6. После удаления всех дублей получили 20000+ уникальных доменов, ЧТО в 20 РАЗ превышает первый результат парсинга

ВЫВОД
Использование разбиения поискового запроса для Яндекс работает!
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: И вновь продолжается бой

Сообщение XseoN Founder 22 май 2013, 03:09

alexeisp, спасибо за присланные данные Вашего парсинга, озвучу их:
слово:
Код: выделить все
регистрация

Код: выделить все
признак: inurl:"index.php?do=register"

шаблон:
Код: выделить все
/yandsearch?date=&text=[query]&site=&rstr=&zone=all&wordforms=all&lang=all&within=0&mime=all&numdoc=50&lr=10000

период:
Код: выделить все
1 день с 1 января 2000 по умолчанию по 19 мая 2013

результат 4+кк спарсенных ссылок, 900+ уникальных доменов

Мы спарсили со следующими данными:
слово:
Код: выделить все
регистрация

Код: выделить все
признак: inurl:index.php?do=register

шаблон:
Код: выделить все
/yandsearch?date=&text=[query]&site=&rstr=&zone=all&wordforms=all&lang=all&within=777&mime=all&numdoc=50&lr=10000

период:
Код: выделить все
1 день с 1 января 2013 по 19 мая 2013

результат 10+к спарсенных ссылок, 2,2+к уникальных доменов
Скрины:
Разбивка на временные интервалы
Результат парсинга
Удаление дублей строк
Удаление дублей доменов

Различия в исходных данных:
1.
alexeisp парсил выдачу Яндекс с 2000г. по 2013г (161 месяц)
мы парсили выдачу Яндекс за текущий год (5 месяцев)
2.
Различие в параметре within
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

След.

Вернуться в Юзабилити

Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1