Цитата:
|
Сообщение от [b
Цитата[/b] (benzole @ Мар 21 2006,04:40)]Скока трафа сьедает при юзании через серверный скрипт?
|
cейчас посмотрел.
За ночь ушел 1гб траффа, проспамив 50к гостевых при коннекте 128кбит. в 40 потоков.
те проспамил 10 доров по 5к базе.
Причем это я делал в режиме
из Сonfiguration.txt:
HTTPCacheUnsafe=0
PostTaskRetries=5
GetCompressedPerURLConnectionLimit=100
из админки: Cashing:Auto.
Объясняю:
Изменяя настройки в админке и Сonfiguration.txt можно варьировать между использованием траффика/пробиваемостью/cкоростью
Подробнее:
PostTaskRetries=5
(если страница при постинге отдает ошибку 404, 500, таймаут, еще че- нить, то скрипт пытается запостить еще 4 раза, каждый раз под разным проксиком- удобно если на странице клоакинг, либо некоторые прокси забанены на гостевой)
*Если уменьшить параметр, трафф будет жраться меньше
В режиме Cashing

n (админка)
страницы перед постингом в каждый урл не анализируются, а берутся из кэша, который накопился при прошедших постингах. Но в отличие от плюсов этого режима: хорошей скорости и меньшей потребляемости траффа, есть минусы: пробиваемость, потому что есть гостевые с обновляемыми формами, в которую чтоб запостить надо загружать страничку каждый раз, правда радует что вообщем немного их встречается.
Сashing:Auto
В этом умном режиме одновременно при постинге страницы анализируются на наличие форм, на возможность постинга в данную гостевую. Если форма меняется, выкачивается страница заново, если форма в гостевой не изменилась со времени предудщего постинга, то результаты анализа берутся из кэша. Если куки- то лучше Auto.
Оптимальный вариант- собрав базу запостить ее один раз в режиме Сashing:Auto, и последующие несколько раз постить в режиме Cashing

n, так и трафф экономится, и спамится очень быстро, потому что обычно на скачивание страницы+анализ форм уходит много траффа и ресурсов.
Те в режиме cashing

n прога просто посылает post гостевой+получает ответ сервера.
Насчет сжимающего "прокси" скрипта на серваке:
По методу GET через него страницы с формами загружаются, сжимаются gzipom и отправляются на комп пользователя со спамилкой для дальнейшего анализа и постинга. Но далеко не все гостевые можно кэшировать с помощью этого удаленного скрипта, только "беззащитные", скрипт автоматически определяет с защитой гостевая или нет.
Пример: yysbi.cgi закешировала через PHP прокси-cкрипт, в сжатом виде и через прокси пропостила.
А для WebWiz с session id <input hidden>, поняла, что кэшировать нельзя, И через прокси в списке выкачала страницу и запостила.
GetCompressedPerURLConnectionLimit=100
(кол-во одновременных запросов к удаленному скрипту)
Удаленный этот PHP скрипт(GetCompressed.php) содержит в себе 118 cтрок кода, ставится на любой хостинг, поддерживающий PHP. Я например нашел пару хостингов без рекламы, поддерживающие PHP, чтобы в лишний раз не нагружать свой VDS. Опять же желательно чтоб хостинг, куда класть этот скрипт собираешься находился поближе к тебе. Например если живешь в СНГ, а фрихостинг где сжимающий скрипт- в Пенсильвании, естессно скорость увеличится, если поставить скрипт ближе. Акцентирую на этом внимание, потому что перенеся скрипт со своего ВДСа в Россию, общая скорость при постинге в 1.7 раз увеличилась, причем сам живу я не в России.
P.S Прокси с сайтов парсятся тоже через скрипт сжатия.
Далее. Параметр из configuration.txt
HTTPCacheUnsafe=0
(разделение на опасный/безопасный кэш включено)
Здесь решилась проблема, когда можешь спалить свой IP,либо IP cжимающего скрипта при анализе гостевых.
Первый анализ гостевой работает напрямую, не используя прокси, если страница отдала ошибку- последующие попытки (AnalyseTaskRetries=5) используют прокси при парсинге.
В гостевых бывает хидден форма, в которой передается IP <input type=hidden name=ip value=[YourIP]>.
Вообщем при разделении кэша безопасные гостевые анализируются через сжимающий скрипт, либо напрямую, опасные гостевые анализируются через прокси.
те опять же если выставить HTTPCacheUnsafe=1, то траффа меньше будет кушаться.
Вообщем настройки решают.
P.S. Тестил прогу и предлагал идеи для усовершенствования ее, вообщем зачетная штука.
• С самого начала удивился скоростью парсинга. Парсит отлично, парсит все отданные гуглом линки, потому что можно руками ввести сaptcha- код, выдаваемый гуглой. Также здесь, если не собрались все отданные линки, скрипт пытается напарсить урлы с другой прокси(вдруг предыдущая прокся забанена гуглой).
• Ядерной силы фича, с помощью ф- ции Follow можно искать урлы гостевой с формой по ссылкам со страницы(в случае, если напарсил морды гостевых) При этом есть возможность управлять процессом, переходя по ссылкам (c данного хоста/с папки данного хоста/с любого хоста)
В Regular Expressions вводим признаки для распознавания урла с формой поста, например я не заморачивался особо, ввел для теста в столбик:
add
new
post
sign
entry
результатами был поражен честно говоря))
• Есть фича, распознающая гостевые, в которых одинаковые капчи выдаются. Например постоянно просят ввести что то вроде: What color is snow? В режиме набирания руками капчей ты вводишь ответ на вышеуказанный вопрос в капче: white, информация сохраняется в кэш, и теперь когда загружается эта страница в следующий сравнивается капча, показанная в прошлый раз с нынешней, если капчи совпадают то слово в нашем случае snow постится автоматически.
*Капчи прога загружает только тогда, когда вы открываете менюшку с капчами. (закладка View->Captcha)
Насчет программирования и настройки под определенный тип гостевых: думаю если гостевые распространенные и вы плотите за обновления, то мне кажется можно показать автору куда не постит(10-30 линков однотипных гостевых) и он напишет скрипт под данный тип гостевой.