На днях купил базу у Пастухова. Интересовали файлы с данными по ключевикам. Хотел использовать под серые проекты и свои исследования. Во-первых, данные были в 44 rar-файлах (для юникса это смерть, так как с rar там нужно повозиться пол дня для установки). Во-вторых, вытаскивались через запароленную windows-средствами страницу (выскакивало окно с авторизацией). Поэтому пришлось заходить на Windows сервер, вытаскивать вручную данные на него (все 44 файла), перепаковывать и заливать на FreeBSD сервер. В ходе попыток перетащить файлы на целевую систему было потрачено свыше 12Гб трафика и двое суток битья головой с попытками сделать всё правильно. Проблем было дофига.
Нигде (даже у Пастухова) нет формата файлов. А именно, он нигде не описал что указано в полях (только ли цифры (может есть знаки "<", как в примерах с html?), что они означают, на сколько их нужно делить: на 10 или на 100 в случае дробных величин). До этого приходится доходить самому и консультироваться у Макса.
После импорта в MySQL базу оказалось, что описание
Цитата:
Сообщение от [b
Цитата[/b] ]База содержит 44,000,000 (44 миллиона) ключевых слов - запросов в Google с полной информацией по каждому из них: оценка популярности по Overture, WordTracker, Google AdWords, оценка конкуренции по Google Search Engine and Google AdWords, оценка стоимости ключевых слов по Google AdWords.
слабо относится к действительности. Да, в базе ровно 44 млн. кейвордов. Дальше пошли расхождения. Вот маленькое стат. исследование, в котором будет указано количество ключевиков с ненулевыми данными по разным полям:
25М - количество запросов по Овертюре
10М - количество запросов по Вордтрекеру
6.9М - количество запросов и по Овертюре и Вордтрекеру больше нуля
1.6М - количество кликов по Adwords
9М - количество Adwords CPC
16М - количество значений для KEI (индекс конкурентности ключевика)
800 тыс. - все указанные поля ненулевые
Мягко говоря, данные не полны и почти не пригодны для серьёзных исследований. Указанной выше рекламной фразе Пастухова сответствует менее 800 тыс. ключевых фраз. Только для них все указанные мной параметры ненулевые.
P.S. GreenWood и Anatol22, просьба маленькая: прежде чем давать отзыв о продукте для публикации на сайте Пастухова, вы бы хоть посмотрели на базу.
P.P.S. Один бог ведает, откуда Пастухов набрал базу.
P.P.P.S. Продолжаю искать Top500К от Вордтрекера.
__________________
Первым хакером признан Старик, закачавший через сеть особняк, дворянский титул и новое корыто.
Цитата[/b] ]
для юникса это смерть, так как с rar там нужно повозиться пол дня для установки
Покажите мне компутер где portinstall unrar будет выполняться пол дня
Цитата:
Сообщение от [b
Цитата[/b] ]
Во-вторых, вытаскивались через запароленную windows-средствами страницу (выскакивало окно с авторизацией). Поэтому пришлось заходить на Windows сервер, вытаскивать вручную данные на него
Во-первых, никаких "windows-средств" запароливания веб-страничек нет, а во-вторых, ввёл бы в гугле "wget authentification" и не пришлось бы мучиться
Цитата:
Сообщение от [b
Цитата[/b] ]
Нигде (даже у Пастухова) нет формата файлов
Нигде, кроме странички, на которой эта база продаётся, видимо, потому что на ней всё написано.
Цитата:
Сообщение от [b
Цитата[/b] ]
Дальше пошли расхождения
А ты проверял по тем сервисам? Т.е. в них инфа есть, а в базе инфы нет? Что-то не верится. Или в базу должны были вноситься несуществующие данные? )
Сначало в течении 2-х месяцев ддосишь овертюру парся ее в 1000 потоков чтобы набрать 25М запросов
Потом досишь ее уже для того чтобы доргены овертюрные не смогли работать ну еще чтобы через 2 месяца сказать что запросов 60М уже в базке
Следствие - растет спрос на твою базу...
Цитата[/b] ]На днях купил базу у Пастухова. Интересовали файлы с данными по ключевикам. Хотел использовать под серые проекты и свои исследования. Во-первых, данные были в 44 rar-файлах (для юникса это смерть, так как с rar там нужно повозиться пол дня для установки). Во-вторых, вытаскивались через запароленную windows-средствами страницу (выскакивало окно с авторизацией). Поэтому пришлось заходить на Windows сервер, вытаскивать вручную данные на него (все 44 файла), перепаковывать и заливать на FreeBSD сервер. В ходе попыток перетащить файлы на целевую систему было потрачено свыше 12Гб трафика и двое суток битья головой с попытками сделать всё правильно. Проблем было дофига.
1. Специально для юниксоидов на сайте есть те же файлы в zip формате. Зачем Вам понадобилось "тянуть" и перепаковывать рар?
2. Кто просит - получает. Кто просил и дал ftp-логин с паролем, я заливал им файлы прямо на сервер. Почему не попросили Вы?
Цитата:
Сообщение от [b
Цитата[/b] ]Нигде (даже у Пастухова) нет формата файлов. А именно, он нигде не описал что указано в полях (только ли цифры (может есть знаки "<", как в примерах с html?), что они означают, на сколько их нужно делить: на 10 или на 100 в случае дробных величин). До этого приходится доходить самому и консультироваться у Макса.
На Ваши вопросы я ответил?
Цитата:
Сообщение от [b
Цитата[/b] ]25М - количество запросов по Овертюре
10М - количество запросов по Вордтрекеру
6.9М - количество запросов и по Овертюре и Вордтрекеру больше нуля
1.6М - количество кликов по Adwords
9М - количество Adwords CPC
16М - количество значений для KEI (индекс конкурентности ключевика)
800 тыс. - все указанные поля ненулевые
Овертюра = Yahoo! Marketing, данные даются за 1 месяц и обрезаются по цифре "30". То, что меньше 30 запросов в месяц, будет в базе нулями. Но это не нули, а низкочастотники.
WordTracker берет данные с метапоисковиков, которые ЗНАЧИТЕЛЬНО менее популярные чем сайты из Yahoo. Соответственно, еще меньше слов по оценке вордтрекера имеют какие-то клики.
Далее по тексту могу пройтись, если нужно.
Цитата:
Сообщение от [b
Цитата[/b] ]Мягко говоря, данные не полны и почти не пригодны для серьёзных исследований. Указанной выше рекламной фразе Пастухова сответствует менее 800 тыс. ключевых фраз. Только для них все указанные мной параметры ненулевые.
Мягко говоря, Вы не удосужились постучаться ко мне в аську и выяснить все эти вопросы. Лучше грязью на форуме облить, да.
Цитата:
Сообщение от [b
Цитата[/b] ]P.S. GreenWood и Anatol22, просьба маленькая: прежде чем давать отзыв о продукте для публикации на сайте Пастухова, вы бы хоть посмотрели на базу.
У меня более 30 отзывов вида "супер" и "я уже 5-й день от базы оторваться не могу".
Цитата:
Сообщение от [b
Цитата[/b] ]P.P.S. Один бог ведает, откуда Пастухов набрал базу.
К Богу аппелировать смысла нет. Проще у меня спросить. Я отвечу. Правда.
Цитата:
Сообщение от [b
Цитата[/b] ]P.P.P.S. Продолжаю искать Top500К от Вордтрекера.
А он сейчас у меня на рабочем столе лежит. Один из покупателей в "зачет" $100 отдал. По беглому взгляду, процентов 30-40 адалта, процентов 20 мусора. Вообщем, если я сначала думал его в базу "засунуть", то после отказался от этой идеи.
__________________
Базы ключевых слов: английская, русская, итальянская, испанская, немецкая, французская http://www.pastukhov.com/
Ну и вдогонку самое главное: мы базу собираем уже больше года. Первая версия базы была 1 миллион слов. Тех самых, которые имеют все оценки. После этого база росла в основном за счет низкочастотников. Миллионная база стоит ту же цену. Если хотите, я могу Вам заменить товар на "более качественный". Ну то есть тот первый вариант, без низкочастотников.
__________________
Базы ключевых слов: английская, русская, итальянская, испанская, немецкая, французская http://www.pastukhov.com/
Цитата[/b] ]
для юникса это смерть, так как с rar там нужно повозиться пол дня для установки
Покажите мне компутер где portinstall unrar будет выполняться пол дня
Там бага какая-то для Freebsd - требует усчтановки несуществующей библиотеки. Плюс не все спецы в установке портов Freebsd
Цитата:
Сообщение от [b
Цитата[/b] (bolan @ Дек 11 2006,17:00)]
Цитата:
Сообщение от [b
Цитата[/b] ]
Во-вторых, вытаскивались через запароленную windows-средствами страницу (выскакивало окно с авторизацией). Поэтому пришлось заходить на Windows сервер, вытаскивать вручную данные на него
Во-первых, никаких "windows-средств" запароливания веб-страничек нет, а во-вторых, ввёл бы в гугле "wget authentification" и не пришлось бы мучиться
Может быть. Не проверял и не знал о такой возможности + нигде на неё не наталкивался. У меня в Freebsd просто нет команды wget.
Цитата:
Сообщение от [b
Цитата[/b] (bolan @ Дек 11 2006,17:00)]
Цитата:
Сообщение от [b
Цитата[/b] ]
Нигде (даже у Пастухова) нет формата файлов
Нигде, кроме странички, на которой эта база продаётся, видимо, потому что на ней всё написано.
В полях с дробными значениями (Adwords CPC) стоят точки, запятые, ничего не стоит или что-то иное? Если ничего не стоит, то с какой точностью указаны данные? Нет там ничего этого.
Цитата:
Сообщение от [b
Цитата[/b] (bolan @ Дек 11 2006,17:00)]
Цитата:
Сообщение от [b
Цитата[/b] ]
Дальше пошли расхождения
А ты проверял по тем сервисам? Т.е. в них инфа есть, а в базе инфы нет? Что-то не верится. Или в базу должны были вноситься несуществующие данные? )
Мне это без разницы: есть там данные или нет. Я же не проверяю точность данных. Мне важно, чтобы в базе были реально вводимые повторяемые фразы.
__________________
Первым хакером признан Старик, закачавший через сеть особняк, дворянский титул и новое корыто.
Обвинения в сторону Pastukhov - прозвучали как то дешево, скорее это были вопросы с элементами обиды,
надо было в конце добавить, что если я не прав то извеняюсь за наезды, единственное чем я не доволен в пользовании услугами Pastukhov'a это его не внимательность(наверное) )))) - при покупке базы сразу возникли вопросы по работе с ней - и как не странно сразу нашлись обновления под нее, почему сразу эти обновления не были даны - я не допонял ))) - но это не критично, так как получил их незамедлительно - и пока что я всем доволен, единственное в базе достаточное количесвто муссора, от которого в принципе можно легко избавиться, как я понял в след версия все будет подправленно
Цитата[/b] (Max Pastukhov @ Дек 12 2006,05:36)]Ну и вдогонку самое главное: мы базу собираем уже больше года. Первая версия базы была 1 миллион слов. Тех самых, которые имеют все оценки. После этого база росла в основном за счет низкочастотников. Миллионная база стоит ту же цену. Если хотите, я могу Вам заменить товар на "более качественный". Ну то есть тот первый вариант, без низкочастотников.
Макс, в zip формате у Вас только список ключевиков (отсортированный и не отсортированный варианты). Вытаскивал - знаю. Сколько собираете базу - не знаю. Я даю свои впечатления от базы. Заметьте, нигде не обвинял Вас в обмане или нечистоплотности и не просил вернуть деньги.
__________________
Первым хакером признан Старик, закачавший через сеть особняк, дворянский титул и новое корыто.