 |
|
11.12.2006, 18:17
|
#1
|
|
Местный
Регистрация: 12.01.2006
Адрес: Москва
Сообщений: 416
|
На днях купил базу у Пастухова. Интересовали файлы с данными по ключевикам. Хотел использовать под серые проекты и свои исследования. Во-первых, данные были в 44 rar-файлах (для юникса это смерть, так как с rar там нужно повозиться пол дня для установки). Во-вторых, вытаскивались через запароленную windows-средствами страницу (выскакивало окно с авторизацией). Поэтому пришлось заходить на Windows сервер, вытаскивать вручную данные на него (все 44 файла), перепаковывать и заливать на FreeBSD сервер. В ходе попыток перетащить файлы на целевую систему было потрачено свыше 12Гб трафика и двое суток битья головой с попытками сделать всё правильно. Проблем было дофига.
Нигде (даже у Пастухова) нет формата файлов. А именно, он нигде не описал что указано в полях (только ли цифры (может есть знаки "<", как в примерах с html?), что они означают, на сколько их нужно делить: на 10 или на 100 в случае дробных величин). До этого приходится доходить самому и консультироваться у Макса.
После импорта в MySQL базу оказалось, что описание
Цитата:
|
Сообщение от [b
Цитата[/b] ]База содержит 44,000,000 (44 миллиона) ключевых слов - запросов в Google с полной информацией по каждому из них: оценка популярности по Overture, WordTracker, Google AdWords, оценка конкуренции по Google Search Engine and Google AdWords, оценка стоимости ключевых слов по Google AdWords.
|
слабо относится к действительности. Да, в базе ровно 44 млн. кейвордов. Дальше пошли расхождения. Вот маленькое стат. исследование, в котором будет указано количество ключевиков с ненулевыми данными по разным полям:
25М - количество запросов по Овертюре
10М - количество запросов по Вордтрекеру
6.9М - количество запросов и по Овертюре и Вордтрекеру больше нуля
1.6М - количество кликов по Adwords
9М - количество Adwords CPC
16М - количество значений для KEI (индекс конкурентности ключевика)
800 тыс. - все указанные поля ненулевые
Мягко говоря, данные не полны и почти не пригодны для серьёзных исследований. Указанной выше рекламной фразе Пастухова сответствует менее 800 тыс. ключевых фраз. Только для них все указанные мной параметры ненулевые.
P.S. GreenWood и Anatol22, просьба маленькая: прежде чем давать отзыв о продукте для публикации на сайте Пастухова, вы бы хоть посмотрели на базу.
P.P.S. Один бог ведает, откуда Пастухов набрал базу.
P.P.P.S. Продолжаю искать Top500К от Вордтрекера.
__________________
Первым хакером признан Старик, закачавший через сеть особняк, дворянский титул и новое корыто.
|
|
|
11.12.2006, 19:00
|
#2
|
|
Местный
Регистрация: 08.08.2006
Сообщений: 191
|
Цитата:
|
Сообщение от [b
Цитата[/b] ]
для юникса это смерть, так как с rar там нужно повозиться пол дня для установки
|
Покажите мне компутер где portinstall unrar будет выполняться пол дня
Цитата:
|
Сообщение от [b
Цитата[/b] ]
Во-вторых, вытаскивались через запароленную windows-средствами страницу (выскакивало окно с авторизацией). Поэтому пришлось заходить на Windows сервер, вытаскивать вручную данные на него
|
Во-первых, никаких "windows-средств" запароливания веб-страничек нет, а во-вторых, ввёл бы в гугле "wget authentification" и не пришлось бы мучиться
Цитата:
|
Сообщение от [b
Цитата[/b] ]
Нигде (даже у Пастухова) нет формата файлов
|
Нигде, кроме странички, на которой эта база продаётся, видимо, потому что на ней всё написано.
Цитата:
|
Сообщение от [b
Цитата[/b] ]
Дальше пошли расхождения
|
А ты проверял по тем сервисам? Т.е. в них инфа есть, а в базе инфы нет? Что-то не верится. Или в базу должны были вноситься несуществующие данные? )
|
|
|
12.12.2006, 02:08
|
#3
|
|
Местный
Регистрация: 26.03.2006
Сообщений: 304
|
Сначало в течении 2-х месяцев ддосишь овертюру парся ее в 1000 потоков чтобы набрать 25М запросов
Потом досишь ее уже для того чтобы доргены овертюрные не смогли работать  ну еще чтобы через 2 месяца сказать что запросов 60М уже в базке 
Следствие - растет спрос на твою базу...
P.S. сори за оффтоп, ничего личного...
|
|
|
12.12.2006, 07:25
|
#4
|
|
Пользователь
Регистрация: 26.11.2006
Адрес: Севастополь
Сообщений: 59
|
Цитата:
|
Сообщение от [b
Цитата[/b] ]На днях купил базу у Пастухова. Интересовали файлы с данными по ключевикам. Хотел использовать под серые проекты и свои исследования. Во-первых, данные были в 44 rar-файлах (для юникса это смерть, так как с rar там нужно повозиться пол дня для установки). Во-вторых, вытаскивались через запароленную windows-средствами страницу (выскакивало окно с авторизацией). Поэтому пришлось заходить на Windows сервер, вытаскивать вручную данные на него (все 44 файла), перепаковывать и заливать на FreeBSD сервер. В ходе попыток перетащить файлы на целевую систему было потрачено свыше 12Гб трафика и двое суток битья головой с попытками сделать всё правильно. Проблем было дофига.
|
1. Специально для юниксоидов на сайте есть те же файлы в zip формате. Зачем Вам понадобилось "тянуть" и перепаковывать рар?
2. Кто просит - получает. Кто просил и дал ftp-логин с паролем, я заливал им файлы прямо на сервер. Почему не попросили Вы?
Цитата:
|
Сообщение от [b
Цитата[/b] ]Нигде (даже у Пастухова) нет формата файлов. А именно, он нигде не описал что указано в полях (только ли цифры (может есть знаки "<", как в примерах с html?), что они означают, на сколько их нужно делить: на 10 или на 100 в случае дробных величин). До этого приходится доходить самому и консультироваться у Макса.
|
На Ваши вопросы я ответил?
Цитата:
|
Сообщение от [b
Цитата[/b] ]25М - количество запросов по Овертюре
10М - количество запросов по Вордтрекеру
6.9М - количество запросов и по Овертюре и Вордтрекеру больше нуля
1.6М - количество кликов по Adwords
9М - количество Adwords CPC
16М - количество значений для KEI (индекс конкурентности ключевика)
800 тыс. - все указанные поля ненулевые
|
Овертюра = Yahoo! Marketing, данные даются за 1 месяц и обрезаются по цифре "30". То, что меньше 30 запросов в месяц, будет в базе нулями. Но это не нули, а низкочастотники.
WordTracker берет данные с метапоисковиков, которые ЗНАЧИТЕЛЬНО менее популярные чем сайты из Yahoo. Соответственно, еще меньше слов по оценке вордтрекера имеют какие-то клики.
Далее по тексту могу пройтись, если нужно.
Цитата:
|
Сообщение от [b
Цитата[/b] ]Мягко говоря, данные не полны и почти не пригодны для серьёзных исследований. Указанной выше рекламной фразе Пастухова сответствует менее 800 тыс. ключевых фраз. Только для них все указанные мной параметры ненулевые.
|
Мягко говоря, Вы не удосужились постучаться ко мне в аську и выяснить все эти вопросы. Лучше грязью на форуме облить, да.
Цитата:
|
Сообщение от [b
Цитата[/b] ]P.S. GreenWood и Anatol22, просьба маленькая: прежде чем давать отзыв о продукте для публикации на сайте Пастухова, вы бы хоть посмотрели на базу.
|
У меня более 30 отзывов вида "супер" и "я уже 5-й день от базы оторваться не могу".
Цитата:
|
Сообщение от [b
Цитата[/b] ]P.P.S. Один бог ведает, откуда Пастухов набрал базу.
|
К Богу аппелировать смысла нет. Проще у меня спросить. Я отвечу. Правда.
Цитата:
|
Сообщение от [b
Цитата[/b] ]P.P.P.S. Продолжаю искать Top500К от Вордтрекера.
|
А он сейчас у меня на рабочем столе лежит. Один из покупателей в "зачет" $100 отдал. По беглому взгляду, процентов 30-40 адалта, процентов 20 мусора. Вообщем, если я сначала думал его в базу "засунуть", то после отказался от этой идеи.
__________________
Базы ключевых слов: английская, русская, итальянская, испанская, немецкая, французская
http://www.pastukhov.com/
|
|
|
12.12.2006, 07:36
|
#5
|
|
Пользователь
Регистрация: 26.11.2006
Адрес: Севастополь
Сообщений: 59
|
Ну и вдогонку самое главное: мы базу собираем уже больше года. Первая версия базы была 1 миллион слов. Тех самых, которые имеют все оценки. После этого база росла в основном за счет низкочастотников. Миллионная база стоит ту же цену. Если хотите, я могу Вам заменить товар на "более качественный". Ну то есть тот первый вариант, без низкочастотников.
__________________
Базы ключевых слов: английская, русская, итальянская, испанская, немецкая, французская
http://www.pastukhov.com/
|
|
|
12.12.2006, 08:07
|
#6
|
|
Местный
Регистрация: 23.08.2004
Адрес: Живу в горах, албанский знаю
Сообщений: 819
|
Тут работает принцип не нравится не берите. Я не брал, т.к. не нуждаюсь, но видно что люди работают, а вы тут хамством отвечаете.
|
|
|
12.12.2006, 08:17
|
#7
|
|
Местный
Регистрация: 12.01.2006
Адрес: Москва
Сообщений: 416
|
Цитата:
|
Сообщение от [b
Цитата[/b] (bolan @ Дек 11 2006,17:00)]
Цитата:
|
Сообщение от [b
Цитата[/b] ]
для юникса это смерть, так как с rar там нужно повозиться пол дня для установки
|
Покажите мне компутер где portinstall unrar будет выполняться пол дня 
|
Там бага какая-то для Freebsd - требует усчтановки несуществующей библиотеки. Плюс не все спецы в установке портов Freebsd
Цитата:
|
Сообщение от [b
Цитата[/b] (bolan @ Дек 11 2006,17:00)]
Цитата:
|
Сообщение от [b
Цитата[/b] ]
Во-вторых, вытаскивались через запароленную windows-средствами страницу (выскакивало окно с авторизацией). Поэтому пришлось заходить на Windows сервер, вытаскивать вручную данные на него
|
Во-первых, никаких "windows-средств" запароливания веб-страничек нет, а во-вторых, ввёл бы в гугле "wget authentification" и не пришлось бы мучиться 
|
Может быть. Не проверял и не знал о такой возможности + нигде на неё не наталкивался. У меня в Freebsd просто нет команды wget.
Цитата:
|
Сообщение от [b
Цитата[/b] (bolan @ Дек 11 2006,17:00)]
Цитата:
|
Сообщение от [b
Цитата[/b] ]
Нигде (даже у Пастухова) нет формата файлов
|
Нигде, кроме странички, на которой эта база продаётся, видимо, потому что на ней всё написано.
|
В полях с дробными значениями (Adwords CPC) стоят точки, запятые, ничего не стоит или что-то иное? Если ничего не стоит, то с какой точностью указаны данные? Нет там ничего этого.
Цитата:
|
Сообщение от [b
Цитата[/b] (bolan @ Дек 11 2006,17:00)]
Цитата:
|
Сообщение от [b
Цитата[/b] ]
Дальше пошли расхождения
|
А ты проверял по тем сервисам? Т.е. в них инфа есть, а в базе инфы нет? Что-то не верится. Или в базу должны были вноситься несуществующие данные? )
|
Мне это без разницы: есть там данные или нет. Я же не проверяю точность данных. Мне важно, чтобы в базе были реально вводимые повторяемые фразы.
__________________
Первым хакером признан Старик, закачавший через сеть особняк, дворянский титул и новое корыто.
|
|
|
12.12.2006, 08:26
|
#8
|
Регистрация: 31.10.2006
Сообщений: 21
|
Обвинения в сторону Pastukhov - прозвучали как то дешево, скорее это были вопросы с элементами обиды,
надо было в конце добавить, что если я не прав то извеняюсь за наезды, единственное чем я не доволен в пользовании услугами Pastukhov'a это его не внимательность(наверное) )))) - при покупке базы сразу возникли вопросы по работе с ней - и как не странно сразу нашлись обновления под нее, почему сразу эти обновления не были даны - я не допонял ))) - но это не критично, так как получил их незамедлительно - и пока что я всем доволен, единственное в базе достаточное количесвто муссора, от которого в принципе можно легко избавиться, как я понял в след версия все будет подправленно
|
|
|
12.12.2006, 08:27
|
#9
|
|
Местный
Регистрация: 12.01.2006
Адрес: Москва
Сообщений: 416
|
Цитата:
|
Сообщение от [b
Цитата[/b] (Max Pastukhov @ Дек 12 2006,05:36)]Ну и вдогонку самое главное: мы базу собираем уже больше года. Первая версия базы была 1 миллион слов. Тех самых, которые имеют все оценки. После этого база росла в основном за счет низкочастотников. Миллионная база стоит ту же цену. Если хотите, я могу Вам заменить товар на "более качественный". Ну то есть тот первый вариант, без низкочастотников.
|
Макс, в zip формате у Вас только список ключевиков (отсортированный и не отсортированный варианты). Вытаскивал - знаю. Сколько собираете базу - не знаю. Я даю свои впечатления от базы. Заметьте, нигде не обвинял Вас в обмане или нечистоплотности и не просил вернуть деньги.
__________________
Первым хакером признан Старик, закачавший через сеть особняк, дворянский титул и новое корыто.
|
|
|
12.12.2006, 08:31
|
#10
|
|
Местный
Регистрация: 12.01.2006
Адрес: Москва
Сообщений: 416
|
Цитата:
|
Сообщение от [b
Цитата[/b] (ArOn @ Дек 12 2006,06:26)]Обвинения в сторону Pastukhov...
|
Это не обвинения. Это статистика по базе и мои впечатления от двухдневного гемороя с доставкой базы до MySQL в Freebsd.
__________________
Первым хакером признан Старик, закачавший через сеть особняк, дворянский титул и новое корыто.
|
|
|
|
|