Здравствуйте. Задача: Нужен парсер видео из Ютуб по API, по ключевому слову, или названию канала. Результаты парсинга нужно складывать в csv/txt файл в таком виде: ключевое слово| название видео| код видео плеера | картинка видео | описание видео| Нужно спарсить большую базу роликов. Более 1 000 000 Вопросы: 1. Реально ли такое сделать на PHP 2. Как долго будет проходить парсинг? (Час/сутки/день/неделя?) 3. Сколько примерно будет стоить такой скрипт если заказать на фрилансе? 4. Что нужно еще учесть при составлении ТЗ програмеру? Спасибо
1. реально, чо б нет. Нужно купить несколько подсетей IP адресов и забить писюн на то, что гугель будет активно подбанивать ваших ботов. 2. Зависит от колличества одновременных запросов. Т.е. тупо от бабла на мощности и IP ёмкости. - Доктор, я буду ходить? - Под себя - будете. 3. Сто тыщ мульёнов. Не в скрипте дело, а в инфраструктуре. Скрипт-то простой как палка. 4. Программеру хорошо будет учесть вашу платёжоспособность и бюджет на всё мероприятие. Только одним программером вы не оберётесь тут однозначно.
Что еще понадобится помимо скрипта? Можно поподробнее этот момент. Как правильно сформулировать ТЗ для кодера?
какие входные данные, формат этих данных, откуда брать и какие данные брать, какие в результате данные получить и в каком формате выдать результат и какой
На входе - список ключевых слов. В процессе парсинга скрипт по каждому ключу собирает видео с 2-3 страниц поиска ютуба Каждое видео нужно записать в формате: ключевое слово| название видео| код видео плеера | картинка видео | описание видео| все это сохранить или в csv или txt. Видео нужно много > 1кк нужна база. как это все собрать в грамотное ТЗ?
Доброго времени суток! 1. Реально ли такое сделать на PHP Да, более того, можно сказать PHP идеально подходит для данной задачи. 2. Как долго будет проходить парсинг? (Час/сутки/день/неделя?) Пусть в среднем один запрос к API + парсинг и сохранение занимает 5 секунд (для удобства расчётов). Тогда считаем. При условии, что апи отдаёт за раз 20 результатов, то за одну минуту работы, один скрипт сохранит порядка 20 * 12 (240 видео). Допустим ресурсы сервера позволяют запустить без сбоев порядка 100 потоков. это значит что за одну минуту можно собрать информацию аж до 24 тыс. видео. Итого получается 1000000/24000 - значит общее время составит порядка 42 минут. 3. Сколько примерно будет стоить такой скрипт если заказать на фрилансе? Думаю, это нужно Вам спросить у них. Я не могу этого знать. 4. Что нужно еще учесть при составлении ТЗ програмеру? Всего не учесть, но можно описать многое: Откуда брать исходные данные и в каком виде они хранятся (слова-запросы, названия каналов и т.п. - это текстовый файл или что?), как различать канал это или текстовый запрос Как Вам уже сказали - подобные сканирования (парсинги) банят по ип. По этому нужно использовать прокси. Желательно на каждый отдельный запрос другой прокси. Пусть, со временем, они будут повторяться до 20 раз. Тогда Вам хватит пула из 1000000/20 = 50000 прокси. Это дело где-то можно приобрести. Сам не покупал никогда, но подобным парсингом заниматься приходилось по работе.
это ссылка на что или файл? вот такие мелочи лучше указать надо учесть что названия бывают у одного видео на разных языках, такое раньше было надо этот список вписывать вручную или загрузить текстовый файл в котором новое ключевое слово или фраза будет на новой строке? и всё в таком духе, можно с разработчиком вместе составить ТЗ, бывает кто-то берёт за это деньги кто-то нет, работайте через фриланс биржу с защитой сделки или гаранта, для этого нужно ТЗ
Подскажите еще момент по поводу самого процесса парсинга - нужен обязательно vds, если да, то насколько мощный для комфорной работы? Можно ли парсить с локального сервера например Open Server?