За последние 24 часа нас посетили 22338 программистов и 1027 роботов. Сейчас ищут 676 программистов ...

Нестандартный парсинг Ютуб

Тема в разделе "PHP Free-Lance", создана пользователем John88, 2 дек 2016.

  1. John88

    John88 Новичок

    С нами с:
    2 дек 2016
    Сообщения:
    6
    Симпатии:
    0
    Здравствуйте.

    Задача:
    Нужен парсер видео из Ютуб по API, по ключевому слову, или названию канала. Результаты парсинга нужно складывать в csv/txt файл в таком виде:

    ключевое слово| название видео| код видео плеера | картинка видео | описание видео|

    Нужно спарсить большую базу роликов. Более 1 000 000

    Вопросы:
    1. Реально ли такое сделать на PHP
    2. Как долго будет проходить парсинг? (Час/сутки/день/неделя?)
    3. Сколько примерно будет стоить такой скрипт если заказать на фрилансе?
    4. Что нужно еще учесть при составлении ТЗ програмеру?

    Спасибо
     
  2. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.410
    Симпатии:
    1.768
    1. реально, чо б нет. Нужно купить несколько подсетей IP адресов и забить писюн на то, что гугель будет активно подбанивать ваших ботов.

    2. Зависит от колличества одновременных запросов. Т.е. тупо от бабла на мощности и IP ёмкости.
    - Доктор, я буду ходить?
    - Под себя - будете.

    3. Сто тыщ мульёнов. Не в скрипте дело, а в инфраструктуре. Скрипт-то простой как палка.

    4. Программеру хорошо будет учесть вашу платёжоспособность и бюджет на всё мероприятие. Только одним программером вы не оберётесь тут однозначно.
     
  3. John88

    John88 Новичок

    С нами с:
    2 дек 2016
    Сообщения:
    6
    Симпатии:
    0
    Что еще понадобится помимо скрипта? Можно поподробнее этот момент. Как правильно сформулировать ТЗ для кодера?
     
  4. denis01

    denis01 Суперстар
    Команда форума Модератор

    С нами с:
    9 дек 2014
    Сообщения:
    12.230
    Симпатии:
    1.715
    Адрес:
    Молдова, г.Кишинёв
    какие входные данные, формат этих данных, откуда брать и какие данные брать, какие в результате данные получить и в каком формате выдать результат и какой
     
  5. John88

    John88 Новичок

    С нами с:
    2 дек 2016
    Сообщения:
    6
    Симпатии:
    0
    На входе - список ключевых слов.
    В процессе парсинга скрипт по каждому ключу собирает видео с 2-3 страниц поиска ютуба
    Каждое видео нужно записать в формате:
    ключевое слово| название видео| код видео плеера | картинка видео | описание видео|
    все это сохранить или в csv или txt.
    Видео нужно много > 1кк нужна база.
    как это все собрать в грамотное ТЗ?
     
  6. neverlose

    neverlose Активный пользователь

    С нами с:
    27 авг 2008
    Сообщения:
    1.112
    Симпатии:
    20
    Доброго времени суток!

    1. Реально ли такое сделать на PHP
    Да, более того, можно сказать PHP идеально подходит для данной задачи.

    2. Как долго будет проходить парсинг? (Час/сутки/день/неделя?)
    Пусть в среднем один запрос к API + парсинг и сохранение занимает 5 секунд (для удобства расчётов).
    Тогда считаем.
    При условии, что апи отдаёт за раз 20 результатов, то за одну минуту работы, один скрипт сохранит порядка 20 * 12 (240 видео).
    Допустим ресурсы сервера позволяют запустить без сбоев порядка 100 потоков.
    это значит что за одну минуту можно собрать информацию аж до 24 тыс. видео.
    Итого получается 1000000/24000 - значит общее время составит порядка 42 минут.

    3. Сколько примерно будет стоить такой скрипт если заказать на фрилансе?
    Думаю, это нужно Вам спросить у них. Я не могу этого знать.

    4. Что нужно еще учесть при составлении ТЗ програмеру?
    Всего не учесть, но можно описать многое:
    Откуда брать исходные данные и в каком виде они хранятся (слова-запросы, названия каналов и т.п. - это текстовый файл или что?),
    как различать канал это или текстовый запрос
    Как Вам уже сказали - подобные сканирования (парсинги) банят по ип. По этому нужно использовать прокси. Желательно на каждый отдельный запрос другой прокси. Пусть, со временем, они будут повторяться до 20 раз. Тогда Вам хватит пула из 1000000/20 = 50000 прокси.
    Это дело где-то можно приобрести. Сам не покупал никогда, но подобным парсингом заниматься приходилось по работе.
     
    John88 нравится это.
  7. John88

    John88 Новичок

    С нами с:
    2 дек 2016
    Сообщения:
    6
    Симпатии:
    0
    @neverlose спасибо за пояснения, теперь все более менее понятно.
     
  8. denis01

    denis01 Суперстар
    Команда форума Модератор

    С нами с:
    9 дек 2014
    Сообщения:
    12.230
    Симпатии:
    1.715
    Адрес:
    Молдова, г.Кишинёв
    это ссылка на что или файл? вот такие мелочи лучше указать

    надо учесть что названия бывают у одного видео на разных языках, такое раньше было

    надо этот список вписывать вручную или загрузить текстовый файл в котором новое ключевое слово или фраза будет на новой строке?

    и всё в таком духе, можно с разработчиком вместе составить ТЗ, бывает кто-то берёт за это деньги кто-то нет,
    работайте через фриланс биржу с защитой сделки или гаранта, для этого нужно ТЗ
     
    John88 нравится это.
  9. John88

    John88 Новичок

    С нами с:
    2 дек 2016
    Сообщения:
    6
    Симпатии:
    0
    Подскажите еще момент по поводу самого процесса парсинга - нужен обязательно vds, если да, то насколько мощный для комфорной работы?
    Можно ли парсить с локального сервера например Open Server?
     
  10. MouseZver

    MouseZver Суперстар

    С нами с:
    1 апр 2013
    Сообщения:
    7.745
    Симпатии:
    1.319
    Адрес:
    Лень
    у меня есть такой монстр. Но он парсил у ютюберов просмотры, подписчиков, описание, иконка
     
  11. denis01

    denis01 Суперстар
    Команда форума Модератор

    С нами с:
    9 дек 2014
    Сообщения:
    12.230
    Симпатии:
    1.715
    Адрес:
    Молдова, г.Кишинёв
    в теории и vds за 5-10 долларов в месяц хватит или просто запускать у себя на компьютере
     
    John88 нравится это.
  12. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.410
    Симпатии:
    1.768
    если не торопиться, то можно конечно и на локальном. но гугель подбанивает, подбанивает.
     
    John88 нравится это.