За последние 24 часа нас посетили 20886 программистов и 1672 робота. Сейчас ищут 1106 программистов ...

Типо бота сделать :)

Тема в разделе "PHP Free-Lance", создана пользователем Maxer, 18 мар 2007.

  1. Maxer

    Maxer Активный пользователь

    С нами с:
    22 окт 2006
    Сообщения:
    93
    Симпатии:
    0
    Вот что мне надо.

    Скрипт бота, который сканит сайты и копирует их содержание.

    url'ы сайтов будут храниться в бд, в отдельной таблице.

    Код (Text):
    1.  
    2. CREATE TABLE `sites` (
    3.   `id` int(11) NOT NULL auto_increment,
    4.   `site_url` varchar(100) NOT NULL default '',
    5.   PRIMARY KEY  (`id`)
    6. ) ENGINE=MyISAM DEFAULT CHARSET=cp1251 AUTO_INCREMENT=31 ;
    Основная задача скопировать содержание всех страниц к в бд. примерно так:
    Код (Text):
    1.  
    2. --
    3. -- Структура таблицы `sites_index`
    4. --
    5.  
    6. CREATE TABLE `sites_index` (
    7.   `site_id` varchar(10) NOT NULL default '',
    8.   `page_u` varchar(10) NOT NULL,
    9.   `page_url` text NOT NULL,
    10.   `title` text NOT NULL,
    11.   `content` text NOT NULL,
    12.   `internal_links` text NOT NULL
    13. ) ENGINE=MyISAM DEFAULT CHARSET=cp1251;

    site_id - все понятно.
    page_u - уровень данной страници. ПАРСИНГ ИДЕТ ДО 4Х УРОВНЕЙ!
    page_url - текущий url пропарсеной страници.
    title - заголовок этой страници, если его нет, то подставляется url.
    content - весь контент страници, без html тегов.
    потом сразу идет список внешних ссылок. после основного контента.

    internal_links - это ссылки на внтутренные страници. (чТОБЫ БРАТЬ ИНФУ И ДАЛЬШЕ ИНДЕКСИТЬ)

    ваще скоко это стоит?[/code]
     
  2. Amian

    Amian Активный пользователь

    С нами с:
    15 мар 2007
    Сообщения:
    189
    Симпатии:
    0
    Я похожий скрипт писал недавно, баксов в 150 тебе это обойдётся.
     
  3. Belegnar

    Belegnar Активный пользователь

    С нами с:
    11 фев 2006
    Сообщения:
    299
    Симпатии:
    0
    Это ж почем час работы? :)
     
  4. Amian

    Amian Активный пользователь

    С нами с:
    15 мар 2007
    Сообщения:
    189
    Симпатии:
    0
    Как говорил Пикассо - цена исходит из времени,потраченном на обучение,а не из времени,потраченном на разработку :) А цену я сказал практично, с учётом "торга" + мелких деталей,которые всплывают позже.Если сказать что возмёшь 10$ то ито с тебя будут пытаться выторговать "скидку" и останутся недовольными если не сделаешь,а если скажешь 150 и потом сделаешь скидку в $50,то еще и довольным клиент останется. Самое главное маркетинговый подход и психология ;)))
     
  5. Belegnar

    Belegnar Активный пользователь

    С нами с:
    11 фев 2006
    Сообщения:
    299
    Симпатии:
    0
    Строго говоря, задача и стоит 10 баксов. :)
     
  6. Amian

    Amian Активный пользователь

    С нами с:
    15 мар 2007
    Сообщения:
    189
    Симпатии:
    0
    Наверное :) Я не знаю здешних расценок :p
     
  7. Maxer

    Maxer Активный пользователь

    С нами с:
    22 окт 2006
    Сообщения:
    93
    Симпатии:
    0
    Belegnar, вы готовы за 10 сделать? :)

    Amian, интересна скорость работы скрипта и
    минимальные нагрузки на системные ресурсы.

    сколько примерно будет уходить на сайт, если там 1500 страниц по 40кб(ну если все теги снять, то все 3кб будет)?
     
  8. Amian

    Amian Активный пользователь

    С нами с:
    15 мар 2007
    Сообщения:
    189
    Симпатии:
    0
    Узкое место - connection, за сколько установит 1500 соединений и скачает 60мб, примерно за столько и выполнит.Если все страницы сканить до 4го уровня,то нужно умножить на 4 само собой ,а убирание тэгов происходит только после скачивания всего содержимого странички.
     
  9. Maxer

    Maxer Активный пользователь

    С нами с:
    22 окт 2006
    Сообщения:
    93
    Симпатии:
    0
    ну про теги-то понятно не в воздухе же.
    а нагрузка на сервер?
     
  10. Amian

    Amian Активный пользователь

    С нами с:
    15 мар 2007
    Сообщения:
    189
    Симпатии:
    0
    Самая большая нагрузка от открытия соединений,остальное можно не брать в расчет.
     
  11. Maxer

    Maxer Активный пользователь

    С нами с:
    22 окт 2006
    Сообщения:
    93
    Симпатии:
    0
    он то не будет сразу открывать 1500 соединений?
    надо постепенно же. ( а то еще за DDOs примут) :)
     
  12. Vladson

    Vladson Старожил

    С нами с:
    4 фев 2006
    Сообщения:
    4.040
    Симпатии:
    26
    Адрес:
    Estonia, Tallinn
    Вообще на тему стоимости могу сказать так... (задолбали разговоры о том что "дороже лучше", это не совсем так)

    1 - скрипт (лишь бы работало) это реально час работы
    2 - скрипт хорошего качества это не только сам скрипт но и грамотное проектирование (до того как начать писать) тестирование (после того как написал) при необходимости доработка (по результатам тестирования)

    И если в первом случае это реально
    То во втором случае это уже реально серьёзная и долгая работа и тут мало того бюджет будет выше, но и отбор кандидатов на написание нужно проводить качественно (чтоб не нанять на такую ответственную работу ламера) а это также финансовые затраты...
     
  13. Maxer

    Maxer Активный пользователь

    С нами с:
    22 окт 2006
    Сообщения:
    93
    Симпатии:
    0
    мож кто-нить, если работы на час тут напишед за 50WMZ?
     
  14. Maxer

    Maxer Активный пользователь

    С нами с:
    22 окт 2006
    Сообщения:
    93
    Симпатии:
    0
    my icq 355351450
     
  15. Maxer

    Maxer Активный пользователь

    С нами с:
    22 окт 2006
    Сообщения:
    93
    Симпатии:
    0
    топик можно close.