Чтобы Гугль не посылал в 403 в этом адресе значение параметра ch формируется по определенному алгоритму из, собственно, урла. Алгоритм расчета этой контрольной суммы можно выдрать из xul-кода плагина, который Гугл предлагает для Firefox.
- Че за контрольная сумма? - раскрутка - это повышение рейнтинга (тИЦ, PR) сайта в поисковых системах. А через поисковые системы приходит 90% процентов посетителей. Следовательно, и количество посетителей увеличивается. Разве это владельцу сайта (заказчику) не нужно? А вообще я спать пошел. У меня уже 3 час ночи.
ValaR Странно, но на позицию в яндексе тиц как-то мало влияет. Потому, что можно на 10 странице найти сайт с тиц 50, когда на первой с 30-ю будет. Странно как-то яндекс считает. Как я понимаю, это тиц + хосты. Но правда ли это?
Код (Text): function StrToNum($Str, $Check, $Magic) { $Int32Unit = 4294967296; // 2^32 $length = strlen($Str); for ($i = 0; $i < $length; $i++) { $Check *= $Magic; //If the float is beyond the boundaries of integer (usually +/- 2.15e+9 = 2^31), // the result of converting to integer is undefined // refer to http://www.php.net/manual/en/language.types.integer.php if ($Check >= $Int32Unit) { $Check = ($Check - $Int32Unit * (int) ($Check / $Int32Unit)); //if the check less than -2^31 $Check = ($Check < -2147483648) ? ($Check + $Int32Unit) : $Check; } $Check += ord($Str{$i}); } return $Check; } /* * Genearate a hash for a url */ function HashURL($String) { $Check1 = StrToNum($String, 0x1505, 0x21); $Check2 = StrToNum($String, 0, 0x1003F); $Check1 >>= 2; $Check1 = (($Check1 >> 4) & 0x3FFFFC0 ) | ($Check1 & 0x3F); $Check1 = (($Check1 >> 4) & 0x3FFC00 ) | ($Check1 & 0x3FF); $Check1 = (($Check1 >> 4) & 0x3C000 ) | ($Check1 & 0x3FFF); $T1 = (((($Check1 & 0x3C0) << 4) | ($Check1 & 0x3C)) <<2 ) | ($Check2 & 0xF0F ); $T2 = (((($Check1 & 0xFFFFC000) << 4) | ($Check1 & 0x3C00)) << 0xA) | ($Check2 & 0xF0F0000 ); return ($T1 | $T2); } /* * genearate a checksum for the hash string */ function CheckHash($Hashnum) { $CheckByte = 0; $Flag = 0; $HashStr = sprintf('%u', $Hashnum) ; $length = strlen($HashStr); for ($i = $length - 1; $i >= 0; $i --) { $Re = $HashStr{$i}; if (1 === ($Flag % 2)) { $Re += $Re; $Re = (int)($Re / 10) + ($Re % 10); } $CheckByte += $Re; $Flag ++; } $CheckByte %= 10; if (0 !== $CheckByte) { $CheckByte = 10 - $CheckByte; if (1 === ($Flag % 2) ) { if (1 === ($CheckByte % 2)) { $CheckByte += 9; } $CheckByte >>= 1; } } return '7'.$CheckByte.$HashStr; } function get_pr($href) { global $prs; if (isset($prs[$href])) return $prs[$href]; elseif (strpos($href, '&') !== false) return $prs[$href] = 0; // Берём PR $tq_servers = array('72.14.221.99', '72.14.221.100', '72.14.221.101', '72.14.221.102', '64.233.161.19', '64.233.161.99', '64.233.163.189', '64.233.171.44', '64.233.171.101', '64.233.183.99', '64.233.183.147', '64.233.185.19', '64.233.185.84', '64.233.185.133', '66.102.9.107', '66.102.11.115', '66.249.81.84', '66.249.81.101', '66.249.89.83', '72.14.203.19', '72.14.205.44', '72.14.207.19', '72.14.209.104', '209.85.143.84', '216.239.59.17', '216.239.59.81'); $url = 'http://'.$tq_servers[array_rand($tq_servers)].'/search?client=navclient-auto&ch='.CheckHash(HashURL($href)).'&features=Rank:&q=info:'.$href; $success = false; $counter = 0; while ($success == false) { if ($counter == 15) return $prs[$href] = 0; $counter ++; $php_errormsg = ''; $text = file_get_contents($url); if (!isset($php_errormsg)) $php_errormsg = ''; if (strpos($php_errormsg, 'HTTP/1.0 403') !== false) $text = 'Rank_1:1:0'; if ($text != "") $success = true; $php_errormsg = ''; } $text = str_replace(array("\n", "\r"), '', $text); preg_match("|Rank_[0-9]+\:[0-9]+\:([0-9]+)|i", $text, $matches2); $prs[$href] = intval($matches2[1]); return intval($matches2[1]); } Не путайте менеджеров и рекламщиков.
Kreker Значит первый сайт лучше оптимизирован под тот запрос, который ты ввел (типа лучше показатель встречаемость в контенте, повторяемости, нету черных методов раскрутки) + у первого сайта больше ссылок на него, содержащих твой запрос, хотя и сам показатель тИЦ ниже. Clone За скрипт, спасибо.
Если кому-то понадобиться, то выкладываю скрипт проверки тИЦ Яндекса: PHP: //Получаем страницу с тИЦ, задаем параметры $site = "filesearch.ru"; //Вводим без www и http:// $sitetiz = str_replace(".", "\.", $site); $tIZ_page = file_get_contents("http://search.yaca.yandex.ru/yca/cy/ch/$site"); $logika_tIZ = 0; //Ищем тИЦ и вычленяем его if(preg_match("/Индекс цитирования \(тИЦ\) ресурса — ([0-9]{2,})\n/", $tIZ_page, $mas)) { $logika_tIZ = 1; $tIZ = $mas[1]; } if(preg_match("/<A target=_blank onclick=\"r\(this, 'ctya'\)\" href=\"http:\/\/(www\.$sitetiz|$sitetiz)\/\" target=_blank>[^<]{1,}<\/A><div>[^<]{0,}<\/div><\/td><td align=\"right\">([0-9]{2,})<\/td>/", $tIZ_page, $mas)) { $logika_tIZ = 1; $tIZ = $mas[2]; } if($logika_tIZ == 0) { $tIZ = 0; //Значит тиц меньше 10, следовательно приравниваем его нулю } //выводим сам тИЦ echo $tIZ;
А это уже пару лет как известный факт. В данный момент лучшие умы бьюца над вопросом "влияет ли PR на выдачу?" - хотя уже год назад было понятно, что нифига не влияет. Да и гугль косвенно об этом говорил. И раскрутка сайта по тИЦ'у и PR'у - самый идиотский способ раскрутки.
ValaR, думаю, такой код будет быстрее Код (Text): function get_cy($href) { $href = parse_url($href); $href = 'http://'.$href['host']; global $cys; if (isset($cys[$href])) return $cys[$href]; // Берём CY $url = 'http://bar-navig.yandex.ru/u?ver=3&show=3&url='.urlencode($href); $success = false; $counter = 0; while ($success == false) { if ($counter == 5) die('CYmeter is dead...'); $counter ++; $text = file_get_contents($url); if ($text != "") $success = true; } $text = str_replace(array("\n", "\r"), '', $text); preg_match(iconv('UTF-8', 'windows-1251', "|Тематический ИЦ \- ([0-9]+)|i"), $text, $matches2); $cy = ((count($matches2))?intval($matches2[1]):0); $cys[$href] = $cy; return $cy; } Только это из-под UTF-8 писалось, так что кто windows-1251 юзает - херьте iconv.