труъ каптча.

savvot · 7 апр 2008

Hight сказал(а):

Ты бы показал нам (или только мне) эту распознавалку?, а то только дразнишься.
Нажмите, чтобы раскрыть...

Ну код я показывать не буду, по вполне понятным причинам. А вот демку попробую показать.

В общем заходим ЛИНК ПОТЕР, ПОСКОЛЬКУ "САМЫЕ УМНЫЕ" НАЧАЛИ ПАРСИТЬ КАПЧУ И ГРУЗИТЬ МНЕ СЕРВАК

В поле вставляем урл капчи:

Код (Text):

http://image.captchas.net/?client=wordtracker&random=35qh3s7debl&alphabet=abcdefghkmnopqrstuvwxyz&letters=4

ВАЖНО: в этом линке можно (и нужно) менять параметр random, чтобы выводились разные капчи, но НЕ надо менять alphabet и num, потому что распознавалка заточена на 4 символа и этот алфавит (капча, используемая на вордтрекере).

Распознавание само-собой не 100%, хуже всего распознаются символы "a" и "e".

Если интересно, могу в общих чертах рассказать алгоритм (в данном случае алгоритмы, поскольку самое трудное было выделить символы из этой мешанины пикселей), по которому работает данный скрипт.

RomanBush · 7 апр 2008

жесть. На картинке uqhf, распозновалка сказала bafa.
"Найдите 10 совпадений".

savvot · 7 апр 2008

RomanBush сказал(а):

жесть. На картинке uqhf, распозновалка сказала bafa.
"Найдите 10 совпадений".
Нажмите, чтобы раскрыть...

Ты лучше посчитай отношение успешного распознавания к неуспешному на разных капчах с большой выборкой
Вобще там в среднем 1:3 - 1:5 (в СРЕДНЕМ!). Уж поверь, я пока писал этот модуль столько капчей распознал, что и не представить.

И вобще сам попробуй хотя бы символы нормально выделить из этой капчи с помощью GD функций, а потом критикуй

RomanBush · 7 апр 2008

да не, меня просто приколола ситуация, что "гадал, но не угадал ни одной буквы".

savvot · 7 апр 2008

RomanBush сказал(а):

да не, меня просто приколола ситуация, что "гадал, но не угадал ни одной буквы".
Нажмите, чтобы раскрыть...

Ну я же волнуюсь! ) "Детище" то свое, выстраданное. Для меня это было очень непросто.

Hight · 8 апр 2008

savvot сказал(а):

могу в общих чертах рассказать алгоритм
Нажмите, чтобы раскрыть...

Угу, с удовольствием почитаю

Anonymous · 8 апр 2008

Hight сказал(а):

с удовольствием почитаю
Нажмите, чтобы раскрыть...

+1

У меня с первого раза угадала, собака.

savvot сказал(а):

Ну код я показывать не буду, по вполне понятным причинам.
Нажмите, чтобы раскрыть...

И это хорошо.

savvot · 8 апр 2008

Итак, по поводу алгоритма:

В данном случае (см. выше демо), основной трудностью было выделить сами символы, причем выделить как однородные области (контуры), без шума и артефактов. Поскольку сам алгоритм распознавания оперирует массивом "рабочих" пикселей и "пустых", то главной задачей было привести капчу к именно такому виду, без лишних деталей.

Оригинальная капча и результат предварительной обработки:

Подобный результат был достигнут путем множества преобразований и манипуляций с исходным изображением. Там и различные фильтры, и imageconvolution с матрицей преобразования, ну конечно основной алгоритм нахождения "контуров" - т.е. частей картинки в виде областей, все пиксели которой установлены в 1. А прилегающими пиксели могут считатся как по горизонтали-вертикали так и по диагонали (настраиваемый параметр). Ну и конечно этот алгоритм работает уже не с исходным изображением, а с результатом всех предыдущих преобразований - удаление шума, разные микро-алгоритмы твикалки, для улучшения вида символов; резкость-четкость и т.п.

Соответственно после работы данной функции, отсекаются все "контуры" (или "фигуры", не знаю как точнее назвать), общее количество точек в которых меньше пороговой величины, а далее контуры сортируются по координате Х, чтобы был ясен порядок символов. И в итоге у нас остается набор букв, с которыми уже можно работать.

Ну а дальше создается относительно большая база этих символов и соответствий их буквам, во внутреннем формате скрипта (обычно приходится забивать руками базу, но с данной капчей получилось это автоматизировать - посмотрите на урл капчи в предыдущих сообщениях и поймёте как и почему).

Сам же алгоритм распознавания в основе своей примитивен - это обычное сравнение. Но само-собой все не так просто. Иначе, с учетом неровности символов, с учетом различных углов и погрешностей предварительной обработки, база для успешного распознавания должна была быть очень большой, а время распознавания увеличилось бы до нереальных значений. Я не буду в точности описывать алгоритм, в нем нет ничего сложного, но все-таки это результат многих экпериментов и, в чем-то, мое личное "ноу-хау".
Скажу лишь, что он учитывает:
- размеры символов (ширина-высота) и их различие
- количество точек в символе (не нулевых значений)
- толщину символов (тоже был написан свой алгоритм расчета)
И к этому всему применяется особый набор правил сравнения и математ. операций, который был вычислен в основном эмпирическим путем.

В результате получаем:
- большую скорость распознавания, почти независимую от размера базы (в демке медленно грузится сама картинка с сервера, где расположена капча, а распознавание - быстрое)
- небольшой размер базы требуемый для точного результата (сугубо индивидуально для каждой капчи)

В принципе - ничего особо сложного, но результат налицо

Kreker · 9 апр 2008

savvot сказал(а):

- большую скорость распознавания, почти независимую от размера базы (в демке медленно грузится сама картинка с сервера, где расположена капча, а распознавание - быстрое)
Нажмите, чтобы раскрыть...

Заметано.

savvot
Спасибо за ответы.

Kreker · 5 май 2008

Нашел тут финтифлюшки
http://www.nt.uni-saarland.de/projects/ ... tion.shtml
http://demiurg.livejournal.com/70914.html

BS · 6 май 2008

А как на счет такой?

Dagdamor · 6 май 2008

BS
Только если слова писать... случайный код и человек не подберет.

BS · 6 май 2008

Dagdamor сказал(а):

Только если слова писать... случайный код и человек не подберет.
Нажмите, чтобы раскрыть...

ну вот набросал работающий примерчик. Можно довести до ума, чтобы числа были хорошо читаемы.

armadillo · 6 май 2008

на рапид давно заглядывали?

BS · 6 май 2008

armadillo А в подпись свою давно заглядывали?

+Sten+ · 6 май 2008

armadillo сказал(а):

на рапид давно заглядывали?
Нажмите, чтобы раскрыть...

Да, умно сделали, но люди с небольшим IQ не понимают, почему у них не влазит 5 цифра, а раньше влазила, читать пояснение на английском никто не хочет. Уже 2 раза слышал, что "рапида сломалась, посмотри сам... 5 цифра не влазит!!"

Sergey89 · 17 май 2008

http://sergey89.net/trash/captcha/test1.php
http://sergey89.net/trash/captcha/test2.php
что скажете про такой простой вариант?

BS · 17 май 2008

читается нормально, возможно, что и распознается тоже

Sergey89 · 17 май 2008

Ещё такой похожий вариант получился http://sergey89.net/trash/captcha/test3.php

+Sten+ · 17 май 2008

Sergey89 сказал(а):

Ещё такой похожий вариант получился http://sergey89.net/trash/captcha/test3.php
Нажмите, чтобы раскрыть...

Прищурился, поднял пальцем веко правого глаза, трагическим взглядом посмотрел на картинку, увидел почти все цифры Попроще бы, чтобы только прищуриться.

Sergey89 · 17 май 2008

Хм. Опросил 3 человек. Они прочитали с ходу 10 из 10.

+Sten+ · 17 май 2008

Sergey89
Да нет, видно отлично, непривычно просто как-то, с первого раза люди не знают, что у 1 есть плацдарм снизу и короткий носик, а у 7 нету плацдарма и нос длиннее. Стоит 1 раз отгадать проблемные символы (увидеть четко) и все отложится в мозге Лично я не мог понять, 1 или 7 там с 1 раза.

Sergey89 · 18 май 2008

Исключил 1 и 7. Вроде понятнее стало.

Johnatan · 18 май 2008

Посмотрел последнюю каптчу.. Уж очень на грани между "вижу чётко" и "а вдруг это не 8, а 6?". Из 10 просмотренных каптч я кажется отгадал все, но чувство, что обязательно высветится такая, которую я не смогу понять - осталось. Но, имхо, оно того стоит, если эту каптчу не сможет бот распознать.

topas · 18 май 2008

Считаю, что название темы попало в самую точку, и если бот еще не может распознать какие-то каптчи, то эти каптчи читаются человеком уже с трудом, а боты... они и этому научатся, чтоб им не ладно было. Так что, ИМХО, нужна альтернатива, нужна уже завтра, следовательно реализовывать сегодня

труъ каптча.

savvot Активный пользователь

RomanBush Активный пользователь

savvot Активный пользователь

RomanBush Активный пользователь

savvot Активный пользователь

Hight Старожил
Команда форума Модератор

Anonymous Guest

savvot Активный пользователь

Kreker Старожил

Kreker Старожил

BS Активный пользователь

Dagdamor Активный пользователь

BS Активный пользователь

armadillo Активный пользователь

BS Активный пользователь

+Sten+ Активный пользователь

Sergey89 Активный пользователь

BS Активный пользователь

Sergey89 Активный пользователь

+Sten+ Активный пользователь

Sergey89 Активный пользователь

+Sten+ Активный пользователь

Sergey89 Активный пользователь

Johnatan Активный пользователь

topas Активный пользователь

Быстрый поиск

труъ каптча.

savvot Активный пользователь

RomanBush Активный пользователь

savvot Активный пользователь

RomanBush Активный пользователь

savvot Активный пользователь

Hight Старожил Команда форума Модератор

Anonymous Guest

savvot Активный пользователь

Kreker Старожил

Kreker Старожил

BS Активный пользователь

Dagdamor Активный пользователь

BS Активный пользователь

armadillo Активный пользователь

BS Активный пользователь

+Sten+ Активный пользователь

Sergey89 Активный пользователь

BS Активный пользователь

Sergey89 Активный пользователь

+Sten+ Активный пользователь

Sergey89 Активный пользователь

+Sten+ Активный пользователь

Sergey89 Активный пользователь

Johnatan Активный пользователь

topas Активный пользователь

Hight Старожил
Команда форума Модератор