Добрый день ... Подскажите пожалуйста как можно реализовать автоматизацию следующего процесса под PHP: пользователь присылает на сервер некий графический файл в котором находится отсканированная текстовая информация, скрипт распознает текст (или запускает некое стороннее приложение в фоновом режиме) и выдает текстовый файл в формате или TXT, или HTML ..., или затаскивание данных в базу MySQL (с затаскиванием в базу особых вопросов нет) ...
Чувааак... сервис потипу antigate.com сделан там: сидят рабы и разгадывают капчи. Ещё в инете лежи уйма всяких антикапч на разные виды капчей, не стесняйся, используй google
Мне не для расшифровки капча ..., мне нужно автоматизировать обработку данных с рукописных форм и занесение данных в базу ...
Что касается рукописного текста, то лично я когда-то занимался подобной хренотенью. Делается это с помощью векторной карты. Сначала переводим изображение в двуцветное, находим контуры и разбиваем. Нужно учитывать, что текст не может быть неотрывистым. Для каждого символа находится максимальный порог яркости и производится очерчивание. В итоге у нас должна получиться бинарная матрица, которая будет сравниваться с той самой векторной картой. Сама карта состоит из направленных контуров, 3 компонента: прямая и эллипс и нуль-вектор с максимальным значением преломнения до 10. Коэффициент схожести карт у нас был 60% Превосходно определял четкие буквы вроде Р, Т, Ш, Ц. Проблемы были с Ы, С и О, а так же латинской G - очень часто из-за особенностей почерка были путаницы. Но в целом правильность распознавания достигала 95% при аккуратном очерчивании Всё же желательно после распознавания делать сравнение по словарю, чтобы greenpeace не превратилось в greengeace
Я немного не корректно обрисовал задачу ... Не рукописный ..., а машинописный текст ... Нужно просто автоматизировать процесс и сделать его как сервис на сервере ..., текст присылается машинописный ..., или от руки но печатными буквами, но в 99 процентах это текст напечатанный на принтере ... Нужно сделать вот что: есть некий скрипт, при помощи которого пользователь закачивает картинку с отсканированным текстом, получив картинку скрипт запускает стороннюю программу которая распознает этот текст и выдает текстовый файл, который потом в свою очередь подхватывается скриптом и выдается в виде HTML (или закладывается в базу данных) ... И все это счастье должно работать на FreeBSD
bogong Короче херово это всё, очень печально. ЛУЧШЕЙ В МИРЕ считается ABBYY, альтернатив ей нет. Всё, что есть - даже в подмётки не годится этому продукту.
Apple - а можно как-то настроить связку машин (одна под BSD другая под Windows), т.к. я не нашел никакой альтернативы для Unix-образных систем ... Т.е. сервер обрабатывает запрос, принимает от пользователя картинку с текстом и передает на обработку ABBYY под виндами ..., а потом забирает полученный результат ...
Не легче ..., здесь проблема в реализации работы с удаленными офисами ... Столкнулся с проблемой: нужно атоматизировать процесс распознания текста получаемого от пользователя в виде картинок и выкладывать его на сайте в виде HTML или засовывать полученное в базу данных ... Основная проблема в том что ничего пристойного под Unix-образную систему я не нашел. все программы написанные под Unix-образные системы рядом не стоят с ABBYY Finereader. Единственно возможное решение это сделать связку машин: одна - Ubuntu (на ней основноые вещи сайта) и вторая - Windows (на ней установлена только софтина для распознания текста). И вопрос таков - как это все дело связать чтоб это работало без вмешательства оператора? Как сделать так чтоб сервак получал картинку с текстом, отдавал её друкой машине под управлением Windows, на которой в атоматическом режиме происходило распознание текста и сохранение его в файл, потом головной сервер забирал и виндовой машины результат распознания и вкрячивал это либо в HTML либо в MySQL ... Буду рад любой информации ... Надоело руками перепахивать огромное количество информации ... А устанавливать Windows Server нет никакого желания ...
Это я уже понял ..., вот и хочу поженить это все на двух машинах ..., другого ничего в голову не лезет ... На одной Unix-образное счастье которое отвечает за Apache_MySQL_PHP ну и так далее ..., а на другой устанолены винды с абишным файнридером ... Но как сделать так чтоб это все жило без участия оператора системы?
Вы пытаетесь проехать на автомобиле на одном баке 5000 километров доказывая, что "самолёт же пролетает на одном баке и больше". Где-то там, далеко, всем понятно, что в теории возможно сконструировать такой авто. Вот только все также понимают насколько это утопично.
igordata и Johnatan - протестировал Tesseract под Ubuntu ... вроде пристойно ..., но нужно более детально обучать этого зверя русскому языку ... почитал на формуах вроде это как-то можно сделать ... По результатам танцев с бубном отпишусь если интересно. Но! Сразу выявлено преславутое "но" ... Нужно выставлять требования к сканированию документов ... Прихотливый оказался зверек ...
забить не получится ..., очень важный элемент в написании системы ... очень много печатной документации нужно обрабатывать ...
у меня на ресепшене стоит трехядерный феном. у него распознование в файнридере занимает десятки секунд. Ну может по пять-десять секунд на страницу. но все же. на каком таком хостинге вы это будете делать?
Планируется 2хIntel Xeon с 16Gb памяти, собственный сервак в колакейшене ... C организацией очереди заданий ... Там не круглосуточно большая нагрузка ... Реально распределить организации ожидания исполнения ...
Винду категорически запрещено ставить на серваки смотрящие наружу ... Требование некоторых законов РФ ...
дык ее не надо ставить. ей и выход в инет незачем абсолютно. пусть работает в виртуальной машине без окон без дверей. ты файнридеру просто файлики пихай и через коммандную строку он стопудово может управляться. Он их будет хуярить и складывать в другую папку готовые документы молча и круглосуточно. Идиллия!