Автоматическое распознование текста в PHP

bogong · 8 ноя 2010

Добрый день ...
Подскажите пожалуйста как можно реализовать автоматизацию следующего процесса под PHP: пользователь присылает на сервер некий графический файл в котором находится отсканированная текстовая информация, скрипт распознает текст (или запускает некое стороннее приложение в фоновом режиме) и выдает текстовый файл в формате или TXT, или HTML ..., или затаскивание данных в базу MySQL (с затаскиванием в базу особых вопросов нет) ...

Ensiferum · 8 ноя 2010

Чувааак... сервис потипу antigate.com сделан там: сидят рабы и разгадывают капчи. Ещё в инете лежи уйма всяких антикапч на разные виды капчей, не стесняйся, используй google

bogong · 8 ноя 2010

Мне не для расшифровки капча ..., мне нужно автоматизировать обработку данных с рукописных форм и занесение данных в базу ...

Gromo · 8 ноя 2010

bogong сказал(а):

обработку данных с рукописных форм
Нажмите, чтобы раскрыть...

можешь сразу убиться о ближайшую стенку

engager · 8 ноя 2010

вообще, у finereader'a (abbyy) было какое-то api для распознавания.

bogong · 8 ноя 2010

А кто-нибудь сталкивался с Сuneiform? Что это за зверь и с каким соусом его едят?

Apple · 8 ноя 2010

Что касается рукописного текста, то лично я когда-то занимался подобной хренотенью.
Делается это с помощью векторной карты.
Сначала переводим изображение в двуцветное, находим контуры и разбиваем. Нужно учитывать, что текст не может быть неотрывистым. Для каждого символа находится максимальный порог яркости и производится очерчивание. В итоге у нас должна получиться бинарная матрица, которая будет сравниваться с той самой векторной картой.
Сама карта состоит из направленных контуров, 3 компонента: прямая и эллипс и нуль-вектор с максимальным значением преломнения до 10. Коэффициент схожести карт у нас был 60%

Превосходно определял четкие буквы вроде Р, Т, Ш, Ц.
Проблемы были с Ы, С и О, а так же латинской G - очень часто из-за особенностей почерка были путаницы.
Но в целом правильность распознавания достигала 95% при аккуратном очерчивании

Всё же желательно после распознавания делать сравнение по словарю, чтобы greenpeace не превратилось в greengeace

bogong · 8 ноя 2010

Я немного не корректно обрисовал задачу ... Не рукописный ..., а машинописный текст ... Нужно просто автоматизировать процесс и сделать его как сервис на сервере ..., текст присылается машинописный ..., или от руки но печатными буквами, но в 99 процентах это текст напечатанный на принтере ... Нужно сделать вот что: есть некий скрипт, при помощи которого пользователь закачивает картинку с отсканированным текстом, получив картинку скрипт запускает стороннюю программу которая распознает этот текст и выдает текстовый файл, который потом в свою очередь подхватывается скриптом и выдается в виде HTML (или закладывается в базу данных) ... И все это счастье должно работать на FreeBSD

Apple · 8 ноя 2010

bogong
Короче херово это всё, очень печально. ЛУЧШЕЙ В МИРЕ считается ABBYY, альтернатив ей нет. Всё, что есть - даже в подмётки не годится этому продукту.

bogong · 9 ноя 2010

Apple - а можно как-то настроить связку машин (одна под BSD другая под Windows), т.к. я не нашел никакой альтернативы для Unix-образных систем ... Т.е. сервер обрабатывает запрос, принимает от пользователя картинку с текстом и передает на обработку ABBYY под виндами ..., а потом забирает полученный результат ...

Johnatan · 9 ноя 2010

Легче, дешевле, быстрее и надёжнее посадить девочку, чтобы она перепечатывала тексты с картинки.

bogong · 9 ноя 2010

Не легче ..., здесь проблема в реализации работы с удаленными офисами ...

Столкнулся с проблемой: нужно атоматизировать процесс распознания текста получаемого от пользователя в виде картинок и выкладывать его на сайте в виде HTML или засовывать полученное в базу данных ... Основная проблема в том что ничего пристойного под Unix-образную систему я не нашел. все программы написанные под Unix-образные системы рядом не стоят с ABBYY Finereader. Единственно возможное решение это сделать связку машин: одна - Ubuntu (на ней основноые вещи сайта) и вторая - Windows (на ней установлена только софтина для распознания текста). И вопрос таков - как это все дело связать чтоб это работало без вмешательства оператора? Как сделать так чтоб сервак получал картинку с текстом, отдавал её друкой машине под управлением Windows, на которой в атоматическом режиме происходило распознание текста и сохранение его в файл, потом головной сервер забирал и виндовой машины результат распознания и вкрячивал это либо в HTML либо в MySQL ... Буду рад любой информации ... Надоело руками перепахивать огромное количество информации ... А устанавливать Windows Server нет никакого желания ...

igordata · 9 ноя 2010

bogong
под линуксы распознование текста находится в зачаточном состоянии, надежды нет.

bogong · 9 ноя 2010

igordata сказал(а):

bogong
под линуксы распознование текста находится в зачаточном состоянии, надежды нет.
Нажмите, чтобы раскрыть...

Это я уже понял ..., вот и хочу поженить это все на двух машинах ..., другого ничего в голову не лезет ... На одной Unix-образное счастье которое отвечает за Apache_MySQL_PHP ну и так далее ..., а на другой устанолены винды с абишным файнридером ... Но как сделать так чтоб это все жило без участия оператора системы?

Johnatan · 9 ноя 2010

Вы пытаетесь проехать на автомобиле на одном баке 5000 километров доказывая, что "самолёт же пролетает на одном баке и больше". Где-то там, далеко, всем понятно, что в теории возможно сконструировать такой авто. Вот только все также понимают насколько это утопично.

igordata · 9 ноя 2010

bogong
ну можно, но это не к пхп вопрос

igordata · 9 ноя 2010

я уверен что есть API у файнридера.

bogong · 17 ноя 2010

igordata и Johnatan - протестировал Tesseract под Ubuntu ... вроде пристойно ..., но нужно более детально обучать этого зверя русскому языку ... почитал на формуах вроде это как-то можно сделать ... По результатам танцев с бубном отпишусь если интересно. Но! Сразу выявлено преславутое "но" ... Нужно выставлять требования к сканированию документов ... Прихотливый оказался зверек ...

igordata · 17 ноя 2010

я б забил

bogong · 17 ноя 2010

забить не получится ..., очень важный элемент в написании системы ... очень много печатной документации нужно обрабатывать ...

igordata · 17 ноя 2010

у меня на ресепшене стоит трехядерный феном. у него распознование в файнридере занимает десятки секунд. Ну может по пять-десять секунд на страницу. но все же. на каком таком хостинге вы это будете делать?

bogong · 17 ноя 2010

Планируется 2хIntel Xeon с 16Gb памяти, собственный сервак в колакейшене ... C организацией очереди заданий ... Там не круглосуточно большая нагрузка ... Реально распределить организации ожидания исполнения ...

igordata · 17 ноя 2010

тады ок, запускай винду =) и файнридер

bogong · 17 ноя 2010

Винду категорически запрещено ставить на серваки смотрящие наружу ... Требование некоторых законов РФ ...

igordata · 17 ноя 2010

дык ее не надо ставить. ей и выход в инет незачем абсолютно. пусть работает в виртуальной машине без окон без дверей. ты файнридеру просто файлики пихай и через коммандную строку он стопудово может управляться. Он их будет хуярить и складывать в другую папку готовые документы молча и круглосуточно. Идиллия!

Автоматическое распознование текста в PHP

bogong Активный пользователь

Ensiferum Активный пользователь

bogong Активный пользователь

Gromo Активный пользователь

engager Активный пользователь

bogong Активный пользователь

Apple Активный пользователь

bogong Активный пользователь

Apple Активный пользователь

bogong Активный пользователь

Johnatan Активный пользователь

bogong Активный пользователь

igordata Суперстар
Команда форума Модератор

bogong Активный пользователь

Johnatan Активный пользователь

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

bogong Активный пользователь

igordata Суперстар
Команда форума Модератор

bogong Активный пользователь

igordata Суперстар
Команда форума Модератор

bogong Активный пользователь

igordata Суперстар
Команда форума Модератор

bogong Активный пользователь

igordata Суперстар
Команда форума Модератор

Быстрый поиск

Автоматическое распознование текста в PHP

bogong Активный пользователь

Ensiferum Активный пользователь

bogong Активный пользователь

Gromo Активный пользователь

engager Активный пользователь

bogong Активный пользователь

Apple Активный пользователь

bogong Активный пользователь

Apple Активный пользователь

bogong Активный пользователь

Johnatan Активный пользователь

bogong Активный пользователь

igordata Суперстар Команда форума Модератор

bogong Активный пользователь

Johnatan Активный пользователь

igordata Суперстар Команда форума Модератор

igordata Суперстар Команда форума Модератор

bogong Активный пользователь

igordata Суперстар Команда форума Модератор

bogong Активный пользователь

igordata Суперстар Команда форума Модератор

bogong Активный пользователь

igordata Суперстар Команда форума Модератор

bogong Активный пользователь

igordata Суперстар Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор