За последние 24 часа нас посетили 26868 программистов и 1819 роботов. Сейчас ищут 950 программистов ...

Автоматическое распознование текста в PHP

Тема в разделе "PHP для новичков", создана пользователем bogong, 8 ноя 2010.

  1. bogong

    bogong Активный пользователь

    С нами с:
    20 май 2010
    Сообщения:
    114
    Симпатии:
    0
    Адрес:
    Санкт-Петербург
    Добрый день ...
    Подскажите пожалуйста как можно реализовать автоматизацию следующего процесса под PHP: пользователь присылает на сервер некий графический файл в котором находится отсканированная текстовая информация, скрипт распознает текст (или запускает некое стороннее приложение в фоновом режиме) и выдает текстовый файл в формате или TXT, или HTML ..., или затаскивание данных в базу MySQL (с затаскиванием в базу особых вопросов нет) ...
     
  2. Ensiferum

    Ensiferum Активный пользователь

    С нами с:
    11 июл 2010
    Сообщения:
    1.292
    Симпатии:
    0
    Адрес:
    из секты поклонников Нео
    Чувааак... сервис потипу antigate.com сделан там: сидят рабы и разгадывают капчи. Ещё в инете лежи уйма всяких антикапч на разные виды капчей, не стесняйся, используй google
     
  3. bogong

    bogong Активный пользователь

    С нами с:
    20 май 2010
    Сообщения:
    114
    Симпатии:
    0
    Адрес:
    Санкт-Петербург
    Мне не для расшифровки капча ..., мне нужно автоматизировать обработку данных с рукописных форм и занесение данных в базу ...
     
  4. Gromo

    Gromo Активный пользователь

    С нами с:
    24 май 2010
    Сообщения:
    2.786
    Симпатии:
    2
    Адрес:
    Ташкент
    можешь сразу убиться о ближайшую стенку
     
  5. engager

    engager Активный пользователь

    С нами с:
    21 янв 2009
    Сообщения:
    1.106
    Симпатии:
    1
    вообще, у finereader'a (abbyy) было какое-то api для распознавания.
     
  6. bogong

    bogong Активный пользователь

    С нами с:
    20 май 2010
    Сообщения:
    114
    Симпатии:
    0
    Адрес:
    Санкт-Петербург
    А кто-нибудь сталкивался с Сuneiform? Что это за зверь и с каким соусом его едят?
     
  7. Apple

    Apple Активный пользователь

    С нами с:
    13 янв 2007
    Сообщения:
    4.984
    Симпатии:
    2
    Что касается рукописного текста, то лично я когда-то занимался подобной хренотенью.
    Делается это с помощью векторной карты.
    Сначала переводим изображение в двуцветное, находим контуры и разбиваем. Нужно учитывать, что текст не может быть неотрывистым. Для каждого символа находится максимальный порог яркости и производится очерчивание. В итоге у нас должна получиться бинарная матрица, которая будет сравниваться с той самой векторной картой.
    Сама карта состоит из направленных контуров, 3 компонента: прямая и эллипс и нуль-вектор с максимальным значением преломнения до 10. Коэффициент схожести карт у нас был 60%

    Превосходно определял четкие буквы вроде Р, Т, Ш, Ц.
    Проблемы были с Ы, С и О, а так же латинской G - очень часто из-за особенностей почерка были путаницы.
    Но в целом правильность распознавания достигала 95% при аккуратном очерчивании

    Всё же желательно после распознавания делать сравнение по словарю, чтобы greenpeace не превратилось в greengeace
     
  8. bogong

    bogong Активный пользователь

    С нами с:
    20 май 2010
    Сообщения:
    114
    Симпатии:
    0
    Адрес:
    Санкт-Петербург
    Я немного не корректно обрисовал задачу ... Не рукописный ..., а машинописный текст ... Нужно просто автоматизировать процесс и сделать его как сервис на сервере ..., текст присылается машинописный ..., или от руки но печатными буквами, но в 99 процентах это текст напечатанный на принтере ... Нужно сделать вот что: есть некий скрипт, при помощи которого пользователь закачивает картинку с отсканированным текстом, получив картинку скрипт запускает стороннюю программу которая распознает этот текст и выдает текстовый файл, который потом в свою очередь подхватывается скриптом и выдается в виде HTML (или закладывается в базу данных) ... И все это счастье должно работать на FreeBSD
     
  9. Apple

    Apple Активный пользователь

    С нами с:
    13 янв 2007
    Сообщения:
    4.984
    Симпатии:
    2
    bogong
    Короче херово это всё, очень печально. ЛУЧШЕЙ В МИРЕ считается ABBYY, альтернатив ей нет. Всё, что есть - даже в подмётки не годится этому продукту.
     
  10. bogong

    bogong Активный пользователь

    С нами с:
    20 май 2010
    Сообщения:
    114
    Симпатии:
    0
    Адрес:
    Санкт-Петербург
    Apple - а можно как-то настроить связку машин (одна под BSD другая под Windows), т.к. я не нашел никакой альтернативы для Unix-образных систем ... Т.е. сервер обрабатывает запрос, принимает от пользователя картинку с текстом и передает на обработку ABBYY под виндами ..., а потом забирает полученный результат ...
     
  11. Johnatan

    Johnatan Активный пользователь

    С нами с:
    6 мар 2008
    Сообщения:
    508
    Симпатии:
    0
    Адрес:
    Испания
    Легче, дешевле, быстрее и надёжнее посадить девочку, чтобы она перепечатывала тексты с картинки.
     
  12. bogong

    bogong Активный пользователь

    С нами с:
    20 май 2010
    Сообщения:
    114
    Симпатии:
    0
    Адрес:
    Санкт-Петербург
    Не легче ..., здесь проблема в реализации работы с удаленными офисами ...

    Столкнулся с проблемой: нужно атоматизировать процесс распознания текста получаемого от пользователя в виде картинок и выкладывать его на сайте в виде HTML или засовывать полученное в базу данных ... Основная проблема в том что ничего пристойного под Unix-образную систему я не нашел. все программы написанные под Unix-образные системы рядом не стоят с ABBYY Finereader. Единственно возможное решение это сделать связку машин: одна - Ubuntu (на ней основноые вещи сайта) и вторая - Windows (на ней установлена только софтина для распознания текста). И вопрос таков - как это все дело связать чтоб это работало без вмешательства оператора? Как сделать так чтоб сервак получал картинку с текстом, отдавал её друкой машине под управлением Windows, на которой в атоматическом режиме происходило распознание текста и сохранение его в файл, потом головной сервер забирал и виндовой машины результат распознания и вкрячивал это либо в HTML либо в MySQL ... Буду рад любой информации ... Надоело руками перепахивать огромное количество информации ... А устанавливать Windows Server нет никакого желания ...
     
  13. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    bogong
    под линуксы распознование текста находится в зачаточном состоянии, надежды нет.
     
  14. bogong

    bogong Активный пользователь

    С нами с:
    20 май 2010
    Сообщения:
    114
    Симпатии:
    0
    Адрес:
    Санкт-Петербург
    Это я уже понял ..., вот и хочу поженить это все на двух машинах ..., другого ничего в голову не лезет ... На одной Unix-образное счастье которое отвечает за Apache_MySQL_PHP ну и так далее ..., а на другой устанолены винды с абишным файнридером ... Но как сделать так чтоб это все жило без участия оператора системы?
     
  15. Johnatan

    Johnatan Активный пользователь

    С нами с:
    6 мар 2008
    Сообщения:
    508
    Симпатии:
    0
    Адрес:
    Испания
    Вы пытаетесь проехать на автомобиле на одном баке 5000 километров доказывая, что "самолёт же пролетает на одном баке и больше". Где-то там, далеко, всем понятно, что в теории возможно сконструировать такой авто. Вот только все также понимают насколько это утопично.
     
  16. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    bogong
    ну можно, но это не к пхп вопрос
     
  17. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    я уверен что есть API у файнридера.
     
  18. bogong

    bogong Активный пользователь

    С нами с:
    20 май 2010
    Сообщения:
    114
    Симпатии:
    0
    Адрес:
    Санкт-Петербург
    igordata и Johnatan - протестировал Tesseract под Ubuntu ... вроде пристойно ..., но нужно более детально обучать этого зверя русскому языку ... почитал на формуах вроде это как-то можно сделать ... По результатам танцев с бубном отпишусь если интересно. Но! Сразу выявлено преславутое "но" ... Нужно выставлять требования к сканированию документов ... Прихотливый оказался зверек ...
     
  19. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    я б забил
     
  20. bogong

    bogong Активный пользователь

    С нами с:
    20 май 2010
    Сообщения:
    114
    Симпатии:
    0
    Адрес:
    Санкт-Петербург
    забить не получится ..., очень важный элемент в написании системы ... очень много печатной документации нужно обрабатывать ...
     
  21. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    у меня на ресепшене стоит трехядерный феном. у него распознование в файнридере занимает десятки секунд. Ну может по пять-десять секунд на страницу. но все же. на каком таком хостинге вы это будете делать?
     
  22. bogong

    bogong Активный пользователь

    С нами с:
    20 май 2010
    Сообщения:
    114
    Симпатии:
    0
    Адрес:
    Санкт-Петербург
    Планируется 2хIntel Xeon с 16Gb памяти, собственный сервак в колакейшене ... C организацией очереди заданий ... Там не круглосуточно большая нагрузка ... Реально распределить организации ожидания исполнения ...
     
  23. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    тады ок, запускай винду =) и файнридер
     
  24. bogong

    bogong Активный пользователь

    С нами с:
    20 май 2010
    Сообщения:
    114
    Симпатии:
    0
    Адрес:
    Санкт-Петербург
    Винду категорически запрещено ставить на серваки смотрящие наружу ... Требование некоторых законов РФ ...
     
  25. igordata

    igordata Суперстар
    Команда форума Модератор

    С нами с:
    18 мар 2010
    Сообщения:
    32.408
    Симпатии:
    1.768
    дык ее не надо ставить. ей и выход в инет незачем абсолютно. пусть работает в виртуальной машине без окон без дверей. ты файнридеру просто файлики пихай и через коммандную строку он стопудово может управляться. Он их будет хуярить и складывать в другую папку готовые документы молча и круглосуточно. Идиллия!