Кто то пробовал такое делать средствами PHP? То-есть какая то программа сохраняет спектр звуковых волн в картинки, далее средствами PHP происходит распознавание содержимого картинок, потом происходит сохранение в текст.
Чтобы это писать на РНР нужно быть не совсем здоровым =) Боюсь, что тут всё каапельку сложнее с транспозицией. Нелинейное бинарное чтение с использованием кодека, рассчет опорных точек ... и всё это с нуля на РНР?
Такие картинки - тупик. Если у тебя есть звуковой файл, то не нужно никакие картинки генерировать. Картинка - это визуальное представление. Чтобы сделать представление - нужны данные. Эти данные получены из рассчетов, так вот ДО рассчетов есть стадия обработки сигнала. Именно этот сигнал и нужно сравнивать.
На Perl делал обратное - что-то вроде синтезатора речи. Анализатор речи нужно писать на C. Может быть, можно сделать расширение для PHP. Но кто этим займётся, кому делать нефиг? Программе нужно давать звуковые данные в максимальном качестве, несжатые, с максимальной частотой дискретизации, чтобы хоть что-то можно было разобрать (учитывая, что компьютерные микрофоны, гарнитуры всякие уже сильно искажают сигнал). А для передачи по сети данные сжимаются с потерями, так что возможное применение такого анализатора - только локальная машина. PS. Сохранённые в виде картинки сигналы - это ещё одна ступень сжатия данных с потерями, т.к. идёт привязка закрашенных участков к пикселям картинки. Если картинка векторная - ещё что-то возможно.
Я конечно в таком не спец. но помню раскладывали мы сигналы в Вузе в спектр с помощью ряда Фурье. может Вам стоит не картинки сравнивать, а сам как бы "массив" спектр сравнивать.