За последние 24 часа нас посетили 22256 программистов и 993 робота. Сейчас ищут 668 программистов ...

Нужен скрипт сравнивающий два файла

Тема в разделе "PHP Free-Lance", создана пользователем Namer, 24 мар 2011.

  1. antonn

    antonn Активный пользователь

    С нами с:
    10 июн 2007
    Сообщения:
    2.996
    Симпатии:
    0
    если в каждой строчке 32 символа (что явно много для фамилии), то в 10Гб будет 33кк строк. 33 миллионов значений типа dword (4 байта) будет равно чуть больше 1.3Гб, это для одного файла.
     
  2. Alessan

    Alessan Активный пользователь

    С нами с:
    29 окт 2008
    Сообщения:
    38
    Симпатии:
    0
    Господа, а на х... вообще говорить об индексах, если в таблице всего одно поле?
     
  3. Namer

    Namer Активный пользователь

    С нами с:
    14 апр 2010
    Сообщения:
    492
    Симпатии:
    0
    Честно говоря не знаю сколько. По похоже что дофига и больше... Я сутки потратил на эти безрезультатные тесты. Файл на 5МБ sqlite сортирует за секунды. Ну и сначала я попробовал для эксперимента дать ему файл на 2ГБ, с вечера скормил, а на утро никакого результата. Потом решил уменьшить файл до 200МБ и посмотреть сколько у sqlite на него времени уйдет. И был в шоке: комп дулся над этими 200МБ 12 часов и по прежнему нихрена не выдал. После этого я понял, что что-то здесь не так, и наверно и в правду какая-то прогрессия подключается, что время растет экспоненциально, плюнул на базу и сделал проверенным дедовским методом на файлах :)
     
  4. antonn

    antonn Активный пользователь

    С нами с:
    10 июн 2007
    Сообщения:
    2.996
    Симпатии:
    0
    в какой таблице? некоторые тут вообще базы не трогают.
    а индексы нужны, даже с одним полем
     
  5. tommyangelo

    tommyangelo Старожил

    С нами с:
    6 дек 2009
    Сообщения:
    2.549
    Симпатии:
    0
    Адрес:
    Мариуполь
    Alessan А при чем здесь количество полей? Видимо вы не совсем понимаете назначение индексов
     
  6. denizkin

    denizkin Активный пользователь

    С нами с:
    26 мар 2011
    Сообщения:
    33
    Симпатии:
    0
    Спасибо. Ну вот я как-то так и думал с БД))


    Я тебя понял))
     
  7. Alessan

    Alessan Активный пользователь

    С нами с:
    29 окт 2008
    Сообщения:
    38
    Симпатии:
    0
    Меня просто заклинило, что в конечном итоге нужно получить отсортированный текстовый файл. А это и так индекс.
     
  8. antonn

    antonn Активный пользователь

    С нами с:
    10 июн 2007
    Сообщения:
    2.996
    Симпатии:
    0
    нет, это не индекс. Если там 10Гб данных то имеет смысл держать специальную информацию по какому смещению начинаются данные на букву "Ж", это типа индекс, иначе перебор или метод тыка (бинарный поиск) по всему файлу.
     
  9. Alessan

    Alessan Активный пользователь

    С нами с:
    29 окт 2008
    Сообщения:
    38
    Симпатии:
    0
    Гм, а вот это бы я уже называл квантованием индекса в целях оптимизации. Ибо индекс это когда произволные данные + упорядоченная структура смещений на записи (данные структуры тоже квантуюция, хотя там чистая цифирь). Короче, если определиться с понятиями говорить будет не о чем :)
     
  10. antonn

    antonn Активный пользователь

    С нами с:
    10 июн 2007
    Сообщения:
    2.996
    Симпатии:
    0
    ага, квантование индекса которого нет, т.к. файл отсортирован...
    это просто индексная модель, она полезна и в случае уже отсортированного файла