Нужен скрипт сравнивающий два файла

antonn · 30 мар 2011

Я не говорю что их надо пихать в память! В память помещаются же только значения переменных и ссылки на них, а весь файл так и остаётся на диске! Мож я просто неправильно изъясняю свою мысль, но решение может быть и в лоб, но рабочее, скорость конечно нельзя с нормальной БД сравнить! Но тут другой вопрос нафига было доводить ТХТ файл до 2 гигов!
Нажмите, чтобы раскрыть...

если в каждой строчке 32 символа (что явно много для фамилии), то в 10Гб будет 33кк строк. 33 миллионов значений типа dword (4 байта) будет равно чуть больше 1.3Гб, это для одного файла.

Alessan · 30 мар 2011

Господа, а на х... вообще говорить об индексах, если в таблице всего одно поле?

Namer · 30 мар 2011

denizkin сказал(а):

В БД 2 гб если загнать, мне кажется тоже не особо быстро будет сортироваться или я ошибаюсь?
Сколько примерно времени уходит на сортировку в БД такого объёма?
Нажмите, чтобы раскрыть...

Честно говоря не знаю сколько. По похоже что дофига и больше... Я сутки потратил на эти безрезультатные тесты. Файл на 5МБ sqlite сортирует за секунды. Ну и сначала я попробовал для эксперимента дать ему файл на 2ГБ, с вечера скормил, а на утро никакого результата. Потом решил уменьшить файл до 200МБ и посмотреть сколько у sqlite на него времени уйдет. И был в шоке: комп дулся над этими 200МБ 12 часов и по прежнему нихрена не выдал. После этого я понял, что что-то здесь не так, и наверно и в правду какая-то прогрессия подключается, что время растет экспоненциально, плюнул на базу и сделал проверенным дедовским методом на файлах

antonn · 30 мар 2011

Господа, а на х... вообще говорить об индексах, если в таблице всего одно поле?
Нажмите, чтобы раскрыть...

в какой таблице? некоторые тут вообще базы не трогают.
а индексы нужны, даже с одним полем

tommyangelo · 30 мар 2011

Alessan А при чем здесь количество полей? Видимо вы не совсем понимаете назначение индексов

denizkin · 30 мар 2011

Namer сказал(а):

denizkin сказал(а):

В БД 2 гб если загнать, мне кажется тоже не особо быстро будет сортироваться или я ошибаюсь?
Сколько примерно времени уходит на сортировку в БД такого объёма?
Нажмите, чтобы раскрыть...

Честно говоря не знаю сколько. По похоже что дофига и больше... Я сутки потратил на эти безрезультатные тесты. Файл на 5МБ sqlite сортирует за секунды. Ну и сначала я попробовал для эксперимента дать ему файл на 2ГБ, с вечера скормил, а на утро никакого результата. Потом решил уменьшить файл до 200МБ и посмотреть сколько у sqlite на него времени уйдет. И был в шоке: комп дулся над этими 200МБ 12 часов и по прежнему нихрена не выдал. После этого я понял, что что-то здесь не так, и наверно и в правду какая-то прогрессия подключается, что время растет экспоненциально, плюнул на базу и сделал проверенным дедовским методом на файлах
Нажмите, чтобы раскрыть...

Спасибо. Ну вот я как-то так и думал с БД))

antonn сказал(а):

Я не говорю что их надо пихать в память! В память помещаются же только значения переменных и ссылки на них, а весь файл так и остаётся на диске! Мож я просто неправильно изъясняю свою мысль, но решение может быть и в лоб, но рабочее, скорость конечно нельзя с нормальной БД сравнить! Но тут другой вопрос нафига было доводить ТХТ файл до 2 гигов!
Нажмите, чтобы раскрыть...

если в каждой строчке 32 символа (что явно много для фамилии), то в 10Гб будет 33кк строк. 33 миллионов значений типа dword (4 байта) будет равно чуть больше 1.3Гб, это для одного файла.
Нажмите, чтобы раскрыть...

Я тебя понял))

Alessan · 30 мар 2011

tommyangelo сказал(а):

Alessan А при чем здесь количество полей? Видимо вы не совсем понимаете назначение индексов
Нажмите, чтобы раскрыть...

Меня просто заклинило, что в конечном итоге нужно получить отсортированный текстовый файл. А это и так индекс.

antonn · 30 мар 2011

Меня просто заклинило, что в конечном итоге нужно получить отсортированный текстовый файл. А это и так индекс.
Нажмите, чтобы раскрыть...

нет, это не индекс. Если там 10Гб данных то имеет смысл держать специальную информацию по какому смещению начинаются данные на букву "Ж", это типа индекс, иначе перебор или метод тыка (бинарный поиск) по всему файлу.

Alessan · 30 мар 2011

Гм, а вот это бы я уже называл квантованием индекса в целях оптимизации. Ибо индекс это когда произволные данные + упорядоченная структура смещений на записи (данные структуры тоже квантуюция, хотя там чистая цифирь). Короче, если определиться с понятиями говорить будет не о чем

antonn · 30 мар 2011

ага, квантование индекса которого нет, т.к. файл отсортирован...
это просто индексная модель, она полезна и в случае уже отсортированного файла

Нужен скрипт сравнивающий два файла

antonn Активный пользователь

Alessan Активный пользователь

Namer Активный пользователь

antonn Активный пользователь

tommyangelo Старожил

denizkin Активный пользователь

Alessan Активный пользователь

antonn Активный пользователь

Alessan Активный пользователь

antonn Активный пользователь

Быстрый поиск

Нужен скрипт сравнивающий два файла

antonn Активный пользователь

Alessan Активный пользователь

Namer Активный пользователь

antonn Активный пользователь

tommyangelo Старожил

denizkin Активный пользователь

Alessan Активный пользователь

antonn Активный пользователь

Alessan Активный пользователь

antonn Активный пользователь