Удалять, или не удалять - вот в чем вопрос!

creage · 1 май 2008

Наверное все знают, что удалять строки в БД - не есть хорошо. Намного лучше пометить строку как удаленную, а позже, при новом инсерте - заапдейтить одну из удаленных строк.

Я тоже всегда так считал, и вот, при разработке нового движка, решил реализовать данный механизм. Но почти сразу натолкнулся на мысль, что это может привести к определенным трудностям.

К примеру, имеем товар с айди=1. Роботы проиндексили, люди понаделали закладок - ссылка пашет. Тут мы удаляем товар (помечаем строку удаленной), и пишем вместо данной строки новый товар. В итоге на месте ожидаемого товара будет совсем другой. Навскидку подумалось создавать некий уникальный идентификатор товара, и вытаскивать строки не по айди, а именно по этому идентификатору. Но это уже другая задача, и ее реализация, без накладки на производительность, будет непростой.

В итоге получаем дилемму, или не_удалять, иметь целостность индексов и быстрый поиск в БД, но меньшую скорость при апдейте базы , или удалять, херя по чуть чуть базу, но иметь ту же скорость во всех операциях с БД. Какие идеи по данной теме, может кто уже решал эту проблему?

Vladson · 1 май 2008

creage сказал(а):

Наверное все знают, что удалять строки в БД - не есть хорошо. Намного лучше пометить строку как удаленную, а позже, при новом инсерте - заапдейтить одну из удаленных строк.
Нажмите, чтобы раскрыть...

Я не знал, и не знаю...

Знаю за то что дешевле забивать гвозди кирпичом (его можно бесплатно найти на улице) вместо того чтоб покупать молоток.

Kreker · 1 май 2008

Vladson сказал(а):

Знаю за то что дешевле забивать гвозди кирпичом (его можно бесплатно найти на улице) вместо того чтоб покупать молоток.
Нажмите, чтобы раскрыть...

+1

creage · 1 май 2008

тогда вы, наверное, не знаете, что при частом удалении строк, и больших пробелах в индексируемых полях вы херите на нет вашы индексы. т.е. пользы от них практически нет. ну а что такое индексы и что будет, если их не будет я думаю рассказывать не стоит.

any other ideas?

Kreker · 1 май 2008

creage сказал(а):

наверное, не знаете, что при частом удалении строк,
Нажмите, чтобы раскрыть...

портиться жесткий диск.

Почему индексы должны теряться? Это что, Маша-растеряша? Это реляционная БД! Добавьте тысячу строк и удалите, а потом вставьте новую запись и посмотрите на id.

Индексы могут потеряться, если таблица crashed, лечиться repairом.

creage · 1 май 2008

лол)

советую почитать о том, как работает поиск по индексам, как они строятся, и вообще про функционал индексов в MySQL.

вы не в теме, товарищ.

Kreker · 1 май 2008

Тьфу блин %) переклинило на идентификаторы. Извиняюсь ))

Тогда вопрос, чем можно объяснить нарушение индексов при частом удалении?

topas · 1 май 2008

creage
Наверное стоит задаться вопросом: какая операция будет вызываться чаще? Если БД обновляется N-раз в сутки а просматривается всего N/100 раз, то становится понятно, что выбрать

creage · 1 май 2008

2Kreker
не нарушение, а эффективность их использования. смысл в том, что при нарушении последовательности ключей индекса скорость поиска по нему увеличивается. при больших провалах в последовательности практически пропадает смысл использования индекса. а при сложных и больших выборках это большой минус производительности. у меня есть (была) база, где из-за такого недочета 10 строк выбирались порядка 25 секунд. очень долго искал дырку, пока не прочел про индексы, и не переработал архитектуру.

creage · 1 май 2008

topas сказал(а):

creage
Наверное стоит задаться вопросом: какая операция будет вызываться чаще? Если БД обновляется N-раз в сутки а просматривается всего N/100 раз, то становится понятно, что выбрать
Нажмите, чтобы раскрыть...

мною скорее всего руководит желание создать безотказную устойчивую систему, которая сможет работать при любых условиях и нагрузках. для маленьких проектов этот вопрос наверное вообще не актуален.

давайте поставим вопрос иначе - если бы перед вами встала такая задача - как бы вы ее решили?

topas · 1 май 2008

creage
для больших же систем подход индивидуальный

Vladson · 2 май 2008

creage сказал(а):

тогда вы, наверное, не знаете, что при частом удалении строк, и больших пробелах в индексируемых полях вы херите на нет вашы индексы.
Нажмите, чтобы раскрыть...

Что есть частое ?
(вот когда каждое открытие страницы коих может быть млн в день то это частое)

В случае с интернет магазином (о магазине идёт речь как я понял и о его таблицы с товарами) ни о каком "частом" речи не идёт, тут достаточно удалять строку и автоматом сразу делать Optimize Table чтоб восстановить всё что "похерили" восстановить. (если уж такая паранойя с потерянными индексами вас приследует)

Anonymous · 2 май 2008

Для больших отказоустойчивых систем отказываются от мускула, ага. Что ва мешает перестраивать индекс раз в две недели например, автоматически?

Dagdamor · 2 май 2008

creage

тогда вы, наверное, не знаете, что при частом удалении строк, и больших пробелах в индексируемых полях вы херите на нет вашы индексы. т.е. пользы от них практически нет.
Нажмите, чтобы раскрыть...

А если записи помечать, как удаленные, это уже не будет считаться пробелами, ога И все выборки переписывать, добавляя в них ненужное условие, это тоже очень здорово. Индекс - это индекс. Хранится в виде дерева. Скорость работы от конкретных значений никак не зависит. Раз в год можно выполнить OPTIMIZE TABLE и все физические дыры исчезнут. Но скорее всего, они исчезнут раньше, при внутреннем перестроении индекса, которое происходит автоматически при добавлении узлов в дерево.

Dagdamor · 2 май 2008

creage

смысл в том, что при нарушении последовательности ключей индекса скорость поиска по нему увеличивается. при больших провалах в последовательности практически пропадает смысл использования индекса
Нажмите, чтобы раскрыть...

Ссылку на источник, плиз. Первый раз слышу такие страсти.

у меня есть (была) база, где из-за такого недочета 10 строк выбирались порядка 25 секунд.
Нажмите, чтобы раскрыть...

Смею утверждать, что проблема была совсем в другом... как выглядел запрос?

Anonymous · 2 май 2008

creage сказал(а):

смысл в том, что при нарушении последовательности ключей индекса скорость поиска по нему увеличивается. при больших провалах в последовательности практически пропадает смысл использования индекса
Нажмите, чтобы раскрыть...

Индекс - штука нелинейная, а древовидная. Индекс по числовым полям по сути своей не может потерять в скорости, даже если у него два миллиона строк потеряно между первой и последней записью.

Anonymous · 2 май 2008

Индексы и индексация таблиц

Представьте себе, что ваш приятель загадал число между 1 и 1000 и просит вас угадать его за минимальное число попыток, сообщая лишь о том, в большую или меньшую сторону вы ошиблись. Как вы поступите? Очевидно, предложите при первой попытке версию 500 (то есть начнете с середины). Если он ответит: «меньше», — предложите 250. Если «больше» — 750. Так, разбивая интервалы пополам, вы уложитесь в 10 попыток (ведь 210 > 103). Если бы приятель загадал число в пределах миллиарда, то количество попыток уложилось бы в 30 (230 > 109).

Угадывая число, вы проводили поиск примерно так, как ведут его системы баз данных, использующие индексы. Понятное дело, их работа гораздо сложнее, но главная идея именно в этом — за небольшое число попыток найти нужное значение из миллиардов возможных. Поля, по которым вам часто придется делать в базе поиск, фильтрацию или связывание таблиц между собой, есть смысл проиндексировать, то есть создать специальный связанный с таблицей объект, содержащий информацию, необходимую для вышеописанного быстрого поиска.
Нажмите, чтобы раскрыть...

creage · 2 май 2008

Вчера долго дискутировали на данную тему с одним товарищем. В итоге он меня убедил, что не_удалять записи стоит только в случае, если данная запись тебе может пригодится в будущем, типа восстановление. Но записывать на ее место другую строку - неправильно.

Всем спасибо за комментарии, вопрос исчерпан. Надеюсь, кому-то тоже будет полезно)

Anonymous · 2 май 2008

creage сказал(а):

В итоге он меня убедил, что не_удалять записи стоит только в случае, если данная запись тебе может пригодится в будущем, типа восстановление.
Нажмите, чтобы раскрыть...

У нас записи не удаляются по другим причинам - может банально разьехаться статистика, отчетность, et cetera. Надо всегда плясать от задачи, и все.

[vs] · 2 май 2008

ИМХО целсообразнее всего просто делать бэкапы регулярно.

Anonymous · 2 май 2008

Я тебя пригоню к нам, и заставлю регулярно четырехтерабайтные бэкапы снимать.

Dagdamor · 2 май 2008

Горбунов Олег
Удалять записи надо регулярно, тогда и не будет четырехтерабайтных бэкапов :twisted:

Anonymous · 2 май 2008

Финансовые данные переносятся в архив лишь по истечению пяти лет.

Удалять, или не удалять - вот в чем вопрос!

creage Активный пользователь

Vladson Старожил

Kreker Старожил

creage Активный пользователь

Kreker Старожил

creage Активный пользователь

Kreker Старожил

topas Активный пользователь

creage Активный пользователь

creage Активный пользователь

topas Активный пользователь

Vladson Старожил

Anonymous Guest

Dagdamor Активный пользователь

Dagdamor Активный пользователь

Anonymous Guest

Anonymous Guest

creage Активный пользователь

Anonymous Guest

[vs] Суперстар
Команда форума Модератор

Anonymous Guest

Dagdamor Активный пользователь

Anonymous Guest

Быстрый поиск

Удалять, или не удалять - вот в чем вопрос!

creage Активный пользователь

Vladson Старожил

Kreker Старожил

creage Активный пользователь

Kreker Старожил

creage Активный пользователь

Kreker Старожил

topas Активный пользователь

creage Активный пользователь

creage Активный пользователь

topas Активный пользователь

Vladson Старожил

Anonymous Guest

Dagdamor Активный пользователь

Dagdamor Активный пользователь

Anonymous Guest

Anonymous Guest

creage Активный пользователь

Anonymous Guest

[vs] Суперстар Команда форума Модератор

Anonymous Guest

Dagdamor Активный пользователь

Anonymous Guest

[vs] Суперстар
Команда форума Модератор