уникальность md5

DarkElf · 28 июл 2008

а почему нет? текст преобразуется в итоге в точно такие же байты, как и число)

joost · 28 июл 2008

dAllonE сказал(а):

уникальный индекс по большому тексту делать не рекомендую
Нажмите, чтобы раскрыть...

надо имено по большому
уточнил вопрос в теме топика. глянь пожалуйста!

DarkElf сказал(а):

а почему нет? текст преобразуется в итоге в точно такие же байты, как и число)
Нажмите, чтобы раскрыть...

не понял!

dAllonE · 28 июл 2008

joost, я сегодня что-то туго соображаю.

Как я понимаю:

1. Есть какой-то большой текст.
2. Ты делаешь из него md5 хэш.
3. В таблице есть поле CHAR(32) и по нему сделан уникальный индекс
4. Ты туда запихиваешь md5 хэш и по нему определяешь есть ли у тебя такой текст уже в таблице или нет.

Такая схема вполне себе работает и все отлично. (За исключением времени создания MD5 хэша от ОЧЕНЬ больших текстов/файлов).

Я все правильно понял?

DarkElf · 28 июл 2008

joost сказал(а):

DarkElf писал(а):
а почему нет? текст преобразуется в итоге в точно такие же байты, как и число)

не понял! Smile
Нажмите, чтобы раскрыть...

ну, для субд любые данные - набор байтов. и в индексе хранится не число 1 или строка "птыцо дурак", а соответствующие им наборы байтов.

joost · 28 июл 2008

dAllonE сказал(а):

1. Есть какой-то большой текст.
Нажмите, чтобы раскрыть...

да

dAllonE сказал(а):

2. Ты делаешь из него md5 хэш.
Нажмите, чтобы раскрыть...

да

dAllonE сказал(а):

3. В таблице есть поле CHAR(32) и по нему сделан уникальный индекс
Нажмите, чтобы раскрыть...

нет. есть поле text - в нем хранится текст. по нему (по тексту) сделан уникальный индекс (это md5() от текста) полем bigint(20)

dAllonE сказал(а):

4. Ты туда запихиваешь md5 хэш и по нему определяешь есть ли у тебя такой текст уже в таблице или нет.
Нажмите, чтобы раскрыть...

в отдельное поле bigint(20)

Например
code_model, name_model
md5(телефон Lg B1300 с наушниками и т. д.), телефон Lg B1300 с наушниками и т. д.

Проблема в том, что md5(телефон Lg B1300 с наушниками и т. д.) это будет число в 16 ричной системе числения, а в БД в поле bigint(20) записывается простое число (не уверен, но наверное в 10 ричной системе). Как формируется это число, которое записывается в таблицу БД? Будет ли оно уникальным?

dAllonE · 28 июл 2008

joost, Чисто ИМХО, на истину не претендую:

1. Максимальное значение которое можно хранить в BIG INT Unsigned: 2^64 = 18446744073709551616
2. md5 хэш - 128 бит. => 2^128 = 3,4028236692093846346337460743177e+38

Итого либо взять столбец типа DOUBLE, либо индекс делать по CHAR(32) и не парить себе мозг.

Hight · 28 июл 2008

dAllonE сказал(а):

индекс делать по CHAR(32) и не парить себе мозг
Нажмите, чтобы раскрыть...

ИМХО

joost · 28 июл 2008

dAllonE сказал(а):

индекс делать по CHAR(32)
Нажмите, чтобы раскрыть...

тоесть обрезать текст до 32 символов? уникальный индекс делать отдельным полем (md5 от строки в bigint(20) ) таблици или текстовое поле (обрезаное до 32 ) делать уникальным индексом?

Sergey89 · 28 июл 2008

Жесть. md5 от текста это 32 символа. вот эти 32 символа туда и запиши!!!!111

joost · 28 июл 2008

Hight сказал(а):

индекс делать по CHAR(32) и не парить себе мозг
Нажмите, чтобы раскрыть...

как сделать уникальным индекс по текстовому полю? там вроде длину индекса (количество символов, которые учитывать) надо указывать. как это делать? какой сиснтаксис запроса на создание такого индекса?

dAllonE · 28 июл 2008

joost, ты захавал мой мозг. Весь до последней капли.
Цени алгортим:

0. Делаешь ALTER TABLE `table_name` ADD `hash` CHAR( 32 ) NOT NULL
1. Делаешь ALTER TABLE `table_name` ADD UNIQUE (`hash`)
2. Делаешь md5 хэш своего большого текста.
3. Получившийся хэш размером 32 символа пишешь в БД.
4. Радуешься уникальному хэшу своего большого текста и пишешь, что тему можно закрывать.

там вроде длину индекса (количество символов, которые учитывать) надо указывать
Нажмите, чтобы раскрыть...

Это нужно делать, если ты делаешь индекс по полю типа TEXT. Мы же его делаем по CHAR(32). Поэтому все будет ок и так.

dAllonE · 28 июл 2008

Sergey89 + 1

antonn · 29 июл 2008

dAllonE
у бигинтегера знак есть - последний бит, итого 2^63.

dAllonE · 29 июл 2008

antonn, я писал:

dAllonE сказал(а):

BIG INT Unsigned
Нажмите, чтобы раскрыть...

Ибо, я думаю, вряд ли md5 выдаст отрицательный хэш...

joost · 29 июл 2008

в поле CHAR(32) сколько символов строки влезет? всего 32?
какая разница между char и varchar?

Sergey89 · 29 июл 2008

joost, издеваешься? Прочти ты наконец уже документацию по MySQL. http://dev.mysql.com

antonn · 29 июл 2008

ну, в принципе, если никаких арифметических операций не предвидится, то можно попробывать и unsigned, однако в справке рекомендуется не юзать значения больше 2^63

joost
у varchar переменная длина при хранении, плюс хранится байт длины (и потому длина не может быть более 255 буковок)

Sergey89 · 29 июл 2008

и потому длина не может быть более 255 буковок
Нажмите, чтобы раскрыть...

Щас тебе скажут, что в варчар можно хранить до 65к символов

antonn · 29 июл 2008

в какой версии мускла для длины юзают word вместо байта?

Sergey89 · 29 июл 2008

Там всё несколько сложнее. 65к это максимальное число, которое могут разделить между собой варчар столбцы.

joost · 29 июл 2008

Sergey89 сказал(а):

могут разделить между собой варчар столбцы
Нажмите, чтобы раскрыть...

может глупый вопрос.
одной таблици?

dAllonE · 29 июл 2008

однако в справке рекомендуется не юзать значения больше 2^63
Нажмите, чтобы раскрыть...

Ну он туда md5 хэш планировал просто кидать. А не рекомендуется больше 63 бит держать только при выполнении арифметических операций (не битовых)..

dAllonE · 29 июл 2008

Все. Я так больше не могу. К блондинкам.

joost · 29 июл 2008

dAllonE сказал(а):

Все. Я так больше не могу. К блондинкам.
Нажмите, чтобы раскрыть...

слабонервный! не в обиду!

joost · 29 июл 2008

dAllonE сказал(а):

0. Делаешь ALTER TABLE `table_name` ADD `hash` CHAR( 32 ) NOT NULL

1. Делаешь ALTER TABLE `table_name` ADD UNIQUE (`hash`)

2. Делаешь md5 хэш своего большого текста.

3. Получившийся хэш размером 32 символа пишешь в БД.
Нажмите, чтобы раскрыть...

dAllonE сказал(а):

0. Делаешь ALTER TABLE `table_name` ADD `hash` CHAR( 32 ) NOT NULL
Нажмите, чтобы раскрыть...

а можно ALTER TABLE `table_name` ADD `hash` int( 32 ) ? Чем лучше или хуже CHAR( 32 )?

уникальность md5

DarkElf Активный пользователь

joost Guest

dAllonE Guest

DarkElf Активный пользователь

joost Guest

dAllonE Guest

Hight Старожил
Команда форума Модератор

joost Guest

Sergey89 Активный пользователь

joost Guest

dAllonE Guest

dAllonE Guest

antonn Активный пользователь

dAllonE Guest

joost Guest

Sergey89 Активный пользователь

antonn Активный пользователь

Sergey89 Активный пользователь

antonn Активный пользователь

Sergey89 Активный пользователь

joost Guest

dAllonE Guest

dAllonE Guest

joost Guest

joost Guest

Быстрый поиск

уникальность md5

DarkElf Активный пользователь

joost Guest

dAllonE Guest

DarkElf Активный пользователь

joost Guest

dAllonE Guest

Hight Старожил Команда форума Модератор

joost Guest

Sergey89 Активный пользователь

joost Guest

dAllonE Guest

dAllonE Guest

antonn Активный пользователь

dAllonE Guest

joost Guest

Sergey89 Активный пользователь

antonn Активный пользователь

Sergey89 Активный пользователь

antonn Активный пользователь

Sergey89 Активный пользователь

joost Guest

dAllonE Guest

dAllonE Guest

joost Guest

joost Guest

Hight Старожил
Команда форума Модератор