Неверояное большое количество записей в бд

RomanCasper · 29 июл 2016

Всем привет.
Мне нужно как то сохранить
1 (30 нолей) записей, и осуществить поиск в них за примерно 20 секунд.
Записи вида (ключ > значение)
Каким образом это дело осуществить то?
p.s.
записей: 1 000 000 000 000 000 000 000 000 000 000
--- Добавлено ---
и сколько места будет занимать такая база ?

rodent90 · 29 июл 2016

Вы что курили?

Ganzal · 29 июл 2016

@RomanCasper а длина ключей и значений какая?)))

igordata · 29 июл 2016

построить индекс надо. Если по ключам искать, то пофиг, насколько бд жирная.
Если по записям, то уже от длинны записи надо думать.

Места будет занимать 10^30*байт в записи + индекс + мусор и накладные расходы.

PS: пост труЪ

Chushkin · 29 июл 2016

rodent90 сказал(а): ↑

Вы что курили?
Нажмите, чтобы раскрыть...

А может это были ядрёные грибочки.

denis01 · 29 июл 2016

Что-то записей больше чем атомов во вселенной, тут надо задачу узнать, возможно её не верно поставили или решить её можно по другому.

RomanCasper · 29 июл 2016

Поиск осуществлять по значению строки. Длина строки около 50-60 символов. Ключи впринципе вообще не нужны, нужно просто выяснить есть ли значение в базе, т.е. достаточной одной таблицы с одной колонкой. И главное чтобы поиск 20 секунд занимал, не более.
--- Добавлено ---
задачу я поставил точно верную) Количество записей можно сократить наполовину, но не стоит.

Chushkin · 29 июл 2016

А с другой стороны, может это новый Ньютон и ему яблоко упало на голову. Только весом килограмм под 70 и с большой высоты.
--- Добавлено ---
Хотя нет, скорее всего просто Гуманитарий.

denis01 · 29 июл 2016

RomanCasper сказал(а): ↑

задачу я поставил точно верную) Количество записей можно сократить наполовину, но не стоит.
Нажмите, чтобы раскрыть...

ты написал не реальное количество ключей, тут нужно на несколько серверов/регионов разбивать с сортировкой, чтобы по ключу слать запрос на нужный сервер по диапазону ключа.

что это за строки по 50-60 символов, как их генерируют и добавляют в базу?

runcore · 29 июл 2016

RomanCasper сказал(а): ↑

Каким образом это дело осуществить то?
Нажмите, чтобы раскрыть...

задача не имеет решения

Anhk · 29 июл 2016

это задача с собеседования что ль? )

igordata · 29 июл 2016

RomanCasper сказал(а): ↑

Ключи впринципе вообще не нужны, нужно просто выяснить есть ли значение в базе
Нажмите, чтобы раскрыть...

для этого ключи и используются, милейший.

RomanCasper сказал(а): ↑

Длина строки около 50-60 символов
Нажмите, чтобы раскрыть...

хеши взламываются не так. это раз.
два. Поделюсь наблюдением. Чтобы тупо записать БД в 10^30*60 хотя бы байт нужно 10^30*60 байт места =)
три. нужно ещё куда-то записать индекс.

Записи повторяющиеся?
--- Добавлено ---

RomanCasper сказал(а): ↑

Ключи впринципе вообще не нужны
Нажмите, чтобы раскрыть...

не, ну можно сортирнуть. В сортированном списке сами значения - считай ключи. Тут бинарный поиск справится за небольшое количество операций.
--- Добавлено ---

RomanCasper сказал(а): ↑

И главное чтобы поиск 20 секунд занимал, не более.
Нажмите, чтобы раскрыть...

в сортированном списке поиск займёт то время, которое нужно, чтобы делить пополам раз за разом ваши 10^30 помноженное на время доступа к произвольной записи. Это может быть как меньше, так и больше любого числа времени.
--- Добавлено ---

RomanCasper сказал(а): ↑

Количество записей можно сократить наполовину, но не стоит.
Нажмите, чтобы раскрыть...

а можно увеличить вдвое, это уменьшит или увеличит всё это дело только на одно операцию. Конечно, если список сортированный.
--- Добавлено ---

runcore сказал(а): ↑

задача не имеет решения
Нажмите, чтобы раскрыть...

практически - не реализуема. Решение алгоритмическое и не связано с текущими техническими возможностями. Т.е. рано или поздно это будет рутинной задачей.
--- Добавлено ---

Anhk сказал(а): ↑

это задача с собеседования что ль? )
Нажмите, чтобы раскрыть...

с собеседования в faceboogl

Chushkin · 29 июл 2016

Коллеги, вы так серьёзно обсуждаете задачку от троля? Не ожидал...
Задача в принципе не решаема, т.к. в ближайшие несколько сотен лет на всей планете не будет такого количества дисков, чтобы записать такое количество инфы. (на сегодня это нужно порядка 10^19 дисков/миллион триллионов дисков).

igordata · 29 июл 2016

какой ты скучный =(
Весело же!

Chushkin · 29 июл 2016

Весело потрепаться, но не всерьёз же обсуждать.

denis01 · 29 июл 2016

Чем ближе к августу, тем больше людей с обострением или у меня паранойя?

Anhk · 29 июл 2016

@denis01 , обострением чего? )

rodent90 · 29 июл 2016

<матное слово>, 30 нулей - нониллионные числа - это какой должен быть системник.
Одной базой не отделаться, в любом случае эти данные будут участвовать в выгрузках и импортах, -это довольно накладно держать на простых системниках, нужно сервак поднимать и довольно заряженный и к тому же без измерений с этими данными работать будет невозможно.
Хотите живой пример?
Пожалуйста: google.ru 10^100
Так вы только посмотрите их историю и какие у них системки. У вас желание пропадет заниматься этим.

Ganzal · 29 июл 2016

@Anhk есть в медицинской практике весенние и осенние обострения у людей страдающих психологическими отклонениями. Крышка отъезжает в отпуск у тёпленьких. Так яснее?

runcore · 30 июл 2016

igordata сказал(а): ↑

Решение алгоритмическое и не связано с текущими техническими возможностями. Т.е. рано или поздно это будет рутинной задачей.
Нажмите, чтобы раскрыть...

теория это хорошо, но реальность накладывает свои ограничения, которые не обойти. с частотой процессоров также говорили. а щас уперлись в 5-6Ггц. и все.
еще дело в том что и нет необходимости в хранении такого кол-ва данных. даже если гдето генерируются огромные потоки данных, то хранится только за некий период, а потом они анализируются, из них вытаскиваются необходимые статистические, аналитические полезные данные. и так по циклу. хранить нужно полезную информацию, а полезной не так много.

igordata · 30 июл 2016

runcore сказал(а): ↑

с частотой процессоров также говорили. а щас уперлись в 5-6Ггц. и все.
Нажмите, чтобы раскрыть...

ну, т.е. если не сегодня, то никогда? ну подожди двадцать-тридцать лет. =)

Anhk · 30 июл 2016

@Ganzal , не слышал о таком раньше. ну, или слышал, но совсем невзначай и давно) буду иметь ввиду)

[vs] · 1 авг 2016

RomanCasper сказал(а): ↑

Всем привет.
Мне нужно как то сохранить
1 (30 нолей) записей, и осуществить поиск в них за примерно 20 секунд.
Записи вида (ключ > значение)
Каким образом это дело осуществить то?
p.s.
записей: 1 000 000 000 000 000 000 000 000 000 000
--- Добавлено ---
и сколько места будет занимать такая база ?
Нажмите, чтобы раскрыть...

Это сотая степень двойки. Иначе говоря, 128-битный процессор сможет не напрягаясь работать с числами, в 340 миллионов раз больше.
Как уже написал @igordata, если записи отсортированы, то алгоритм бинарного поиска найдет значение очень быстро - в пределах 100 шагов. Вообще-то говоря, с этим за доли секунды может справиться даже старенький процессор.
Реальную проблему представляет хранение такого объема информации. Дело в том, что во взрослом человеке число атомов в 180 раз меньше. Чтобы обеспечить уникальность записей, нужно выделить минимум 13 байт на каждую, или 104 бита. Если вы достигните плотности записи 1 атом = 1 бит, то потребуется около 800 тонн информационного накопителя, не считая его архитектуры.

igordata · 1 авг 2016

[vs] сказал(а): ↑

Дело в том, что во взрослом человеке число атомов в 180 раз меньше. Чтобы обеспечить уникальность записей, нужно выделить минимум
Нажмите, чтобы раскрыть...

полтора землекопа!
--- Добавлено ---

[vs] сказал(а): ↑

то потребуется около 800 тонн информационного
Нажмите, чтобы раскрыть...

человека Джони, где ты? Ты нужен!

denis01 · 2 авг 2016

Неверояное большое количество записей в бд

RomanCasper Новичок

rodent90 Новичок

Ganzal Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

Chushkin Активный пользователь

denis01 Суперстар
Команда форума Модератор

RomanCasper Новичок

Chushkin Активный пользователь

denis01 Суперстар
Команда форума Модератор

runcore Старожил

Anhk Активный пользователь

igordata Суперстар
Команда форума Модератор

Chushkin Активный пользователь

igordata Суперстар
Команда форума Модератор

Chushkin Активный пользователь

denis01 Суперстар
Команда форума Модератор

Anhk Активный пользователь

rodent90 Новичок

Ganzal Суперстар
Команда форума Модератор

runcore Старожил

igordata Суперстар
Команда форума Модератор

Anhk Активный пользователь

[vs] Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

denis01 Суперстар
Команда форума Модератор

Быстрый поиск

Неверояное большое количество записей в бд

RomanCasper Новичок

rodent90 Новичок

Ganzal Суперстар Команда форума Модератор

igordata Суперстар Команда форума Модератор

Chushkin Активный пользователь

denis01 Суперстар Команда форума Модератор

RomanCasper Новичок

Chushkin Активный пользователь

denis01 Суперстар Команда форума Модератор

runcore Старожил

Anhk Активный пользователь

igordata Суперстар Команда форума Модератор

Chushkin Активный пользователь

igordata Суперстар Команда форума Модератор

Chushkin Активный пользователь

denis01 Суперстар Команда форума Модератор

Anhk Активный пользователь

rodent90 Новичок

Ganzal Суперстар Команда форума Модератор

runcore Старожил

igordata Суперстар Команда форума Модератор

Anhk Активный пользователь

[vs] Суперстар Команда форума Модератор

igordata Суперстар Команда форума Модератор

denis01 Суперстар Команда форума Модератор

Ganzal Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

denis01 Суперстар
Команда форума Модератор

denis01 Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

denis01 Суперстар
Команда форума Модератор

Ganzal Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

[vs] Суперстар
Команда форума Модератор

igordata Суперстар
Команда форума Модератор

denis01 Суперстар
Команда форума Модератор