Тест-задание от TiBiDaBo

Chushkin · 6 авг 2015

Там есть задание viewtopic.php?f=3&t=54192#p432911.
Понятно, что хрень полная, но...
Насколько я понял условия (ТС шифруется - не уточнишь, чего он хотел), чтобы рассчитать рейтинг, там будет пересечение двух таблиц. А это очень много и очень плохо.
Может я что-то не знаю и есть другие алгоритмы?
Т.е. можно ли избежать квадратичной зависимости от числа записей, чтобы рассчитать рейтинг и получить 50 записей с максимальным рейтингом?
п.с. ничего на ум не приходит с ходу...

runcore · 6 авг 2015

соединяем львов с львицами. для каждой потенциальной пары вычисляем абсолютную разницу по шерсти и цвету. складываем их. сортируем по этому значению. как сделать именно одни запросом. пока не думал.

имхо. да, будет много пересечений. а как иначе. ведь чтоб найти ближайшую львицу для льва - нужно выбрать из всех оставшихся. и так для каждого льва.

Chushkin · 6 авг 2015

runcore сказал(а):

соединяем львов с львицами. для каждой потенциальной пары вычисляем абсолютную разницу по шерсти и цвету. складываем их. сортируем по этому значению. как сделать именно одни запросом. пока не думал.
Нажмите, чтобы раскрыть...

Да это элементарно. Просто будет квадратичная зависимость от числа записей в таблице. На обработку каждых ~4 тыс.записей в таблице будет зарачено ~1 сек. (~4М считанных строк из таблицы, движком)
В моём понимании 4К записей это не есть большая таблица. Вот поэтому и заинтересовало - может есть алгоритм, который позволяет просчитать быстро именно для большой таблицы (порядка несколько М записей, ещё лучше - десятков М).

...чтоб найти ближайшую львицу для льва - нужно выбрать из всех оставшихся. и так для каждого льва.
Нажмите, чтобы раскрыть...

В условии не сказано, что пара лев+львица должна быть уникальна. Поэтому на каждого льва придётся сканировать всех львиц.

runcore · 6 авг 2015

Chushkin сказал(а):

Поэтому на каждого льва придётся сканировать всех львиц.
Нажмите, чтобы раскрыть...

естественно всех.
мало того. большая вероятность того что для одного льва будет найдено множество оптимальных львиц, с одинаковыми весовыми коэффициентами. а выбрать придется только одну.
причем непонятно, исключать её уже для других львов или нет.

Maputo · 6 авг 2015

Chushkin сказал(а):

50 записей с максимальным рейтингом?
Нажмите, чтобы раскрыть...

Максимальный рейтинг никому не нужен (в условии этого нет)

Chushkin сказал(а):

Поэтому на каждого льва придётся сканировать всех львиц.
Нажмите, чтобы раскрыть...

я так полагаю - не более 10к львиц. Если и среди них нет подходящей - льва в топку. И можно ускорить поиск не выбирая пол. Попался первым лев - ищем львицу, попалась следующей львица - ищем льва. (и искать начиная с индекса, на котором находимся +1). "Важное замечание" - говорит только о том, что берем первую попавшуюся.

Запрос должен быть максимально экономичным!
Нажмите, чтобы раскрыть...

От сюда следует, что не надо к каждому искать пару перебирая 10к записей противоположного пола, а найти оптимальный вариант (ограничение) - например 101 запись (кроме случаев, когда wool или color равны 0 - тогда 10к), после которого стоит перейти к поиску другой пары.

А вот это значит % несовпадения по цвету и шерсти в паре должен быть одинаковым?

Оба признака (wool и color) имеют одинковый вес.
Нажмите, чтобы раскрыть...

Мне кажется вся задача сводится не к перебору всей таблицы, а к обоснованию - сколько надо львов и львиц найти, чтобы собрать 25 пар, отвечающих ЭТОМУ условию. А первое - это для сортировки.

Требуется sql-запросом найти 50 подходящих львов и львиц.
Список должен быть отсортированн от самых подходящих к менее подходящим.
Абсолютно подходящие пары - wool и color совпадают на 100% .
Самые неподходящие - с максимальными различиями.
Оба признака (wool и color) имеют одинковый вес.
Важное замечание:
Если для одного льва находится несколько подходящих в равной степени львиц,
то берем ту, у которой меньший номер.
Аналогично должно работать и с множеством львов у львицы.
Запрос должен быть максимально экономичным!
Нажмите, чтобы раскрыть...

Chushkin сказал(а):

В условии не сказано, что пара лев+львица должна быть уникальна.
Нажмите, чтобы раскрыть...

Спорный вопрос - их должно быть 50, а не меньше

runcore · 7 авг 2015

Maputo сказал(а):

От сюда следует, что не надо к каждому искать пару перебирая 10к записей противоположного пола
Нажмите, чтобы раскрыть...

ну здрасте. а если самая оптимальная львица для него 102-я, а мы уже её игнорим.
имхо это неправильно. если уж искать лучшую пару, то она должна быть лучшей из всех. текст задания это косвенно подтверждает, в замечаниях. где предполагается что реально будет найдено даже больше одной подходящей львицы. так что сканировать нужно всех. иначе не торт

Maputo · 7 авг 2015

runcore сказал(а):

а если самая оптимальная львица для него 102-я, а мы уже её игнорим.
Нажмите, чтобы раскрыть...

А если следующая пара оптимальнее этой?

runcore · 7 авг 2015

Maputo сказал(а):

А если следующая пара оптимальнее этой?
Нажмите, чтобы раскрыть...

потому и нужно сравнить всех со всеми. и выбрать самые оптимальные.

Maputo · 7 авг 2015

runcore сказал(а):

и выбрать самые оптимальные.
Нажмите, чтобы раскрыть...

Этого нет в условии

TiBiDaBo сказал(а):

несколько подходящих в равной степени львиц,
Нажмите, чтобы раскрыть...

а не в максимальной.
Выбрать нужно подходящие, а не самые подходящие.

runcore · 7 авг 2015

Maputo сказал(а):

Выбрать нужно подходящие, а не самые подходящие.
Нажмите, чтобы раскрыть...

в задании сказано:

Список должен быть отсортированн от самых подходящих к менее подходящим.
Нажмите, чтобы раскрыть...

Требуется sql-запросом найти 50 подходящих львов и львиц.
Нажмите, чтобы раскрыть...

учитывая это, получается что нужно выбрать 50 САМЫХ подходящих друг другу пар

Maputo · 7 авг 2015

TiBiDaBo сказал(а):

Список должен быть отсортирован от самых подходящих к менее подходящим.
Нажмите, чтобы раскрыть...

вот так надо читать - слева на право
В таблице с 4к записей - слишком мала вероятность найти среди 25 САМЫХ подходящих пар менее подходящие.

runcore · 7 авг 2015

Maputo сказал(а):

вот так надо читать - слева на право
Нажмите, чтобы раскрыть...

какой ты трудный.
допустим у нас 1000 львов и 1000 львиц.
мы пишем запрос, который правильно подберет пары подходящие.
получаем 1000 пар.
сортируем его от самых подходящих к менее подходящим.
так? так.
далее от этого списка берем только 50 начальных.
какие пары туда попадут? очевидно - самые подходящие друг другу. ибо список то был отсортирован именно так.

вот и получается. что мы в итоге будет иметь 50 самых подходящих пар.
где я неправ?

Maputo · 7 авг 2015

runcore сказал(а):

получаем 1000 пар.
Нажмите, чтобы раскрыть...

TiBiDaBo сказал(а):

Запрос должен быть максимально экономичным!
Нажмите, чтобы раскрыть...

runcore сказал(а):

сортируем его от самых подходящих к менее подходящим.
Нажмите, чтобы раскрыть...

Я гарантирую, что при таком подходе у Вас 25 первых пар можно будет отсортировать в любом порядке и условие не будет нарушено.

И мне кажется я немного увёл в сторону от темы обсуждения. Автор вроде спрашивал про другое:

Chushkin сказал(а):

можно ли избежать квадратичной зависимости от числа записей, чтобы рассчитать рейтинг и получить 50 записей с максимальным рейтингом?
Нажмите, чтобы раскрыть...

runcore · 7 авг 2015

каком "таком" подходе?
условие сортировки описано в самом задании. что ты конкретно предлагаешь, не сортировать?
а если пар будет 100000 или миллион? или больше?

Maputo · 7 авг 2015

Re: Тест-задание от

runcore сказал(а):

не сортировать?
Нажмите, чтобы раскрыть...

Если брать задание, то сначала надо найти 25 пар чтобы был

TiBiDaBo сказал(а):

Список...
Нажмите, чтобы раскрыть...

а потом отсортировать.

runcore сказал(а):

а если пар будет 100000 или миллион? или больше?
Нажмите, чтобы раскрыть...

Это как раз вопрос к Вам об экономичности запроса - находить миллион пар, если нужно 25.

runcore · 7 авг 2015

Maputo сказал(а):

Это как раз вопрос к Вам об экономичности запроса - находить миллион пар, если нужно 25.
Нажмите, чтобы раскрыть...

во-первых, почему 25 а не 50.
во-вторых, чтоб найти эти самые (пусть) 25 - нужно просмотреть Всю тысячу, ибо наиболее подходящей для отдельного льва может быть любая из этой тысячи львиц.

Maputo · 7 авг 2015

runcore сказал(а):

из этой тысячи львиц.
Нажмите, чтобы раскрыть...

или миллиона. Этот запрос будет выполняться семь с половиной миллионов лет и выдаст ответ "42".

runcore сказал(а):

во-первых, почему 25 а не 50.
Нажмите, чтобы раскрыть...

50 особей. Там написано

TiBiDaBo сказал(а):

найти 50 подходящих львов и львиц
Нажмите, чтобы раскрыть...

а не

найти 50 подходящих пар львов и львиц
Нажмите, чтобы раскрыть...

Суть вобщем не меняет количество.

runcore сказал(а):

чтоб найти эти самые
Нажмите, чтобы раскрыть...

Да не нужны никому САМЫЕ. (кроме автора темы, наверное)

P.S.: Я выхожу из спора до появления автора.

runcore · 7 авг 2015

Maputo сказал(а):

50 особей. Там написано
Нажмите, чтобы раскрыть...

неправда. там написано совсем не так.
"50 подходящих львов и львиц" ------ это и есть 50 пар. слово "подходящих" тут главное. ибо подходить они должны друг-другу. следовательно 50 львов и 50 подходящих к ним львиц. всего 50 пар. все просто. странно что такое простое предложение поставило тебя в тупик.

а пара формируется только тогда - когда известно что остальные претенденты подходят меньше чем текущий. т.е. просомтреть нужно всех.

Добавлено спустя 4 минуты 38 секунд:

Maputo сказал(а):

Да не нужны никому САМЫЕ. (кроме автора темы, наверное)
Нажмите, чтобы раскрыть...

опять мимо. ну прочти ты условие. прежде чем бредить.

Список должен быть отсортированн от самых подходящих к менее подходящим.
Нажмите, чтобы раскрыть...

отсортированный список как раз будет содержать вначале САМЫЕ подходящие пары. непонятно почему ты с этим вообще споришь.

artoodetoo · 7 авг 2015

Давайте рассуждать логически: сортировка по вычисленному "весу" приведет к полному перебору. То есть квадрат от числа особей.

Но, у нас есть всего два признака для сочетания. Они либо совпадают либо нет, без оттенков серого. Всего четыре варианта "веса". При таком ограниченном раскладе можно сделать четыре отдельных запроса, использующих ключ. Это дешевле, чем сортировать гигантскую временную таблицу по выражению.

У нас должен быть ключ по (x,y).
Сначала запрашиваем where x=x and y=y limit 50. Если записей хватит, то на этом и остановимся.
Если получено n < 50, то следующий запрос: x=x and y<>y limit (50-n)
... не более 4 быстрых запросов

Добавлено спустя 1 минуту 22 секунды:
Вариация на тему: четыре запроса с limit 50 клеим через union all и оборачиваем в еще один запрос с limit 50

Maputo · 7 авг 2015

Отображение строк 0 - 24 (25 всего, Запрос занял 2.2053 сек.)
При выборе 50 особей(к сожалению не уникальных, но совпадений не было) из 10к совпадающих на 100% - тут и сортировать нечего.
Если нужен дамп таблицы (заполненной с помощью rand()) - могу скинуть.
Условие для определения диапазона перебираемых записей при поиске:

Код (PHP):

WHERE s2.id > s1.id

AND s2.id < ( s1.id + IF( s1.wool = s1.color, 101,

                                  IF( s1.wool =0 OR s1.color =0, 10201,

                                  IF( s1.wool > s1.color,

                                                   10201 / ( LEAST( ( 100 - s1.wool ) , s1.color ) ) ,

                                                   10201 / ( LEAST( ( 100 - s1.color ) , s1.wool ) )

                                  ) ) )

)

Сыровато, но результат дает.
P.S.: Деление на 0 еще одно просмотрел, но это лечится и мне не попалось значений равных 100

artoodetoo · 7 авг 2015

2 секунды на таблице в 10тыс записей? это ужасно.

Maputo · 7 авг 2015

Maputo сказал(а):

совпадающих на 100%
Нажмите, чтобы раскрыть...

Maputo сказал(а):

Сыровато, но результат дает.
Нажмите, чтобы раскрыть...

Результат такой, что диапазон поиска, который я предлагаю - подходит для нахождения 25 идеальных пар. Чего уже говорить о частично соответствующих.
P.S.: и 2 секунды - это не из-за диапазона, а из-за огромного костыля в моем запросе(который мне стыдно выкладывать целиком)
P.P.S.: Отображение строк 0 - 24 (25 всего, Запрос занял 0.1116 сек.) - Не кеш. С тем же костылем, но составным ключем по полям wool, color, sex

Chushkin · 7 авг 2015

Maputo, Вы зря спорите с runcore, - он прав. По контексту должны быть именно "самые подходящие".
Но... если подходить формально (без контекста), то достаточно любых 50 подходящих.

runcore · 7 авг 2015

artoodetoo сказал(а):

Сначала запрашиваем where x=x and y=y limit 50. Если записей хватит, то на этом и остановимся
Нажмите, чтобы раскрыть...

тоже была такая мысль. но хотелось решить задачу академически, чтоб именно одним запросом и както хитро раскидать по парам)

Chushkin · 7 авг 2015

Вообще, в задании меня заинтересовали критерии:
- "Большая" это сколько?
- Что есть критерий "максимально экономичный"?
Задал вопрос ТС-у и получил ответ:
- 10млн записей
- запрос занимающий минимальное кол-во времени

Добавлено спустя 6 минут 29 секунд:

artoodetoo сказал(а):

У нас должен быть ключ по (x,y).
Сначала запрашиваем where x=x and y=y limit 50. Если записей хватит, то на этом и остановимся.
Если получено n < 50, то следующий запрос: x=x and y<>y limit (50-n)
... не более 4 быстрых запросов
Нажмите, чтобы раскрыть...

Не всё так просто. Я думал и пытал такое, -для x=x and y=y при равномерном случайном распределении даёт порядка ~5 на 1000 записей. Т.е. выигрыша даёт мало. Кроме того, при НЕравномерном распределении (кто сказал, что в ральной базе rand()?), таких записей вообще может не быть.
С другой стороны, такой подход может быть оптимальным и быстрым (тысячные доли сек), если в базе достаточно таких значений.
И с третьей стороны, runcore прав - есть частное решение, а есть универсальное ("академическое").

Добавлено спустя 32 минуты 29 секунд:
Я посчитал немного...
На таблице в 2000 записей с равномерным распределением универсальный расчёт выполняется ~0.65 сек. и производит ~1 млн. чтений из таблицы (Innodb_rows_read# в SQLyog).
Т.е. на 10 млн. будет выполняться порядка 188 дней.
Кстати, в результат попадаю всего 2 значения с (x=x and y=y).
п.с. могу выложить код, если нужно.

Тест-задание от TiBiDaBo

Chushkin Активный пользователь

runcore Старожил

Chushkin Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

artoodetoo Суперстар
Команда форума Модератор

Maputo Активный пользователь

artoodetoo Суперстар
Команда форума Модератор

Maputo Активный пользователь

Chushkin Активный пользователь

runcore Старожил

Chushkin Активный пользователь

Быстрый поиск

Тест-задание от TiBiDaBo

Chushkin Активный пользователь

runcore Старожил

Chushkin Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

Maputo Активный пользователь

runcore Старожил

artoodetoo Суперстар Команда форума Модератор

Maputo Активный пользователь

artoodetoo Суперстар Команда форума Модератор

Maputo Активный пользователь

Chushkin Активный пользователь

runcore Старожил

Chushkin Активный пользователь

artoodetoo Суперстар
Команда форума Модератор

artoodetoo Суперстар
Команда форума Модератор