Поиск в двух таблицах

ivanisoff · 12 фев 2018

Добрый день. Можете помочь оптимизировать как то запрос

Код (Text):

SELECT apache_logs.*

FROM apache_logs

WHERE (apache_logs.user_agent In (SELECT bad_user_agents.name FROM bad_user_agents))

GROUP BY ip

Логика такая. Есть две таблицы.
Первая два поля ид и user_agent
Вторая таблица ид, user_agent и другие данные
Надо проверить каждую строку из второй таблицы(столбец user_agent) на совпадение любому из значений списка столбца "user_agent" в таблице один

Таблицы никак не связаны между собой. В данный момент запрос стоит как в начале написал, но он долго работает, есть какие нибудь идеи как оптимизировать можно, увеличив скорость?

Поидее там быстро должно все работать, в первой таблице список примерно из 150 user_agent всего. И каждую строку с столбцом "user_agent" из таблицы два, а их всего 25000, надо проверить на совпадение любому из этого списка таблицы один. Запрос выполняется секунд 80. Долго слишком. Можете помочь?

Связать по имени таблицы я не могу, так как список user_agent в таблице 2 намного больше чем в таблице один, и он постоянно увеличивается там, имею ввиду количество уникальных.

rewuxiin · 12 фев 2018

LEFT JOIN

ADSoft · 13 фев 2018

ivanisoff сказал(а): ↑

Связать по имени таблицы я не могу
Нажмите, чтобы раскрыть...

если б не могли - у вас бы и запроса не было....

наверное так?

Код (Text):

SELECT logs.*

FROM apache_logs AS logs

LEFT JOIN bad_user_agents AS bad ON bad.name=logs.user_agent

GROUP BY logs.ip

Ну и для скорости соответствующие поля таблиц сделать индексами

ivanisoff · 13 фев 2018

ADSoft сказал(а): ↑

если б не могли - у вас бы и запроса не было....

наверное так?

Код (Text):

SELECT logs.*

FROM apache_logs AS logs

LEFT JOIN bad_user_agents AS bad ON bad.name=logs.user_agent

GROUP BY logs.ip

Ну и для скорости соответствующие поля таблиц сделать индексами
Нажмите, чтобы раскрыть...

Такой подход я тоже делал, прироста скорости не получил увы..

Как я могу сделать соответствующие поля индексами? Я понимаю что так будет быстрее, но у меня нет таблицы "справочника" В таблице 1 один список, в таблице 2 другой список и он непостоянен, он увеличивается постоянно, нет же фиксированного списка user_agent, где бы просто индексы ставил что в первой, что во второй таблице, или я чего то не так понимаю?

ivanisoff · 13 фев 2018

Хотя запрос я делал так

Код (Text):

SELECT apache_logs.*

FROM bad_user_agents

LEFT JOIN apache_logs ON (bad_user_agents.name = apache_logs.user_agent)

WHERE apache_logs.user_agent IS NOT null

GROUP by ip

И по времени он идентичен запросу

Код (Text):

SELECT apache_logs.*

FROM apache_logs

WHERE (apache_logs.user_agent In (SELECT bad_user_agents.name FROM bad_user_agents))

GROUP BY ip

Единственное быстрее работает если уберу из первого запроса условие WHERE apache_logs.user_agent IS NOT null, то есть получается такой запрос

Код (Text):

SELECT apache_logs.*

FROM bad_user_agents

LEFT JOIN apache_logs ON (bad_user_agents.name = apache_logs.user_agent)

GROUP by ip

Он работает в 2-2,5 раза быстрее примерно, это уже хорошо, но первая строка null идет, не пойму почему, есть предположения почему это может быть?

ADSoft · 13 фев 2018

ivanisoff сказал(а): ↑

Я понимаю что так будет быстрее, но у меня нет таблицы "справочника"
Нажмите, чтобы раскрыть...

как уж нет, bad_user_agents в вашем случае
сделайте указанные поля индексами и все .... при добавлении новых значений в табл - индекс будет перестроен (правдо это немного увеличивает время на добавление.... но на вашем кол-ве это вообще незаметно будет)

ivanisoff сказал(а): ↑

но первая строка null идет, не пойму почему
Нажмите, чтобы раскрыть...

потому что она есть ))) почему бы ей не выдаться в результатах ))))
добавьте тогда к запросу свое условие

Код (Text):

WHERE logs.user_agent IS NOT null

ivanisoff · 13 фев 2018

ADSoft сказал(а): ↑

как уж нет, bad_user_agents в вашем случае
сделайте указанные поля индексами и все .... при добавлении новых значений в табл - индекс будет перестроен (правдо это немного увеличивает время на добавление.... но на вашем кол-ве это вообще незаметно будет)

потому что она есть ))) почему бы ей не выдаться в результатах ))))
добавьте тогда к запросу свое условие

Код (Text):

WHERE logs.user_agent IS NOT null

Нажмите, чтобы раскрыть...

bad_user_agents это не справочник, здесь лишь часть записей лежит, тут например 150 записей так таблица 1, а в таблице 2 уник записей может вообще быть 1000, и как быть тогда, где есть из таблицы один в таблице два я поставлю индекс хорошо, а в другие поля как быть? поэтому и проблема с индексом.

Про WHERE logs.user_agent IS NOT null писал что из-за этой проверки тормозится время сильно.

А вот по null строчке, как бы вычислить где это зарыто, ибо пересмотрел уже по всем параметрам, нигде нет с null не одного поля

ADSoft · 13 фев 2018

ну хотите советов - не делайте,
"справочник" - имелось ввиду в некотором роде
про индексы похоже у вас вообще понятия нет, что это и для чего, просто поверьте - и добавьте индексы как я указал
а null - потому что у вас группировка по ip, а надо бы конечно по logs.user_agent
то есть справедливо - что для некоторых ip нет каких-то юзерагентов вот и null
а вообще в любом случае 25000 и 1500 не такие цифры чтоб запросам виснуть... нужно смотреть структуру таблиц, типы полей, и индексы. индексы и еще раз индексы

ivanisoff · 13 фев 2018

prnt.sc/ie27zo

Нарисовал мое понимание индексов, разве я не верно понимаю работу?

Давно бы добавил но как я это сделаю? на картинке второй вариант, когда у меня нет всех возможных вариантов

ivanisoff · 13 фев 2018

А вот скрин с null https://prnt.sc/ie2i5j
Странно как то появлятся она на разных данных всегда вот так на первом месте

ADSoft · 13 фев 2018

по моему вы индексы путаете с внешними ключами (FK)
попробуйте почитать

ivanisoff сказал(а): ↑

Давно бы добавил но как я это сделаю?
Нажмите, чтобы раскрыть...

в phpmyadmin например - на поле name одной таблицы добавьnе в индекс во второй по user_agents то же самое и все!

ivanisoff сказал(а): ↑

А вот скрин с null https://prnt.sc/ie2i5j
Странно как то появлятся она на разных данных всегда вот так на первом месте
Нажмите, чтобы раскрыть...

предыдущем посте сказал же - что группировка неверна - вот и null

ivanisoff · 13 фев 2018

https://prnt.sc/ie3j46 так??, верно теперь?

И про нулл, мне нужно найти ip где есть хотя бы раз в запросе с данного ip плохой user agent, поэтому и группирую по ip

ADSoft · 13 фев 2018

ну раз сделали - вы должны были почувствовать разницу в скорости... а так - да. Ну еще желательно конечно чтоб поля по размерности совпадали varchar 255 - varchar 255

ivanisoff · 13 фев 2018

Есть плюсы, есть минусы, конкретно этот запрос, я оставил с самого первого поста который, стал работать моментально. Вопросов нет. Но другой запрос, массовый insert стал работать в два раза медленнее.

ADSoft · 13 фев 2018

ну я говорил что добавление замедлится...
но не в разы... может добавляете как то не так? )))

ivanisoff · 13 фев 2018

https://prnt.sc/ie8v7n вот индексы добавил.
Как бы есть и плюсы и минусы как раньше говорил, походу выбирать придется что то одно, куда жертвовать время.
Есть добавление и удаление данных и есть сбор статистики. Дак вот, обработать файл 100мб 350000строк примерно на расчеты(статистику) тратилось 90 секунд у меня, прочитав статью про индексы что вы дали, стало 6-7 секунд - это плюс.

Но те же 100мб 350000строк например загрузить в таблицу или удалить из нее стало раза в 4 медленнее. Раньше распарсить и загрузить уходило секунд 20 (время везде меряю функцией microtime(1)), сейчас 80. Индексы которые добавил приложил на скрине.

Есть ли возможность сохранить время на расчет результатов, которое сейчас удалось добиться, но при этом и время вернуть которое раньше было на добавление записей в бд таблицу?
--- Добавлено ---
а добавляю записи как в дампе mysql идет, массовый insert, количество подключений к бд минимально, просто запрос длинный идет и все

ADSoft · 13 фев 2018

как то вы странно читаете .... или не читаете что-ли?
я же говорю - нужно еще смотреть как вы файлы обрабатываете и грузите в мускуль

кстати зачем вы еще там полей в индекс то добавили? Они вроде нигде у вас в запросах и не используются
--- Добавлено ---
1. для быстрой загрузки средствами самого MySQL есть http://www.mysql.ru/docs/man/LOAD_DATA.html
2. ЗА один INSERT можно (и нужно) добавлять сразу группу значений..... например я в некоторых проектах своих использовал группы по 100 записей - оченно увеличивает скорость
3. Теоретически перед загрузкой можно индексы удалять - загружать - индексы добавлять ..... но не уверен что удаление и создание индексов в сумме с загрузкой будет меньше

ivanisoff · 13 фев 2018

1. Прочту завтра статью, спасибо.
2. Я при тестах обнаружил что вся оптимизация идет в трубу, если количество mysqli_query не минимизировано, то есть если добавлять по одной записи или по несколько, вообще по идее можно запрос делать длины такой select @@max_allowed_packet и его субд должна обработать. Вообщем в принципе делаю так же как и вы написали, может только количество записей за раз больше добавляется.
3. Это надо опробовать опять же на тестах и проверить, завтра сделаю это.

А по поводу индексов и запросов - запрос, указанный в первом посте, это лишь один из запросов, проводимых для статистики, и то он лишь составной другого запроса. А индексы все связаны с другими запросами, и там реально прирост скорости налицо стал.

Добавляю описал в пункте 2 как , а удаляю обычным не мудреным запросом delete from табличка where 1 и все, ничего хитрого.

ivanisoff · 14 фев 2018

По скорости, что массовый инсерт

Код (Text):

INSERT INTO apache_logs (ip,log_time,method_request,page,version,code,size_bytes,url_referer,user_agent) VALUES (''),(''),('');

что запрос загрузкой файла

Код (Text):

LOAD DATA INFILE "./test.txt"

INTO TABLE apache_logs

FIELDS TERMINATED BY '||'

(ip,log_time,method_request,page,version,code,size_bytes,url_referer,user_agent);

Дает одинаковый результат по скорости, что так, что так уходит на 350 000 распарсить каждую на 10 составляющих и добавить в бд уходит 20+- секунд. Важный момент БЕЗ ИНДЕКСОВ.

С индексами, указанном на скрине https://prnt.sc/ie8v7n на туже самую работу что в первом, что во втором запросе уходит примерно одинаково +-80секунд. Статью вашу прочел, разницу никак не могу получить

ivanisoff · 14 фев 2018

В данный момент вижу только такой вариант, использовать конструкцию

Код (Text):

ALTER TABLE apache_logs DROP INDEX user_agent, DROP INDEX ip_log_time, DROP INDEX ip_code;

DELETE FROM apache_logs WHERE 1;

ALTER TABLE apache_logs ADD INDEX user_agent(user_agent),ADD INDEX ip_log_time(ip,log_time),ADD INDEX ip_code(ip,code);

Для удаления и добавления данных, как вы писали в 3 пункте своего сообщения, всеравно побыстрее это дело работает. С таким подходом 30 секунд уходит, я все тесты провожу на на одном файле 350 000который. Но блин, 30 секунд это на грани, надо уменьшить как то.

artoodetoo · 15 фев 2018

Ты каждый раз чтоли заново объявляешь идексы? Зачем?!

Очистить все данные в таблице можно командой TRUNCATE
--- Добавлено ---
Познавательно про быструю загрузку данных
https://dbahire.com/testing-the-fas...and-some-interesting-5-7-performance-results/
--- Добавлено ---
https://stackoverflow.com/a/2504211/272885
--- Добавлено ---
https://blog.gabriela.io/2016/05/17/fast-data-import-trick/

ivanisoff · 15 фев 2018

Вопрос такой, какие бы правильно все таки было создать индексы, вся работа идет по одной таблице, кроме одного подзароса

Код (Text):

SELECT Y.ip, COUNT(Y.count_all), Z.count_black, Z.count_black_time, Y.count_code, Y.user_agent

FROM

(SELECT apache_logs.ip AS ip, COUNT(apache_logs.ip) AS count_all, SUM(CASE WHEN apache_logs.code = '404' THEN 1 ELSE 0 END) AS count_code, X.count_UA AS user_agent

FROM

(SELECT ip, COUNT(user_agent) AS count_UA

FROM apache_logs

WHERE (apache_logs.user_agent In (SELECT bad_user_agents.name FROM bad_user_agents))

GROUP BY ip) AS X

RIGHT JOIN apache_logs ON (apache_logs.ip = X.ip)

GROUP BY ip) AS Y

LEFT JOIN

(SELECT B.ip, COUNT(B.count_sequence) AS count_black, SUM(B.count_sequence) AS count_black_time

FROM

(SELECT A.ip, A.count_sequence

FROM

(SELECT ip, log_time, COUNT(ip) AS count_sequence

FROM apache_logs

GROUP BY ip, log_time) AS A

WHERE A.count_sequence > 2) AS B

GROUP BY B.ip) AS Z

ON (Y.ip = Z.ip)

GROUP BY Y.ip

Я создал такие индексы

Код (Text):

CREATE INDEX user_agent ON apache_logs(user_agent);

CREATE INDEX ip_log_time ON apache_logs(ip,log_time);

CREATE INDEX ip_code ON apache_logs(ip,code);

Может как то надо по другому? все поля таблицы неуникальные. Запутался я чета уже.

Вот explain запроса
https://prnt.sc/if0zy4

Поиск в двух таблицах

ivanisoff Новичок

rewuxiin Активный пользователь

ADSoft Старожил

ivanisoff Новичок

ivanisoff Новичок

ADSoft Старожил

ivanisoff Новичок

ADSoft Старожил

ivanisoff Новичок

ivanisoff Новичок

ADSoft Старожил

ivanisoff Новичок

ADSoft Старожил

ivanisoff Новичок

ADSoft Старожил

ivanisoff Новичок

ADSoft Старожил

ivanisoff Новичок

ivanisoff Новичок

ivanisoff Новичок

artoodetoo Суперстар
Команда форума Модератор

ivanisoff Новичок

Быстрый поиск

Поиск в двух таблицах

ivanisoff Новичок

rewuxiin Активный пользователь

ADSoft Старожил

ivanisoff Новичок

ivanisoff Новичок

ADSoft Старожил

ivanisoff Новичок

ADSoft Старожил

ivanisoff Новичок

ivanisoff Новичок

ADSoft Старожил

ivanisoff Новичок

ADSoft Старожил

ivanisoff Новичок

ADSoft Старожил

ivanisoff Новичок

ADSoft Старожил

ivanisoff Новичок

ivanisoff Новичок

ivanisoff Новичок

artoodetoo Суперстар Команда форума Модератор

ivanisoff Новичок

artoodetoo Суперстар
Команда форума Модератор