Если у меня есть маска с нужным числом единиц, мне и сдвиг никакой тогда не нужен. --- Добавлено --- Видимо быстрее, чем двойку в степень возводить, будет только если уже со считанные маски в массив готовый записать, но для 64 бит больно много выходит.
@johovich, умножение на 2 идентично сдвигу на один бит влево, деление на 2 - сдвигу на один бит вправо. Следовательно, вместо pow(2, $length) можно использовать (2<<($length - 1)), при условии, что $length > 0.
Код (Text): <?php //это двойка $i = 0b10; $i2 = $i << 1; //а тут мы ее сдигаем и получаем 100 echo decbin($i2); Вычитания правильного не хватает. Код (Text): <?php $i = 2; $len = 7; $mask = ($i << $len - 1) - 1; echo decbin($mask); Так работает. Засуну в бенчмарк, посмотрим что будет быстрее.
Спойлер: функция подсчета битов в числе Код (PHP): function bit_count_hard(int $v, int $length = null) { if ($length > 0) { $v &= (2 << $length - 1) - 1; } $S = [1, 2, 4, 8, 16]; // Magic Binary Numbers $B = [0x55555555, 0x33333333, 0x0F0F0F0F, 0x00FF00FF, 0x0000FFFF]; $c = $v - (($v >> 1) & $B[0]); $c = (($c >> $S[1]) & $B[1]) + ($c & $B[1]); $c = (($c >> $S[2]) + $c) & $B[2]; $c = (($c >> $S[3]) + $c) & $B[3]; $c = (($c >> $S[4]) + $c) & $B[4]; return $c; } function bit_count_hard2(int $v, int $length = null) { if ($length > 0) { $v &= (2 << $length - 1) - 1; } $c = $v - (($v >> 1) & 0x55555555); $c = (($c >> 2) & 0x33333333) + ($c & 0x33333333); $c = (($c >> 4) + $c) & 0x0F0F0F0F; $c = (($c >> 8) + $c) & 0x00FF00FF; $c = (($c >> 16) + $c) & 0x0000FFFF; return $c; } function bit_count_pow(int $bmask, int $length = null) { if ($length !== null) { $bmask &= pow(2, $length) - 1; } $cnt = 0; while ($bmask != 0) { $cnt++; $bmask &= $bmask - 1; } return $cnt; } function bit_count_shift(int $bmask, int $length = null) { if ($length > 0) { $bmask &= (2 << $length - 1) - 1; } $cnt = 0; while ($bmask != 0) { $cnt++; $bmask &= $bmask - 1; } return $cnt; } Код (PHP): $s = '1111111111111111111111111100'; $i = bindec($s); $length = 30; $times = 1000000; $res['bit_count_pow'][] = bit_count_pow($i, $length); $res['bit_count_shift'][] = bit_count_shift($i, $length); $res['bit_count_hard'][] = bit_count_hard($i, $length); $res['bit_count_hard2'][] = bit_count_hard2($i, $length); $res['bit_count_pow'][] = bmark($times, 'bit_count_pow', $i, $length); $res['bit_count_shift'][] = bmark($times, 'bit_count_shift', $i, $length); $res['bit_count_hard'][] = bmark($times, 'bit_count_hard', $i, $length); $res['bit_count_hard2'][] = bmark($times, 'bit_count_hard2', $i, $length); print_r($res); Результаты: Код (PHP): Array ( [bit_count_pow] => Array ( [0] => 26 [1] => 3.0027370452881 ) [bit_count_shift] => Array ( [0] => 26 [1] => 2.9123110771179 ) [bit_count_hard] => Array ( [0] => 26 [1] => 2.4514529705048 ) [bit_count_hard2] => Array ( [0] => 26 [1] => 2.3469979763031 ) ) Получается, что замена pow() на сдвиг дает 3% прироста скорости, а если на такой большой маске (26 единиц) применить еще параллельный метод вместо метода Вейнера, то прирост скорости 21%.
Да, все что можно было сюда сделать - сделал и залил. Сейчас пробуют по более сложной схеме сделать, но должно получится компактнее гораздо. Там по моим прикидкам в среднем 4 из 46 ссылок в узле используются. Получается на 3 млн. узлов потери 378 млн. байт, или 360мб. В общем концепция такая: Узлы и ссылки в отдельных блоках. Узлы как и раньше постоянной длины, но теперь так: Блок узлов: 6 байт маска 4 байт ссылка на блок в ссылках (смещение в байтах) Блок ссылок: Ссылки узла для поднятых битов в узле. 3 байта на ссылку Принцип работы на примере добавления: 1. Делим слово по символу. 2. Берём 1 символ слова. По массиву индексов ищем id его узла. 2. Получаем узел, смотрим в нем бит второго символа слова. 2а) бит поднят, берём ссылку из узла на блок ссылок. Считаем кол-во битов до искомого бита 2 символа. К примеру этот символ будет буква 'в', у неё индекс 3. Считаем поднятые до третьего биты. Пусть у нас получился 1 бит поднят, не включая наш 3 бит. Первая ссылка значит с 0 по 3 байт, а наша ссылка с 3 по 6 байт. Считаем смещение 1 * 3байта. Читаем наши с 3 по 6 байты, делаем unpack и получаем Id следующего узла. Повторяем цикл. 2б) бит не поднят, значит следующего узла ещё нет. Создаём следующий узел. У нас теперь его id. Теперь читаем все ссылки с нашего узла. Для этого сначала считаем все поднятые биты. Так мы узнаем размер всех ссылок узла. Теперь считаем поднятые биты до нашего 3 бита буквы 'в'. У нас получилось 1 бит. Значит смещение нашей новой ссылки должно быть 1 * 3 байт т.е. 3 Сначала добавляем в существующий набор ссылок нашу новую ссылку на созданный узел. Таким образом у нас длина ссылок увеличилась на 3 байта и на старом месте она больше не уместится. Размер и адрес старого места для ссылок узла добавляем в массив освободившегося места. Теперь пытаемся поискать в этом же массиве ранее освободившееся место большего размера. Если оно там есть, берём его адрес и убираем запись о нем из массива. Если в массиве подходящего места нет, то новым блок ссылок просто пишем в самый конец нашего блока. Пишем ссылки и получаем их новый адрес. Пишем в узел новый адрес смещения в блоке ссылок. Повторяем цикл. Добавление новой ссылки на 4 байта прибавит словарю 11мб из расчёта 3 млн. узлов. Получится, что если каждый узел будет иметь по 4 ссылки, то 3млн. * (10байт + 12байт) = 63мб
Пробую писать параллельно с тестами. Еще не tdd, но уже ближе. Из плюсов можно отметить то, что тесты будут готовы вместе с рабочим кодом, а также то, что функции теперь сразу делаю как можно более элементарными, что упрощает их тестирование.
круто. я не понимаю твой алгоритм, но мне нравится --- Добавлено --- поставь ссылку на этот проект себе в подпись, а то хрен его найдёшь --- Добавлено --- при операциях подъёма битов можно держать счетчик поднятых битов и инкрементить его параллельно с подъёмом битов. тогда не придётся их вообще никогда считать, всегда уже будет готовое число. при обратном - декрементить. проблема в том, что нужно следить за соответствием числа и реально поднятых битов, но это просто, если сделать функцию подъёма/выключения бита и всегда пользоваться ею, а уже в ней делать обе эти операции. Тогда будет быстро. а какой бит поднят важно?
инкремент/декремент делать бессмысленно, потому что считать биты приходится единажды в 1 узле. Вернее дважды. 1 раз нужно посчитать все биты кроме 47, потому что 47 это не бит алфавита - это флаг того, что на данном узле заканчивается слово. Второй раз биты нужно посчитать до бита нужной буквы, чтобы понять место для ссылки этой буквы. Там все очень просто. Вот схема блока узлов: А вот схема блока ссылок: На этой схеме видно, что у узла 0 (буква "А) есть 2 ссылки, значит в маске узла поднято 2 бита. В узле 1 поднято 5 бит и соответственно 5 ссылок записано в блоке памяти ссылок. В строке содержимое видно какие именно числа там записаны. В самом узле есть маска 6 байт, и 4 байта смещение или адрес на соответствующий этому узлу участок памяти в блоке ссылок. В содержимом участков памяти блока ссылок записаны id узлов, на которые они ссылаются. Первая ссылка на 47 узел, вторая на 49 и т.д. Предположим надо проверить наличие слова "АБ" в словаре. В узле 0, который к букве А относится у нас поднято 2 бита у буквы "А" и буквы "Б", т.е. 1 и второй биты. Сначала мы посчитали первые 46 бит и у нас получилось 2. Т.е. мы знаем теперь размер блока памяти выделенной ссылкам узла 0. Дальше надо понять какой именно из этого участка от 0 до 6 байт надо прочитать для того, чтобы получить ссылку буквы "Б". Считаем биты до бита буквы "Б" (второй бит). Код (Text): $bits = bit_count($mask, 1); Теперь мы можем посчитать смещение. Все ссылки по 3 байта, поэтому 1 * 3 = 3. Смещение 3 и длина тоже 3. Делаем из строки ссылок Код (Text): $sub = substr($refs_block, 3, 3); //теперь распаковываем и получаем число 49 $ref = unpack_24($sub); Теперь снова считываем маску узла 49, поскольку мы ищем слово "АБ" это последняя буква - значит проверяем установлен ли 47 бит в маске этого 49 узла, если установлен - слово "АБ" есть в словаре, нет, значит - нет.
ты вставил в подпись ссылку на эту тему на гитхаб своего проекта добавь ещё плс проверка 47-го бита должна производиться через операцию "логическое и" по маске с поднятым 47-м битом в одну строку. если в результате ноль, то значит не стоял. т.е. это чуть ли не однотактовая операция проверка 47-го бита должна производиться через операцию "логическое и" по маске с поднятым 47-м битом в одну строку. Если в результате ноль - то не стоял бит. т.е после наполнения словаря тебе уже не нужно знать сколько битов где?
Сейчас вот так: Код (Text): private function bit_get(int $bitmap, int $bit) { return (bool)(($bitmap >> $bit - 1) & 1); } Наверное как ты предложил получится быстрее.
ну это то же самое по факту. оставь, забей. ты говоришь, что проверка у тебя только на старте при заполнении а вот дальше можно пихать в APCu и юзать во веки веков очень быстро иди почитай про APCu
Наконец-то закончил переделку. Все стало сложнее, прозрачность, если она вообще была, теперь практически исчезла. Но ожидаемая экономия действительно появилась. Словарь на 380 тыс. слов раньше занимал примерно 150 Мбайт в несжатом виде, теперь 13 Мбайт. Полный словарь всех словоформ словаря opencorpora.org (3.03 млн. слов) в несжатом виде теперь занимает 54 Мбайт.
Победа - приятно. Спасибо, очень помог. Но вылезла проблема, вернее суровая реальность. По деталям вся эта конструкция сделана из качественных деталей. Как если напиздить запчастей из гаража команды f1. Но когда я собираю из них болид, чем более сложным я пытаюсь его сделать, тем хуже работает. Т.е. тут узким местом становится мой скил проектировщика. Через неделю открою исходники и не смогу сам разобрать, что я там на..евертил.
поэтому к каждой строке люди пишут по паре-тройке строк комментариев, в которых объясняют не что делает эта строка, а зачем она это делает. и ты пиши =)
Скорость упала примерно в 2 раза и теперь составляет 42.5 тыс. слов в секунду. Оформил изменения и пнул на гит версию 0.1.0 https://github.com/legale/yatrie
Размер словаря сократился на порядок, полный словарь на 3 млн. слов в несжатом виде теперь занимает 55 Мбайт, против ~600 Мбайт. Теперь надо рефакторить и запиливать в виде расширения для PHP на Си. Кто необходимый опыт имеет?
Попробую сделать загрузку словаря не с диска, а сразу из apcu. Но мой бенчмаркинг время загрузки вообще не учитывает. 42 тыс. Слов выходит только на работу функции поиска в словаре. Время загрузки словаря туда не входит.
Написание 2 функций далось мне очень сложно. Но мне удалось. Теперь либа умеет не только добавлять слова в словарь, а потом проверять есть ли они в словаре. Теперь можно получить все слова в словаре, или вытащить слова с определенной ветки дерева. Ура! Вот то, что не давалось мне целых 2 дня. PHP: public function &trie_traverse_node(int $id, string $concat, array &$res = []): array { list($bits, $refs) = $this->node_get_children($id); //on the last node (leaf) save $concat to the res if(empty($refs)){ $res[] = $concat; return $res; } //recurse call node traverse on each node_id and pass $concat arg by concatenating it a new char foreach($refs as $i=>$node_id){ $string = $concat.$this->codepage_flip[$bits[$i]]; $this->trie_traverse_node($node_id, $string, $res); } return $res; }
johovich Кину код твой в себе в ларец, авось пригодится Мелкие замечания по приведенной функции Точка выхода должна быть одна желательно, любую рекурсию можно заменить циклом while И CamelCase в php мне больше нравится