За последние 24 часа нас посетил 70321 программист и 5687 роботов. Сейчас ищут 1167 программистов ...

Построение базы знаний и поиск по нему

Тема в разделе "PHP для новичков", создана пользователем Konstant1n, 24 апр 2026.

  1. Konstant1n

    Konstant1n Активный пользователь

    С нами с:
    14 авг 2017
    Сообщения:
    274
    Симпатии:
    1
    Адрес:
    Волгоград
    хочу собрать все инструкции, справочник с одного сайта и сделать поиск по этим данным.
    1. какую структуру лучше сделать для таблицы? достаточно ли title и description (большой текст, наверное markdown, если не будет проблем), embedings (title + description или два столбца отдельно - эмбединги для тайтла и дескрипшена);
    2. кто делал что-нибудь подобное?
    3. какие есть современные инструменты для скрапинга сайта?
     
  2. miketomlin

    miketomlin Старожил

    С нами с:
    9 авг 2016
    Сообщения:
    3.861
    Симпатии:
    656
    По-моему, все очевидно. Смотрите, какие типы страниц нужны. Потом, какие «поля» (блоки) на этих страницах. Не забываете про идентификацию/каталогизацию собранных данных (если исходные идентификаторы вменяемые, можно на них остановиться).

    В смысле есть возможность сдирать md? Или собираетесе преобразовывать HTML-текст в md? :) Или это ваш сайт? :D
    --- Добавлено ---
    Либы есть различные, но можно и самому написать (хотя бы на основе регулярок).
    --- Добавлено ---
    HTML- – сейчас универсальная разметка. Можно прямо в ней хранить. Либо «портянки» в HTML-, а pure-текст, числа и т.п. в исходном виде.
     
  3. artoodetoo

    artoodetoo Суперстар
    Команда форума Модератор

    С нами с:
    11 июн 2010
    Сообщения:
    11.129
    Симпатии:
    1.223
    Адрес:
    там-сям
    1. Зависит от того как будешь использовать. ПМСМ, пока практика не заставит тебя что-то усложнить, делай как проще.
    2. Никто :D Есть возможность отличиться
    3. Хз. Здесь традиционно ругали за утягивание чужой инфы в обход официальных API.

    Я бы таки использовал Markdown как "чистый" формат, понятный как людям, так и машинам. Да, на конвертацию надо будет потратить какие-то усилия, но это один раз на каждую статью, не страшно.
    --- Добавлено ---
    [offtopic]@Administrator , как насчет раздела "ИИ", например в категории "Прочее"?[/offtopic]
    Уже пора ))
     
  4. artoodetoo

    artoodetoo Суперстар
    Команда форума Модератор

    С нами с:
    11 июн 2010
    Сообщения:
    11.129
    Симпатии:
    1.223
    Адрес:
    там-сям
    Кстати, @Konstant1n, для отработки технологии можешь взять публично доступные дампы сайтов Stack Exchange (Stack Overflow, Stack Overflow на русском и т.д.) Там уже markdown и реально большой массив данных, есть на чем потренить скиллы.

    Самая вкусная часть это ведь нахождение близкой по смыслу информации, а не скрапинг, так ведь?!

    Вперед!