хочу собрать все инструкции, справочник с одного сайта и сделать поиск по этим данным. какую структуру лучше сделать для таблицы? достаточно ли title и description (большой текст, наверное markdown, если не будет проблем), embedings (title + description или два столбца отдельно - эмбединги для тайтла и дескрипшена); кто делал что-нибудь подобное? какие есть современные инструменты для скрапинга сайта?
По-моему, все очевидно. Смотрите, какие типы страниц нужны. Потом, какие «поля» (блоки) на этих страницах. Не забываете про идентификацию/каталогизацию собранных данных (если исходные идентификаторы вменяемые, можно на них остановиться). В смысле есть возможность сдирать md? Или собираетесе преобразовывать HTML-текст в md? Или это ваш сайт? --- Добавлено --- Либы есть различные, но можно и самому написать (хотя бы на основе регулярок). --- Добавлено --- HTML- – сейчас универсальная разметка. Можно прямо в ней хранить. Либо «портянки» в HTML-, а pure-текст, числа и т.п. в исходном виде.
1. Зависит от того как будешь использовать. ПМСМ, пока практика не заставит тебя что-то усложнить, делай как проще. 2. Никто Есть возможность отличиться 3. Хз. Здесь традиционно ругали за утягивание чужой инфы в обход официальных API. Я бы таки использовал Markdown как "чистый" формат, понятный как людям, так и машинам. Да, на конвертацию надо будет потратить какие-то усилия, но это один раз на каждую статью, не страшно. --- Добавлено --- [offtopic]@Administrator , как насчет раздела "ИИ", например в категории "Прочее"?[/offtopic] Уже пора ))
Кстати, @Konstant1n, для отработки технологии можешь взять публично доступные дампы сайтов Stack Exchange (Stack Overflow, Stack Overflow на русском и т.д.) Там уже markdown и реально большой массив данных, есть на чем потренить скиллы. Самая вкусная часть это ведь нахождение близкой по смыслу информации, а не скрапинг, так ведь?! Вперед!