Web Mining — это использование методов интеллектуального анализа данных для автоматического обнаружения веб-документов и сервисов, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете. В Web Mining можно выделить следующие этапы: * входной этап (англ. input stage) — получение «сырых» данных из источников (логи серверов, тексты электронных документов); * этап предобработки (англ. preprocessing stage) — данные представляются в форме, необходимой для успешного построения той или иной модели; * этап моделирования (англ. pattern discovery stage); * этап анализа модели (англ. pattern analysis stage) — интерпретация полученных результатов. Это общие шаги, которые необходимо пройти для анализа данных сети Интернет. Конкретные процедуры каждого этапа зависят от поставленной задачи. В связи с этим выделяют различные категории Web Mining: * Web Content Mining; * Web Structure Mining; * Web Usage Mining. Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний из контента документов или их описания, доступных в Интернете.Поиск знаний в сети Интернет является непростой и трудоёмкой задачей. Именно это направление Web Mining решает её. Оно основано на сочетании возможностей информационного поиска, машинного обучения и интеллектуального анализа данных. Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной информации в Интернете.Данное направление рассматривает взаимосвязи между веб-страницами, основываясь на связях между ними. Построенные модели могут быть использованы для категоризации и поиска схожих веб-ресурсов, а также для распознавания авторских сайтов. Web Usage Mining (Анализ использования веб-ресурсов) — это автоматическое обнаружение шаблонов в маршруте передвижения пользователя и связанных с ним данными, собранными или приобретёнными в результате взаимодействия с одним или несколькими веб-сайтами.Это направление основано на извлечении данных из логов веб-серверов. Целью анализа является выявление предпочтений посетителей при использовании тех или иных ресурсов сети Интернет.
Abstract from DBpedia / Wikipedia · CC BY-SA
via Wikidata sitelinks · CC0
Discovered by embedding cosine similarity (sentence-transformers MiniLM, 384-dim).