От данных к знаниям

В первой части мы разобрали инфраструктурный фундамент. Теперь переходим к слою, который превращает сырые данные в структурированные знания — о контенте и о пользователях.

Без этого слоя алгоритмы персонализации работают вслепую: они видят клики и покупки, но не понимают, почему пользователь совершил действие и что представляет собой контент.

Content Management: граф знаний о контенте

Знание о контенте как конкурентное преимущество

Большинство компаний описывают свой контент (товары, статьи, видео) плоскими атрибутами: категория, цена, дата. Этого недостаточно для качественной персонализации. Нужен многомерный граф знаний.

Таксономия и теги

Первый шаг — построить иерархическую таксономию с контролируемым словарём. Каждый элемент контента получает набор тегов из единого справочника. Это позволяет связывать контент между категориями и находить неочевидные пересечения.

Пример: товар «беговые кроссовки» связан не только с категорией «обувь», но и с тегами «бег», «спорт», «outdoor» — что позволяет рекомендовать его вместе с GPS-часами и спортивным питанием.

Эмбеддинги

Теги покрывают явные атрибуты, но не улавливают семантическую близость. Для этого нужны vector embeddings — числовые представления контента, полученные из текстовых описаний, изображений или поведенческих данных.

Эмбеддинги позволяют находить похожий контент без явных совпадений по тегам. Два платья могут не иметь общих тегов, но быть семантически близкими по стилю, настроению или целевой аудитории.

Content Understanding

Продвинутый уровень — автоматическое извлечение атрибутов из контента с помощью ML. Компьютерное зрение определяет цвет, стиль и принт одежды. NLP извлекает тональность, тематику и ключевые сущности из текста. Это масштабирует разметку на миллионы единиц контента.

Client Profile: 360-градусный профиль пользователя

Поведенческие сигналы

Каждое действие пользователя — это сигнал: просмотр, клик, добавление в корзину, покупка, возврат, обращение в поддержку. Важно собирать все сигналы, а не только конверсионные, и учитывать их силу и давность.

Клик = слабый сигнал. Покупка = сильный. Повторная покупка = очень сильный. Возврат = отрицательный. Правильное взвешивание сигналов — ключ к качественному профилю.

Предпочтения

На основе поведенческих сигналов строятся предпочтения — устойчивые паттерны интересов пользователя. Предпочтения бывают:

  • Явные — пользователь указал сам (любимые бренды, размер, аллергии)
  • Неявные — выведены из поведения (предпочитает вечерние покупки, реагирует на скидки, любит новинки)
  • Контекстные — зависят от ситуации (ищет подарок, планирует отпуск)

Контекст

Профиль без контекста — это статичная фотография. А пользователь — это динамический процесс. Контекст включает: время суток, устройство, геолокацию, текущую сессию, недавние действия и внешние факторы (погода, праздники, события).

Одному и тому же пользователю утром на мобильном нужны одни рекомендации, а вечером за ноутбуком — другие.

Сегментация

Индивидуальный профиль работает для активных пользователей с богатой историей. Для новых и редких пользователей нужна сегментация — кластеризация по поведенческим паттернам. Это позволяет применять коллективные знания к пользователям с недостаточным количеством индивидуальных данных.

Что дальше

В следующих частях серии мы разберём алгоритмы ранжирования и механику доставки персонализированного контента в реальном времени.