Migration des données historiques - Topsort Documentation

La migration des données historiques est le processus de transfert des métriques de performance et des données d’événements de la plateforme publicitaire précédente d’un client pour accélérer les modèles d’apprentissage automatique de Topsort et réduire la période d’apprentissage initiale lors de la transition de plateforme.

Problème

Lorsque les clients migrent vers Topsort, leurs campagnes font face à un problème de démarrage à froid où :

Aucun historique de performance : Les nouvelles campagnes démarrent sans aucune donnée de performance historique
Période d’apprentissage : Les modèles d’apprentissage automatique nécessitent 1 à 4 semaines pour accumuler suffisamment de données pour l’optimisation
Performance sous-optimale : Pendant le démarrage à froid, les campagnes peuvent sous-performer en raison du manque de données d’entraînement
Frustration des annonceurs : Les annonceurs peuvent constater une efficacité réduite des campagnes pendant les premières semaines

Alors que la migration de campagne gère la structure et les paramètres de la campagne, la migration des données historiques traite spécifiquement les données de performance pour accélérer l’entraînement et l’optimisation des modèles.

Solution

Nous fournissons une solution d’ingestion de données historiques qui importe les métriques de performance et les données d’événements de la plateforme précédente du client. Ces données servent de matériel d’entraînement initial pour les modèles d’apprentissage automatique de Topsort, réduisant considérablement la période de démarrage à froid.

Comment les données historiques aident

Accélération de l’entraînement du modèle :

Fournit des données d’entraînement immédiates pour les algorithmes d’apprentissage automatique
Réduit la période de démarrage à froid de 4 semaines à 1-2 semaines
Permet une optimisation plus rapide des campagnes et des décisions d’enchères

Continuité de la performance :

Les campagnes peuvent tirer parti des modèles de performance historiques
Meilleures recommandations d’enchères initiales basées sur les données passées
Amélioration des décisions de ciblage à partir du comportement historique des utilisateurs

Réduction des risques :

Minimise la baisse de performance pendant la transition de plateforme
Maintient la confiance des annonceurs avec des niveaux de performance familiers
Fournit des métriques de référence pour la comparaison et l’optimisation

Implémentation technique

Notre intégration de données historiques :

Ingère les données d’événements y compris les impressions organiques, les clics et les achats
Traite les métriques de performance au niveau de la campagne, du produit et de l’utilisateur
Entraîne les modèles initiaux en utilisant les données historiques importées avant la mise en production
Calibre les algorithmes pendant l’opération initiale pour une performance optimale
Met à jour les embeddings pour les utilisateurs, les produits et les emplacements basés sur les modèles historiques

Processus de migration

Évaluation des données et définition de la portée

Évaluer la disponibilité des données historiques

Évaluer quelles données de performance sont disponibles depuis la plateforme précédente
Déterminer la qualité et l’exhaustivité des données
Définir la plage temporelle pour les données historiques (généralement 3 à 6 mois)
Identifier les métriques clés qui s’alignent avec le suivi de Topsort

Export et préparation des données

Types de données historiques requis :

Métriques de performance des campagnes (impressions, clics, conversions, dépenses)
Données de performance au niveau du produit (taux de clics, taux de conversion)
Événements de comportement des utilisateurs (recherches, vues, achats)
Modèles de trafic organique et tendances saisonnières
Historique d’utilisation des enchères et du budget

Toutes les données historiques doivent respecter les réglementations sur la confidentialité. Les données au niveau de l’utilisateur doivent être anonymisées ou agrégées si requis par les lois locales sur la confidentialité.

Validation et traitement des données

Étapes d’assurance qualité :

Valider l’exhaustivité et l’exactitude des données
Normaliser les métriques pour correspondre au schéma de données de Topsort
Nettoyer et traiter les données pour l’entraînement du modèle
Identifier et gérer les anomalies ou valeurs aberrantes des données

Entraînement et calibration du modèle

Processus d’entraînement initial :

Importer les données historiques dans le pipeline d’entraînement de Topsort
Entraîner les modèles d’apprentissage automatique initiaux en utilisant les modèles historiques
Calibrer les algorithmes pour une performance optimale
Valider la précision du modèle par rapport aux résultats historiques connus

Déploiement en production et surveillance

Processus de mise en production :

Déployer les modèles entraînés dans l’environnement de production
Surveiller la performance initiale par rapport aux références historiques
Affiner les algorithmes en fonction des nouvelles données en temps réel
Passer progressivement de l’optimisation basée sur les données historiques aux données en temps réel

Exigences de données

Métriques de performance requises

Catégorie de métrique	Champs requis	Format d’exemple
Performance de la campagne	campaign_id, date, impressions, clicks, conversions, spend	`campaign-123, 2024-01-15, 1000, 50, 5, 25.00`
Performance du produit	product_id, campaign_id, date, impressions, clicks, ctr, conversion_rate	`prod-456, campaign-123, 2024-01-15, 100, 10, 0.10, 0.02`
Événements utilisateur	user_id (anonymisé), event_type, product_id, timestamp, value	`user-789, purchase, prod-456, 2024-01-15T10:30:00Z, 49.99`
Trafic organique	product_id, date, organic_impressions, organic_clicks, search_terms	`prod-456, 2024-01-15, 500, 25, "summer shoes"`

Exemples de format CSV

Données de performance de la campagne :

campaign_id,date,impressions,clicks,conversions,spend,ctr,conversion_rate
campaign-123,2024-01-15,1000,50,5,25.00,0.05,0.10
campaign-124,2024-01-15,800,40,3,20.00,0.05,0.075

Données de performance du produit :

product_id,campaign_id,date,impressions,clicks,conversions,revenue
prod-456,campaign-123,2024-01-15,100,10,2,49.98
prod-457,campaign-123,2024-01-15,150,8,1,24.99

Données d’événements utilisateur :

user_id,event_type,product_id,timestamp,value,campaign_id
user-789,view,prod-456,2024-01-15T10:00:00Z,,
user-789,click,prod-456,2024-01-15T10:05:00Z,,campaign-123
user-789,purchase,prod-456,2024-01-15T10:30:00Z,49.99,campaign-123

Processus d’entraînement du modèle

Entraînement d’intégration

Traitement initial des données :

Les données d’événements historiques sont intégrées dans les pipelines d’entraînement
Les modèles sont entraînés en utilisant 3 à 6 mois de données de performance historiques
Les embeddings initiaux sont créés pour les utilisateurs, les produits et les campagnes
Les prédictions de performance de référence sont établies

Optimisation continue

Apprentissage continu :

Mises à jour quotidiennes : Les embeddings de recherche d’ID sont mis à jour avec de nouvelles données
Réentraînement hebdomadaire : Réentraînement complet du modèle intégrant à la fois les données historiques et nouvelles
Adaptation en temps réel : Les embeddings de comportement des utilisateurs sont mis à jour en continu
Surveillance de la performance : Comparaison de la performance historique par rapport à la performance actuelle

La combinaison de données historiques et d’apprentissage en temps réel atteint généralement une performance optimale en 2 à 3 semaines, comparé à 4 à 6 semaines avec un démarrage à froid seul.

Métriques de succès

Le succès de la migration des données historiques est mesuré par :

Période de démarrage à froid réduite : Temps d’apprentissage diminué de 4 semaines à 1-2 semaines
Continuité de la performance : Performance de la campagne à 10-15% des niveaux historiques dès le premier jour
Précision du modèle : Précision de prédiction améliorée de 20-30% par rapport aux scénarios de démarrage à froid
Satisfaction des annonceurs : Confiance des annonceurs maintenue ou améliorée pendant la transition

Intégration avec la migration de campagne

Processus complémentaires

La migration des données historiques fonctionne en parallèle avec la migration de campagne :

Structure de la campagne : La migration de campagne de base gère les paramètres, les budgets et le ciblage
Données de performance : La migration des données historiques fournit la base de performance
Avantage combiné : Ensemble, ils garantissent à la fois des campagnes fonctionnelles et une performance optimisée dès le premier jour

Séquence recommandée

Complétez d’abord la migration de campagne pour établir la structure de la campagne
Exécutez la migration des données historiques en parallèle pendant la phase de test
Déployez simultanément la structure de la campagne et les modèles entraînés
Surveillez la performance par rapport aux références historiques

La migration des données historiques nécessite une coordination technique supplémentaire et peut prolonger le calendrier global de migration de 1 à 2 semaines pour l’entraînement et la validation des modèles.

Prochaines étapes

Pour les clients intéressés par la migration des données historiques :

Évaluez la disponibilité des données de votre plateforme actuelle
Coordonnez les équipes techniques pour discuter des exigences en matière de données historiques
Planifiez l’extraction des données en parallèle du calendrier de migration de la campagne
Coordonnez avec l’équipe d’apprentissage automatique pour les exigences d’entraînement des modèles

Documentation

​Problème

​Solution

​Comment les données historiques aident

​Implémentation technique

​Processus de migration

​Exigences de données

​Métriques de performance requises

​Exemples de format CSV

​Processus d’entraînement du modèle

​Entraînement d’intégration

​Optimisation continue

​Métriques de succès

​Intégration avec la migration de campagne

​Processus complémentaires

​Séquence recommandée

​Prochaines étapes

Problème

Solution

Comment les données historiques aident

Implémentation technique

Processus de migration

Exigences de données

Métriques de performance requises

Exemples de format CSV

Processus d’entraînement du modèle

Entraînement d’intégration

Optimisation continue

Métriques de succès

Intégration avec la migration de campagne

Processus complémentaires

Séquence recommandée

Prochaines étapes