Outil expert LSH / SimHash

Calcul de hashage conservant les distances

Estimez la probabilité de collision, le taux de candidats retrouvés et la distance de Hamming attendue pour un schéma de hashage sensible à la similarité basé sur la similarité cosinus.

Similarité cosinus cible

Nombre de bits par table

Nombre de tables de hashage

Dimension du vecteur

Famille de hashage

Sortie prioritaire

Taille approximative du jeu de données

Modèle utilisé : pour Random Hyperplane LSH, la probabilité quun bit soit identique vaut p = 1 – arccos(s) / pi, où s est la similarité cosinus.

Guide expert du calcul de hashage conservant les distances

Le calcul de hashage conservant les distances désigne une famille de techniques qui transforment des objets complexes, souvent des vecteurs de grande dimension, en signatures plus courtes tout en préservant autant que possible les relations de proximité. Dans la pratique, on ne cherche pas toujours à reconstruire exactement la distance originale. On veut surtout quun objet proche dun autre dans lespace source ait une forte probabilité de rester proche, ou de tomber dans le même seau de hachage, dans lespace transformé. Cest le principe central du hashage sensible à la localité, souvent appelé LSH pour Locality Sensitive Hashing.

Ce sujet est devenu critique avec la généralisation des moteurs de recherche vectorielle, des systèmes de recommandation, de la détection de doublons, de la vision par ordinateur et des grands modèles dIA. Quand une base contient des centaines de milliers, des millions ou des milliards de vecteurs, un calcul exact du plus proche voisin devient trop coûteux. Le hashage conservant les distances apporte alors un compromis intelligent entre vitesse, mémoire et précision.

Pourquoi le hashage conservant les distances est utile

Dans un problème classique de recherche de voisins, comparer un vecteur à tous les autres éléments du corpus coûte en général O(n x d), où n est le nombre dobjets et d la dimension. Avec une technique de hashage adaptée, on réduit drastiquement le nombre de comparaisons finales. Le calcul repose sur une idée simple : placer ensemble des objets similaires dans des compartiments identiques ou voisins, puis ne comparer précisément quune fraction du corpus.

Réduction du coût de recherche approximative dans les grands espaces vectoriels.
Réponse plus rapide pour la recommandation, la déduplication et la recherche sémantique.
Bonne scalabilité pour des données textuelles, audio, image ou embedding.
Architecture simple à distribuer lorsque plusieurs tables de hashage sont utilisées.

Distinction entre hashage classique et hashage sensible à la distance

Le hashage traditionnel en informatique cherche surtout à uniformiser les clés pour accélérer laccès à une table de hachage. Deux éléments proches nont aucune raison davoir des empreintes proches. À linverse, le hashage conservant les distances est intentionnellement biaisé : il veut augmenter la probabilité de collision pour les objets voisins et réduire cette probabilité pour les objets éloignés.

Principe LSH : une famille de fonctions est dite sensible à la localité si, pour deux points proches x et y, la probabilité P[h(x) = h(y)] est significativement plus élevée que pour deux points éloignés.

Le cas du Random Hyperplane LSH

Lun des schémas les plus pédagogiques et les plus utilisés avec la similarité cosinus est le Random Hyperplane LSH, souvent relié à SimHash. On projette les vecteurs sur des hyperplans aléatoires. Chaque hyperplan produit un bit : 1 si la projection est positive, 0 sinon. En concaténant k bits, on obtient une signature binaire de longueur k pour une table. Plusieurs tables peuvent être combinées pour améliorer le rappel.

Le résultat théorique est élégant. Si deux vecteurs ont un angle theta, alors la probabilité quun bit soit identique vaut :

p = 1 – theta / pi, avec theta = arccos(s) et s la similarité cosinus.

À partir de là, on calcule plusieurs quantités essentielles :

Collision par bit : p.
Collision exacte dans une table de k bits : p^k.
Récupération dans L tables : 1 – (1 – p^k)^L.
Distance de Hamming attendue : k x (1 – p), ce qui revient à k x theta / pi.

Ces formules expliquent la logique de notre calculateur. Plus la similarité est élevée, plus p augmente. Plus on ajoute de bits dans une table, plus on devient sélectif. Plus on ajoute de tables, plus on remonte le rappel car on multiplie les opportunités de collision sur au moins une table.

Comment interpréter les entrées du calculateur

Similarité cosinus cible : elle mesure lalignement entre deux vecteurs. Une valeur de 1 signifie des vecteurs parfaitement alignés, 0 signifie orthogonalité et une valeur négative indique une opposition. Dans les applications de recherche sémantique, les candidats réellement pertinents se trouvent souvent entre 0,75 et 0,95.

Nombre de bits par table : plus ce nombre est élevé, plus les seaux sont fins. Cela réduit les faux positifs mais peut aussi diminuer le rappel si le nombre de tables ne suit pas.

Nombre de tables : chaque table correspond à une nouvelle concaténation de bits, donc à une chance supplémentaire de récupérer un voisin utile. Cest le levier principal pour améliorer la couverture.

Dimension du vecteur : elle nentre pas directement dans la formule de collision théorique de Random Hyperplane LSH, mais elle reste une variable importante pour comprendre le coût de projection, lusage mémoire et la stabilité numérique.

Exemple concret de calcul

Supposons une similarité cosinus de 0,85. Langle vaut environ arccos(0,85), soit proche de 0,555 radian. On obtient alors p proche de 0,823. Avec 16 bits par table, la collision exacte dans une table devient environ 0,823^16, soit autour de 4,45 pour cent. Si on utilise 12 tables, la probabilité de récupérer la paire dans au moins une table monte à environ 42 pour cent. Cet exemple montre que même une forte similarité peut produire une collision par table assez faible quand la signature est longue. Cest précisément pour cette raison que les systèmes sérieux utilisent souvent plusieurs tables ou des stratégies multi probe.

Tableau comparatif des probabilités selon la similarité

Similarité cosinus	Angle estimé en radians	Probabilité même bit p	Collision 16 bits p^16	Récupération avec 12 tables
0,50	1,047	0,667	0,0015	0,0178
0,70	0,795	0,747	0,0093	0,1060
0,85	0,555	0,823	0,0445	0,4200
0,95	0,318	0,899	0,1820	0,9100

Ces chiffres montrent un point essentiel : la courbe nest pas linéaire. Un petit gain de similarité dans la zone haute peut produire un gain massif de récupération si la longueur de signature et le nombre de tables sont bien choisis. En revanche, autour de 0,5 à 0,7, les collisions exactes restent faibles avec 16 bits. Cela pousse souvent à raccourcir la signature, à augmenter le nombre de tables ou à utiliser une étape de reranking.

Compromis entre précision, rappel et coût mémoire

Le dimensionnement dun système de hashage conservant les distances est un exercice de compromis. Ajouter des bits améliore la précision des seaux et diminue les collisions accidentelles. Mais si la table devient trop stricte, des voisins pertinents se séparent. Ajouter des tables répare ce problème, au prix dune consommation mémoire supérieure et dun coût de construction plus élevé.

Peu de bits, peu de tables : rapide à construire, mais beaucoup de faux positifs.
Beaucoup de bits, peu de tables : forte sélectivité, mais risque de faible rappel.
Beaucoup de bits, beaucoup de tables : excellent compromis possible, mais stockage plus lourd.
Approche multi probe : interroger des seaux voisins réduit le besoin de multiplier les tables.

Tableau de configuration pratique

Cas dusage	Taille du corpus	Bits par table	Tables	Objectif typique	Observation pratique
Déduplication rapide de texte court	100 000	12 à 16	8 à 16	Réduire les comparaisons exactes	Très bon compromis si la similarité cible est supérieure à 0,8
Recherche sémantique sur embeddings	1 000 000	16 à 24	12 à 32	Rappel élevé avec latence basse	Souvent combiné à un reranking exact sur les candidats
Vision par ordinateur à grande échelle	10 000 000	24 à 32	16 à 48	Indexer un très grand corpus	Nécessite une stratégie mémoire très maîtrisée

Quand le hashage conservant les distances fonctionne bien

Il est particulièrement efficace lorsque :

la notion de voisinage est stable et bien modélisée par la similarité cosinus ou une autre distance compatible ;
on accepte une recherche approximative plutôt quun calcul exact exhaustif ;
le volume de données rend les structures exactes coûteuses ou trop lentes ;
les opérations doivent être parallélisées facilement.

Limites et erreurs fréquentes

Une erreur courante consiste à croire que le hashage conservant les distances remplace toute forme de recherche de voisins. En réalité, il sert surtout de filtre. Une autre erreur consiste à confondre conservation absolue des distances et conservation probabiliste des relations de proximité. Random Hyperplane LSH ne conserve pas directement une distance euclidienne numérique exacte ; il conserve une probabilité de collision liée à langle entre vecteurs.

Choisir trop de bits et trop peu de tables, ce qui détruit le rappel.
Évaluer le système sur des similarités moyennes alors que le besoin métier vise les meilleurs voisins.
Ignorer la distribution réelle des données et la densité de certaines zones de lespace.
Mesurer uniquement la latence sans suivre la qualité de récupération.

LSH face aux alternatives modernes

Les solutions modernes de recherche approximative incluent aussi les graphes de voisins comme HNSW, les partitions quantifiées, les approches de compression vectorielle et les index hybrides. LSH garde néanmoins des atouts : théorie simple, comportement probabiliste lisible, parallélisation naturelle et robustesse pour certains flux de données. Dans des environnements où lon veut une formule explicable et des paramètres interprétables, il reste très pertinent.

Méthode recommandée pour régler vos paramètres

Définissez le seuil de similarité réellement utile pour votre produit, par exemple 0,82 ou 0,90.
Calculez la collision par bit et la collision par table avec quelques longueurs de signature.
Ajustez le nombre de tables pour atteindre un rappel cible sur les vrais positifs.
Mesurez le nombre moyen de candidats remontés par requête.
Appliquez un reranking exact sur les candidats pour sécuriser la précision finale.

Ressources de référence et liens dautorité

Pour approfondir, consultez les ressources suivantes : NIST.gov, Stanford.edu, CMU.edu.

Conclusion

Le calcul de hashage conservant les distances nest pas seulement un concept académique. Cest un outil de conception concret pour tous les systèmes où les voisins pertinents doivent être retrouvés rapidement dans un espace de forte dimension. En comprenant la relation entre similarité cosinus, angle, probabilité de collision, longueur de signature et nombre de tables, vous pouvez régler votre index de manière rationnelle. Le calculateur ci dessus fournit justement cette lecture opérationnelle. Utilisez le pour tester plusieurs scénarios, visualiser la courbe de récupération et dimensionner un schéma de hashage qui sert réellement votre cas dusage.

Calcul De Hashage Conservant Les Distances