Calcul d’un fichier SEG-Y

Estimez la taille, la durée d’enregistrement par trace, le poids des en-têtes et le volume de données d’un fichier SEG-Y à partir des paramètres essentiels de votre acquisition sismique. Cet outil convient aux équipes de géophysique, de traitement du signal, de QA/QC et d’archivage de données.

Calculateur SEG-Y premium

Nombre de traces

Nombre total de traces dans le fichier.

Échantillons par trace

Valeur stockée ou attendue dans l’en-tête binaire.

Intervalle d’échantillonnage (microsecondes)

Par exemple 2000 µs = 2 ms.

Format d’échantillon

Choisissez le nombre d’octets par échantillon.

En-têtes textuels étendus

Chaque en-tête textuel étendu ajoute 3200 octets.

Unité d’affichage principale

Utile pour standardiser les rapports de volumétrie.

Note de projet

Champ libre, affiché dans le résumé du résultat.

Saisissez vos paramètres puis cliquez sur le bouton de calcul pour afficher la taille estimée du fichier SEG-Y.

Guide expert du calcul d’un fichier SEG-Y

Le calcul d’un fichier SEG-Y est une étape centrale dans la gestion des données sismiques. Que vous prépariez une acquisition, une migration de stockage, un lot de traitement ou une livraison à un client, connaître précisément la taille d’un fichier permet d’éviter des erreurs coûteuses. En pratique, les équipes de géophysique veulent répondre à plusieurs questions très concrètes : combien de place faut-il réserver sur le NAS ou dans le cloud, quelle sera la durée d’une trace à partir du nombre d’échantillons et de l’intervalle d’échantillonnage, quelle part du volume total vient des en-têtes, et comment les choix de format numérique influencent-ils la volumétrie finale.

Le format SEG-Y est une norme historique de l’industrie sismique. Il a été conçu pour transporter les traces et leurs métadonnées de manière structurée. Même si le standard est ancien, il reste massivement utilisé dans l’exploration pétrolière, dans la géophysique marine, dans les études terrestres, dans l’imagerie proche surface et dans de nombreux flux d’archivage. Pour cette raison, le calcul de la taille d’un fichier SEG-Y reste un sujet opérationnel très actuel, notamment dans les contextes de contrôle qualité, de réplication inter-sites et de tarification du stockage objet.

La formule essentielle à retenir

Dans le cas le plus courant, on peut estimer la taille d’un fichier SEG-Y à partir de la formule suivante :

Taille totale = 3200 + 400 + (nombre d’en-têtes étendus × 3200) + nombre de traces × (240 + échantillons par trace × octets par échantillon)

Cette formule suffit pour la majorité des estimations de volumétrie. Elle suppose que chaque trace comporte un en-tête de 240 octets et que toutes les traces contiennent le même nombre d’échantillons, ce qui est fréquent dans les jeux de données réguliers. Dès que les traces sont de longueur variable, il faut passer à un calcul par trace ou s’appuyer sur une lecture réelle du fichier pour obtenir une estimation exacte.

Pourquoi cette estimation est cruciale en production

Elle permet de dimensionner les espaces de stockage avant une campagne ou un retraitement.
Elle aide à vérifier la cohérence des livrables reçus d’un prestataire.
Elle réduit les risques d’erreur lors du transfert de gros volumes sur bande, NAS, SAN ou cloud.
Elle facilite le chiffrage budgétaire des infrastructures de données.
Elle améliore le pilotage des délais de copie, d’indexation et de sauvegarde.

Comprendre les composants d’un fichier SEG-Y

Pour bien calculer un fichier SEG-Y, il faut d’abord en décomposer les éléments. Le premier bloc est l’en-tête textuel de 3200 octets. Historiquement, il était souvent encodé en EBCDIC, mais dans de nombreux flux modernes, on rencontre aussi de l’ASCII. Vient ensuite l’en-tête binaire de 400 octets, qui contient des informations structurantes comme l’intervalle d’échantillonnage nominal, le nombre d’échantillons par trace et le format des données. Certains fichiers ajoutent ensuite des en-têtes textuels étendus. Enfin, la partie volumineuse du fichier correspond aux traces elles-mêmes.

Chaque trace comprend deux parties. D’abord un en-tête de trace de 240 octets, qui stocke des métadonnées comme les coordonnées source et récepteur, les numéros de ligne, les élévations, les décalages et d’autres attributs propres à l’acquisition. Ensuite viennent les échantillons d’amplitude. C’est cette dernière partie qui domine généralement la taille totale du fichier. Plus le nombre d’échantillons et le nombre d’octets par échantillon sont élevés, plus le volume augmente rapidement.

Les variables qui influencent le plus la taille

Le nombre de traces : c’est le multiplicateur principal du volume total.
Le nombre d’échantillons par trace : il reflète la longueur de l’enregistrement.
Le format d’échantillon : 4 octets est fréquent, 2 octets réduit fortement la taille, 8 octets l’augmente fortement.
Les en-têtes étendus : leur impact est généralement faible, sauf dans des cas de documentation très riche.
La variabilité réelle des traces : dans les cas irréguliers, une estimation moyenne peut sous-estimer ou surestimer le volume.

Exemple de calcul concret

Prenons un cas classique de sismique 2D ou de pré-stack : 25 000 traces, 4000 échantillons par trace, un intervalle d’échantillonnage de 2000 microsecondes et 4 octets par échantillon. Le poids d’une trace vaut alors 240 + 4000 × 4 = 16 240 octets. Le bloc traces représente 25 000 × 16 240 = 406 000 000 octets. En ajoutant l’en-tête textuel de 3200 octets et l’en-tête binaire de 400 octets, on obtient environ 406 003 600 octets, soit environ 387,19 Mio si l’on raisonne en base 1024, ou environ 406,00 Mo si l’on raisonne en base 1000.

La durée d’une trace se calcule séparément. Si vous avez 4000 échantillons à 2000 microsecondes, la durée nominale de la trace vaut 4000 × 2000 µs = 8 000 000 µs, soit 8 secondes. Cette métrique n’influence pas directement la taille du fichier, mais elle aide à relier la volumétrie au contexte d’acquisition. Une trace plus longue nécessite en général plus d’échantillons, donc un fichier plus gros.

Format d’échantillon	Octets par échantillon	Taille par trace pour 4000 échantillons	Taille pour 25 000 traces
Entier 8 bits	1	4 240 octets	106 003 600 octets, environ 106,00 Mo
Entier 16 bits	2	8 240 octets	206 003 600 octets, environ 206,00 Mo
Float 32 bits	4	16 240 octets	406 003 600 octets, environ 406,00 Mo
Haute précision 64 bits	8	32 240 octets	806 003 600 octets, environ 806,00 Mo

Ce tableau montre un fait important : le choix du format numérique a souvent plus d’impact sur le volume que les en-têtes. Dans l’exemple ci-dessus, passer de 4 octets à 8 octets par échantillon double pratiquement la taille du fichier. À l’inverse, les 3600 octets fixes de début de fichier deviennent négligeables dès que le nombre de traces augmente.

Statistiques utiles pour interpréter un calcul SEG-Y

Dans les jeux de données réalistes, la proportion de données utiles par rapport aux en-têtes est très élevée. Pour les fichiers volumineux, les en-têtes globaux représentent souvent bien moins de 0,01 % du total. En revanche, les en-têtes de trace de 240 octets restent significatifs lorsque les traces sont courtes ou fortement décimées. Plus le nombre d’échantillons est faible, plus la fraction d’en-tête augmente.

Scénario	Échantillons par trace	Octets data par trace à 4 octets	En-tête de trace	Part de l’en-tête dans la trace
Trace courte	500	2 000 octets	240 octets	10,71 %
Trace moyenne	2 000	8 000 octets	240 octets	2,91 %
Trace longue	4 000	16 000 octets	240 octets	1,48 %
Trace très longue	8 000	32 000 octets	240 octets	0,74 %

Ces chiffres illustrent pourquoi deux fichiers ayant le même nombre de traces peuvent avoir des comportements très différents. Dans un contexte de proche surface ou de monitoring à faible durée d’enregistrement, les en-têtes pèsent relativement plus lourd. Dans les longues fenêtres temporelles, la masse des échantillons domine clairement.

Pièges fréquents dans le calcul d’un fichier SEG-Y

1. Confondre Mo décimaux et Mio binaires

Un fichier de 406 003 600 octets vaut 406,00 Mo en base 1000, mais environ 387,19 Mio en base 1024. Cette différence, proche de 4,6 %, devient sensible à grande échelle. Pour des dizaines de téraoctets, il est recommandé de toujours préciser l’unité utilisée.

2. Supposer que toutes les traces ont exactement la même longueur

Dans beaucoup de workflows, c’est vrai. Pourtant, certains jeux de données transformés, fusionnés ou corrigés peuvent présenter des variations. Dans ce cas, un calcul moyen est utile pour une approximation rapide, mais ne remplace pas une inspection effective du fichier.

3. Oublier les en-têtes étendus

Leur impact absolu est souvent faible, mais ils peuvent être indispensables pour documenter un projet. Si vous faites un audit de conformité d’un livrable, il faut les compter.

4. Mélanger format logique et codage réel

Un fichier peut annoncer un type d’échantillon dans l’en-tête binaire, mais avoir été converti ou réencapsulé de manière non standard. Le calcul théorique reste alors utile, mais seule une validation sur fichier réel permet de confirmer la cohérence finale.

Bonnes pratiques pour les équipes de traitement et d’archivage

Documentez systématiquement le nombre de traces, d’échantillons et le format numérique dans la fiche de lot.
Comparez toujours la taille calculée à la taille réelle sur disque pour détecter des incohérences.
Conservez une distinction claire entre volume brut, volume compressé et volume répliqué.
Précisez si les unités sont en base 1000 ou 1024 dans les rapports internes.
En environnement cloud, ajoutez une marge pour les versions, les index et les copies de sécurité.

Quand utiliser un calculateur comme celui-ci

Un calculateur SEG-Y est particulièrement utile dans cinq moments clés. D’abord, en phase de préparation d’une acquisition, pour anticiper la volumétrie journalière. Ensuite, lors de la réception de données terrain, pour vérifier qu’un lot reçu est cohérent avec les paramètres annoncés. Troisièmement, avant de lancer un traitement gourmand en I/O, afin d’estimer les besoins de lecture et de stockage temporaire. Quatrièmement, lors d’une migration vers une nouvelle infrastructure, pour chiffrer la capacité nécessaire. Enfin, au moment de l’archivage, pour organiser le partitionnement des données sur bandes, disques ou stockage objet.

Références utiles et sources d’autorité

Pour approfondir la structure des données sismiques et les enjeux de gestion, vous pouvez consulter ces ressources institutionnelles :

USGS, United States Geological Survey, pour des jeux de données et des références en géophysique.
NOAA NCEI, National Centers for Environmental Information, pour les archives et services de données géophysiques et marines.
University of Texas Institute for Geophysics, pour des contenus académiques sur l’imagerie et l’acquisition sismique.

Conclusion

Le calcul d’un fichier SEG-Y n’est pas qu’un simple exercice de volumétrie. C’est un outil d’aide à la décision pour la planification des campagnes, le contrôle de la qualité, le pilotage des transferts et l’optimisation des coûts de stockage. En comprenant la formule de base, en distinguant les en-têtes des données utiles, et en tenant compte du format numérique, vous pouvez obtenir rapidement une estimation fiable. Le calculateur ci-dessus vous donne une base immédiate pour vos projets. Pour les environnements critiques, combinez toujours l’estimation théorique avec une vérification réelle sur fichier afin de sécuriser vos workflows et vos livraisons.

Calcul D Un Fichier Segy