Des archives déguisées

7 juillet 2025 Durée 10 minutes Difficulté Novice

Le format ZIP est largement utilisé pour la compression et l’archivage, mais il se cache aussi derrière certains formats de fichiers courants. En effet, plusieurs types de fichiers que nous utilisons quotidiennement, tels que les fichiers ODT (fichiers LibreOffice Writer), les DOCX (fichiers Word) ou les CBZ (fichiers de bandes dessinées numériques) sont en réalité des archives ZIP déguisées, contenant une arborescence de fichiers compressée.

Archives déguisées

L’exemple du format .odt

Le format .odt est l’un des principaux formats utilisés par les suites bureautiques libres comme LibreOffice ou OpenOffice pour les documents texte. Ce format, conforme à la norme OpenDocument, repose sur une structure en archive ZIP pour stocker ses différents éléments.

Contrairement à un simple fichier texte ou un document unique, un fichier ODT est une collection de plusieurs fichiers regroupés dans une archive compressée.

Lorsque vous créez un document au format ODT, voici ce qui est stocké dans l’archive ZIP :

  • Contenu textuel : Le texte du document est principalement contenu dans un fichier nommé content.xml, qui utilise le langage XML (eXtensible Markup Language). Ce fichier contient tout le texte du document, ainsi que la structure du document (titres, paragraphes, tableaux, etc.).
  • Styles et mise en page : Les informations relatives aux styles du texte (polices, couleurs, marges, etc.) sont stockées dans un fichier styles.xml. Un autre fichier, meta.xml, contient les métadonnées comme l’auteur, la date de création, et d’autres informations relatives au document.
  • Images et ressources : Les images et autres fichiers multimédias inclus dans le document sont stockés en tant que fichiers individuels dans un répertoire Pictures. Ces fichiers multimédias sont référencés dans le fichier content.xml pour leur position dans le document.
  • Manifeste et structure : Un fichier manifest.xml est également inclus dans l’archive. Il joue un rôle important car il décrit la structure et les relations entre les fichiers contenus dans le fichier .odt. Cela permet aux logiciels de gérer l’organisation du document sans ambiguïté.

En renommant l’extension .odt d’un fichier en .zip, puis en l’extrayant, vous pouvez facilement explorer cette structure interne et constater que le document texte est bien plus qu’un simple fichier : il est un ensemble de données modulaires et compressées dans une archive ZIP.

Démonstration d'exploration du contenu d'un fichier .odt
Démonstration d’exploration du contenu d’un fichier .odt

Autres formats déguisés

En dehors des fichiers ODT, plusieurs autres formats courants utilisent également le format ZIP :

  • .docx (Microsoft Word) : Depuis le passage au format DOCX, les fichiers Word sont des archives ZIP contenant plusieurs fichiers XML pour le texte, les styles, et les métadonnées. Les fichiers multimédias comme les images sont stockés séparément dans l’archive.
  • .epub (Electronic Publication) : Ce format est très populaire pour les livres numériques, un fichier EPUB est une archive ZIP contenant du texte en HTML, des fichiers de style CSS, des images, et des métadonnées.
  • .cbz (Comic Book ZIP) : Ce format est largement utilisé pour les bandes dessinées numériques. Un fichier CBZ est simplement une archive ZIP contenant plusieurs images (JPG, PNG, etc.) qui représentent les pages de la bande dessinée. Les lecteurs de BD numériques extraient les images pour les afficher dans l’ordre voulu.

Ces différents exemples montrent que l’utilisation du format ZIP permet de combiner plusieurs types de contenus (texte, images, styles) tout en offrant une compression et une organisation optimales.

Pourquoi utiliser ZIP dans ces formats ?

L’utilisation du format ZIP comme conteneur pour ces fichiers offre plusieurs avantages :

  1. Compression des données : Le format ZIP permet de réduire la taille globale des fichiers, facilitant leur stockage et leur partage. Bien que certaines données (comme les images) soient déjà compressées, la compression appliquée au niveau de l’archive peut encore optimiser la taille du fichier.
  2. Organisation modulaire : Dans des fichiers comme ODT ou EPUB, le format ZIP permet une organisation claire des différents éléments. Par exemple, dans un fichier ODT, le texte, les styles, les images, et les métadonnées sont stockés séparément dans des fichiers distincts. Cette organisation facilite la modification de certaines parties du document sans affecter les autres.
  3. Interopérabilité et normalisation : Le recours à des fichiers XML et à des archives ZIP permet à ces formats de fonctionner sur diverses plateformes et logiciels.
  4. Facilité d’extraction et de modification : Puisque les fichiers ODT, EPUB ou CBZ sont des archives ZIP, il est facile d’extraire ou de modifier certains composants en accédant directement à l’archive. Par exemple, vous pouvez extraire une image spécifique d’un fichier ODT ou CBZ sans avoir besoin d’ouvrir tout le document ou le fichier dans un logiciel dédié.