Métadonnées ou contenu de communication : pourquoi il ne suffit pas de crypter du „texte" - VSX.is

Lorsqu'ils parlent de Vie privée Dans le monde en ligne, l'attention se porte essentiellement sur le contenu de la communication - le texte du message, le fichier enregistré, la vidéo de l'appel. Moins visibles, mais souvent tout aussi importantes, sont les métadonnées : les informations sur qui a communiqué, quand et comment. Dans ce texte, j'essaierai d'expliquer la différence entre le contenu et les métadonnées, de montrer ce que l'on peut tirer des métadonnées et, surtout, comment les aborder avec bon sens et non de manière paranoïaque.

Qu'est-ce que le contenu de la communication et qu'est-ce que les métadonnées de la communication ?

Le contenu de la communication est ce que nous percevons intuitivement comme le „message“. Le texte d'un courriel, la voix lors d'un appel téléphonique, une image lors d'une vidéoconférence, un document joint dans une pièce jointe. Si la communication est cryptée, c'est ce contenu qui doit être protégé afin qu'aucune personne non autorisée ne puisse le lire ou l'écouter.

Les métadonnées de communication, quant à elles, sont des informations o pour communiquer. Elles comprennent généralement : qui communique avec qui (comptes, adresses électroniques, numéros de téléphone), quand la communication a lieu et combien de temps elle dure, quelles adresses IP et à peu près à partir de quel endroit une personne se connecte, quelle quantité de données circule et à quelle fréquence, quels appareils, applications ou protocoles ont été utilisés. L'étendue spécifique de ces données varie en fonction du service et de son opérateur.

Dans le cas du courrier électronique, le contenu de la communication est le texte et les pièces jointes, tandis que les métadonnées de la communication sont les en-têtes avec la liste des expéditeurs et des destinataires, l'horodatage et les serveurs par lesquels le message est passé. U vidéoconférence est le contenu d'un flux audio-vidéo crypté, les métadonnées de la communication indiquent qui s'est connecté, quand, pendant combien de temps, à partir de quelle adresse IP et quels étaient les paramètres techniques de la transmission.

Comment les métadonnées de communication sont-elles créées ?

Les métadonnées de communication sont créées pratiquement à chaque étape du trajet entre deux participants : sur l'appareil de l'utilisateur (journaux d'application, informations de connexion), sur le réseau (routeurs, NAT, FAI) et du côté du service (serveurs qui assurent la journalisation, le routage, le stockage des journaux).

Même si le contenu des messages est crypté de bout en bout, l'infrastructure doit en savoir au moins assez pour pouvoir établir, maintenir et éventuellement effacer la connexion. C'est pourquoi les fournisseurs stockent généralement diverses formes de journaux de trafic et d'informations sur l'état de la connexion. Télémétrieles statistiques de connexion, les journaux d'erreurs, les données pour le contrôle des performances ou la protection contre les abus.

Ce que l'on peut lire dans les métadonnées de communication

Les métadonnées de communication semblent „innocentes“ à première vue, mais dans l'ensemble, elles peuvent être étonnamment révélatrices. Par exemple, elles permettent de reconstituer le réseau relationnel - qui communique fréquemment avec qui, qui ne communique que sporadiquement, qui est au centre de l'attention. Elles peuvent être utilisées pour estimer les rythmes quotidiens - à quelle heure vous travaillez habituellement, quand vous êtes en ligne, quand vous n'êtes pas disponible. Les adresses IP et les points d'accès permettent souvent de savoir si une personne reste au même endroit ou si elle voyage régulièrement. Et une condensation soudaine de la communication dans un groupe particulier peut signaler que „quelque chose d'important“ se produit sans que personne ne lise le contenu des messages.

Imaginez un exemple simple : quelqu'un ne connaît pas le contenu de vos messages, mais constate que le nombre de longs appels du soir avec une personne particulière d'une autre ville a augmenté de manière significative au cours des dernières semaines. Cette image à elle seule peut être très sensible dans certains contextes.

Qui voit généralement les métadonnées de communication

Différents types de métadonnées de communication sont disponibles pour différents acteurs. Le fournisseur d'accès à Internet (FAI) voit la couche réseau - adresses IP, ports, volumes de données transférées, parfois même des informations fournies par les exigences légales en matière de conservation des journaux. Le fournisseur d'un service spécifique (e-mail, messager, (p. ex. vidéoconférence) a accès aux journaux, à la télémétrie technique, aux journaux d'appels et aux autres données opérationnelles dont elle a besoin pour exploiter la plateforme et se protéger contre les abus. Les tiers auxquels une partie de l'infrastructure est confiée - centres de données en nuage, CDN, fournisseurs de services de surveillance - traitent leur part de métadonnées, souvent selon leurs propres règles et dans le cadre de leur propre système de gestion des données. Compétence.

Dans certains cas, les autorités publiques peuvent demander l'accès à certaines métadonnées sur la base de la législation locale. En République tchèque, la loi sur les communications électroniques (article 97, paragraphe 3, de la loi n° 127/2005 Coll.) oblige les fournisseurs de réseaux de communication publics à conserver les données relatives au trafic et à la localisation pendant six mois. Ces données peuvent être mises à la disposition des autorités chargées de l'application de la loi, des services de renseignement et d'autres organes statutaires qui en font la demande. Pour les lecteurs, cela signifie un horizon concret : même si personne ne lit vos messages, les métadonnées concernant les personnes qui ont communiqué, le moment et l'endroit où elles ont communiqué peuvent être retracées jusqu'à six mois en arrière.

Le chiffrement de bout en bout et ses limites

De bout en bout chiffrement est un outil important pour la protection de la vie privée, mais il faut en comprendre les limites. Il protège le contenu des communications - texte, audio, vidéo - entre les terminaux. Les données sont cryptées de manière à ce que même le fournisseur de services ne puisse pas les voir.

Toutefois, le cryptage du contenu lui-même ne permet généralement pas de savoir qui s'est connecté à qui et quand, à partir de quelle adresse IP et avec quels paramètres techniques, combien de temps a duré la communication et quelle quantité de données a été transférée. La quantité de métadonnées de communication que le service stocke malgré le cryptage du contenu varie considérablement d'un fournisseur à l'autre. Un bon exemple est la comparaison entre WhatsApp a Signal - les deux applications utilisent le même protocole de cryptage (Protocole de signal) pour la protection du contenu, mais elles diffèrent fondamentalement sur le traitement des métadonnées. WhatsApp stocke les données de trafic relatives à qui communique avec qui et à quel moment. Signal, en revanche, en utilisant la technologie Sealed Sender, minimise également, d'un point de vue architectural, le fait que ses serveurs sachent qui envoie un message à qui. Même protocole de cryptage, empreintes de métadonnées fondamentalement différentes.

Dans la pratique, il est logique d'envisager la communication en trois couches : l'application - où nous protégeons le contenu (par exemple, le chat crypté), le réseau - où les métadonnées nécessaires à la livraison (IP, ports, routage) sont créées, et l'opérationnel - où la télémétrie et les journaux utilisés pour faire fonctionner et sécuriser le service sont créés.

Encart technique : adresses IP, DNS, journaux, télémétrie

Pour ceux qui souhaitent un peu de contexte technique, une brève insertion s'impose. Une adresse IP est l'identifiant d'un appareil (plus précisément, d'un point d'extrémité) qui se connecte à un réseau. Combinée à l'heure de la connexion et aux journaux d'attribution du fournisseur de connexion, elle permet de savoir qui se trouvait „derrière“ une adresse IP donnée à un moment donné. Les journaux sont des enregistrements d'événements significatifs - par exemple, qu'un utilisateur s'est connecté, qu'une erreur s'est produite, qu'une nouvelle connexion réseau a été établie. La télémétrie est un terme générique qui désigne les données de diagnostic et d'exploitation utilisées pour surveiller l'état d'un système : utilisation, latence, taux d'erreur.

À ces couches traditionnelles de métadonnées de communication s'ajoutent deux vecteurs souvent négligés. Les requêtes DNS - à moins que l'utilisateur n'utilise un DNS crypté (comme DoT ou DoH) - transitent par le réseau en texte clair, de sorte que le fournisseur d'accès à Internet voit chaque nom de domaine résolu. Et même avec une connexion HTTPS cryptée, l'en-tête Server Name Indication (SNI) contient le nom du site de destination en clair lorsque la connexion est établie. Cela crée une situation paradoxale : le contenu de la communication est crypté, mais l'adresse vers laquelle la communication est dirigée reste généralement transparente.

Ces couches sont souvent liées. Sur la base des journaux et de la télémétrie, l'opérateur du service décide s'il est nécessaire d'augmenter la capacité, si le service est attaqué ou si une configuration particulière provoque des erreurs. En même temps, ces informations de diagnostic élargissent l'ensemble des métadonnées de communication qui existent sur l'utilisateur.

Exemple pratique : un utilisateur normal

Imaginez un utilisateur typique qui utilise le courrier électronique d'un grand fournisseur de services, un service de chat populaire avec cryptage de bout en bout et la vidéoconférence pour le travail et les appels privés.

Au niveau des métadonnées de communication, l'image suivante peut se dessiner. Le fournisseur de courrier électronique sait généralement quand il se connecte, à partir de quelle adresse IP, avec quel appareil et à quelle fréquence il envoie et reçoit du courrier. Un fournisseur de chat sait généralement quand il est en ligne, à quels contacts il écrit, à quelle fréquence et quelle est la durée de chaque session - sans en connaître le contenu. Un fournisseur de vidéoconférence sait quand il a participé à des appels, combien de temps ils ont duré, combien de participants il y avait, de quelles régions, et le déroulement technique de l'appel.

À cela s'ajoutent les métadonnées du fournisseur d'accès à Internet et tous les journaux de l'infrastructure en nuage ou de surveillance. Sans une seule „ouverture“ du contenu, on peut constater que l'utilisateur est en ligne de 8h à 17h environ chaque jour de la semaine, qu'il a souvent des appels vidéo plus longs avec une personne en particulier le soir, que le volume de communication varie considérablement le week-end et que, plus récemment, des connexions régulières en provenance d'un autre pays sont apparues, ce qui peut indiquer un voyage.

Pour le commun des mortels, ces données peuvent se situer à la frontière entre un dossier technique anodin et des informations personnelles sensibles - cela dépend du contexte, des personnes qui ont accès aux données et de la manière dont elles les traitent.

Exemple pratique : une petite organisation à but non lucratif

Imaginez une petite organisation à but non lucratif de dix personnes. Elle n'acquiert pas propres serveurs, mais utilise une messagerie électronique et une suite bureautique basées sur le cloud, une plateforme de vidéoconférence distincte, un outil de chat pour la communication interne et plusieurs services supplémentaires (partage de fichiers, gestion de projets).

Au niveau du contenu de la communication, un certain nombre de choses peuvent être bien sécurisées : documents cryptés, chat crypté, stockage crypté. Mais les métadonnées de la communication sont créées dans chacun de ces services : dans le courrier électronique (qui a écrit à qui, quand, à partir de quelle adresse IP, à quelle fréquence), dans le chat (quand l'équipe se réunit, quels sont les canaux „chauds“), dans la vidéoconférence (horaires et schémas de présence aux réunions) et dans les outils de partage de fichiers (quand des documents spécifiques sont travaillés, qui les ouvre).

À cela s'ajoute l'infrastructure des différents fournisseurs : leurs centres de données en nuage, leurs systèmes de surveillance et de journalisation, et tous les sous-traitants technologiques. L'objectif ici n'est pas de présenter des scénarios catastrophiques, mais de montrer que même une organisation relativement petite laisse de nombreuses métadonnées de communication qui indiquent quand la charge de travail est la plus élevée, quels projets sont au centre des préoccupations, quelles personnes de l'organisation sont les plus connectées dans la communication, et s'il y a des changements soudains dans l'activité (par exemple, avant des événements importants).

Du point de vue de la sécurité interne et de la réputation, il peut être important pour une organisation de savoir où résident ces métadonnées, qui les traite et dans quelles conditions.

Comment aborder judicieusement les métadonnées de communication

Il ne s'agit pas de se résigner aux outils numériques ou de succomber au sentiment que „de toute façon, tout est perdu“. Une approche raisonnable pourrait ressembler à ce qui suit. Reconnaître que les métadonnées de communication ne sont pas seulement un aspect technique, mais qu'elles font partie du tableau de notre comportement. Lorsque vous choisissez des outils, ne vous contentez pas de vérifier si le contenu de la communication est crypté, mais regardez aussi comment le fournisseur décrit la collecte et le stockage des données relatives au trafic. Dans la mesure du possible, choisissez des solutions qui collection de métadonnées minimiser, décrire clairement ce qui est enregistré et pourquoi, et donner à l'utilisateur autant de contrôle que possible. Et pour les sujets vraiment sensibles, envisagez d'autres formes de contact.

Les métadonnées de communication ne sont pas un mal en soi. Elles constituent un élément essentiel d'une infrastructure qui fonctionne. Le problème se pose lorsqu'elles ne sont pas connues, qu'elles sont collectées de manière inadéquate ou qu'elles sont traitées de manière non transparente. Un utilisateur ayant accès à l'information - qu'il s'agisse d'une personne ou d'une organisation - a la possibilité de naviguer dans cet espace et de prendre des décisions adaptées à sa propre relation à la vie privée.

Les informations et les évaluations contenues dans cet article sont basées sur des sources accessibles au public à la date de publication et sont susceptibles d'être modifiées au fil du temps. Nous recommandons de vérifier l'état actuel des applications individuelles directement auprès de leurs opérateurs avant de prendre une décision.