Travailler avec des leaks: le cas des emails leakés du chef de campagne du Président Ukrainien (2nd partie)

Travailler avec des leaks: le cas des emails leakés du chef de campagne du Président Ukrainien (2nd partie)

Dans la première partie de cet article, Lou vous expliquait comment travailler sur des leaks d’emails, en prenant pour exemple ceux du chef de campagne du Président Ukrainien. Cette fuite de données ne concernait que 167 emails, assez simple à analyser avec un simple éditeur de texte.

Toutefois, trouver un si petit nombre de mails est assez rare. Ainsi, dans la cas des « Macron Leaks » en 2017, ce ne sont pas moins de 21.000 mails, issus de plusieurs boites, qui avaient fuité, rendant une analyse manuelle assez complexe à mener dans un temps très court. Oui, explorer les mails à la main, surtout en si grande quantité, peut-être assez fastidieux.

Heureusement, il est possible d’automatiser un peu le processus d’analyse et utilisant quelques outils libres et gratuits.

Comment sont livrés les mails?

La première question à se poser est de savoir comment les mails sont leakés. S’agit-il d’un lot de fichiers EML (chaque mail livré un par un), d’une boite mbox?, d’un fichier pst (Outlook)?

Le plus simple à analyser est le plus souvent d’avoir un mail par fichier.

Pour le format pst – c’est de loin le format le plus pénible – on peut importer ce fichier dans Outlook, à condition de le posséder, puis exporter cette boite au format EML. Sous Linux, il existe une bibliothèque appelée libpst, capable de convertir du pst en eml.
Pour le format mbox, j’utilise souvent Thunderbird, associé au plugin importexporttools, qui permet d’importer et d’exporter les boites mail dans un peu tous les formats.

Thunderbir et importexporttools chez openfacto.fr
Liste des fonctionnalités d’ImportExportTools

Indexer les mails pour mieux les interroger

Les moteurs de recherches d’Outlook ou de Thunderbird sont assez pathétiques en terme de fonctionnalités. Faire de la recherche fine peut s’avérer très pénible. Lorsqu’on a récupéré des courriels en abondance, rien de tel qu’un bon outil d’indexation pour requêter précisément.

En fonction du besoin et du niveau de compétence dont vous disposez, mais également de l’investissement en temps et en argent que vous souhaitez y consacrer, il est possible de recommander trois outils :

1- Rapide à déployer, portable et puissant, fonctionnant sous Windows, Mac et Linux, DocFetcher reste un outil d’indexation incontournable. L’interface est austère mais efficace : vous créez un index de vos mails. Puis vous lancer vos requêtes à l’aide de la syntaxe de Lucène, le moteur d’indexation.

2- Un poil plus complexe à paramétrer, Overview-Project dispose des mêmes fonctionnalités de recherche fine mais permet également de tagguer des documents, de faire des liens entre eux.

3- La Rolls du moment, même si il est plus complexe, OpenSemanticSearch, est un outil d’indexation complet, permettant notamment de faire de la reconnaissance d’entité nommées (NER), et donc d’enrichir automatiquement vos documents en retrouvant par exemple des sociétés des personnes, des lieux, etc…

Enfin, on surveillera de près Datashare, développé ces temps-ci par l’ICIJ (coucou Pierre!), qui permettra de faire tout cela dans une interface sexy en diable.

Travailler sur les entêtes des mails

Les entêtes des emails (ou headers) recèlent une foule d’informations et ne sont pas forcément très étudiés.

Pour les analyser en masse, il va falloir les extraire et si possible automatiquement. Pour cela, il existe une bibliothèque python très intéressante : mailparser. Une fois installée sur votre machine, cette commande permet d’extraire les informations suivantes :

  • bcc
  • cc
  • date
  • delivered_to
  • from_
  • message_id
  • received
  • reply_to
  • subject
  • to

Pour l’exemple des mails ukrainiens, voici la commande utilisée sous bash/Linux :

for i in *.eml;do mailparser -f « $i » -r -b >> emails.csv;done

Ce qui signifie : « pour chaque mail au format .eml, récupère les entêtes (-h) et le corps du message (-b) et enregistre tout dans un unique fichier appelé emails.csv ».

Une fois ce fichier créé, il est possible d’utiliser OpenRefine, pour nettoyer et enrichir ce fichier et d’obtenir cette feuille de calcul :

  • extraction des expéditeurs et destinataires
  • extraction du sujet, et de l’adresse IP d’envoi du message
  • identification et géocodage des adresses IP

Il est possible de voir immédiatement les aberrations, ou les détails qui ne collent pas dans un jeu de données de ce type, comme par exemple ces deux mails qui sortent du champ habituel des mails reçus ou adressés par le titulaire.

Le renommage des colonnes en Source et Target peut vous sembler curieux mais il est en fait très utile pour importer rapidement les données dans Gephi.
Au cas présent, le rendu des échanges sous forme de graphe est peu parlant (faible nombre de mails, et d’interlocuteurs…).

Graphe et OSINT avec Gephi

Mais avec un jeu de données plus important, notamment bien horodaté, il est possible de faire des choses très visuelles comme cette petite animation des échanges entre plusieurs boites mail, par Alexandre Léchenet.

Pour conclure…

Il s’agit de quelques suggestions et de techniques pour analyser un jeu de données de type emails et lui donner rapidement du sens, en comprendre les enjeux…

Souvenez-vous toutefois qu’avec ce type de leaks, il convient d’être particulièrement prudent : les pièces jointes des mails peuvent être contaminées et il conviendra de prendre toutes les précautions nécessaires avant de commencer cette exploration (Machine virtuelle, antivirus, etc…).

Sortez couvert-e-s!

Travailler avec des leaks: le cas des emails leakés du chef de campagne du Président Ukrainien (1ère partie)

Travailler avec des leaks: le cas des emails leakés du chef de campagne du Président Ukrainien (1ère partie)

Un leak récent a été mise en ligne le 22 Mars 2019 sur un forum de hacking Cyber Guerilla, publiant ainsi les emails de Vitaly Kovalchuk, directeur de campagne du Président Poroshenko en Ukraine, en lice pour une réélection, à huit jours du scrutin.

Vitaly Kovalchuk

Le groupe responsable de la publication des leaks est liée à la publication des leaks sur l’organisation Integrity Initiative, spécialisée dans la lutte contre la désinformation. Cette opération de hacking a été présentée comme une opération du gouvernement russe par les media britanniques. L’attribution de cette leak Ukrainienne, exercice toujours périlleux, est en effet une donnée importante puisque la fuite de ces emails intervient à un moment politique clef du pays dans un contexte où l’utilisation des attaques cyber a été signalée plusieurs fois pendant la campagne électorale.

Capture d’écran du site de publication de la leak

Avec seulement une centaine d’emails datant du 6 au 21 Mars 2019, CyberGuerilla illustre la valeur de cette leak en mettant l’accent sur des échanges qui démontreraient l’utilisation de soutiens politiques occidentaux en faveur de la navigation libre ukrainienne de la Mer d’Azov dont l’accès est actuellement bloqué par la Russie comme argument politique de campagne pour la ré-élection du Président Ukrainien.

En réalité, il s’agit en fait d’un seul email datant du 20 Mars 2019.

Traduction en commencant par le bas de l’email :

Vitaliy Kovalchuk – Pavel Anatolyevich, bonjour! Vraiment hâte de savoir quels ont été les résultats de la prise de contact avec Maas [Heiko Maas Ministre des Affaires Etrangères d’Allemagne]. Nous y sommes très attachés.

Pavel Anatolyevich – Bonjour, leur position n’a pas changé. Maas nous parle franchement au sujet de la mer mais si je comprends bien, ils ne veulent tout simplement pas risque le pipeline Nord Stream et aller au conflit ouvert. Je pense que cette question reste en suspens jusqu’à la fin des élections, ils sont très prudents.

VK – Des sanctions sont nécessaires avant. Ou, au moins, que l’Allemagne, se soit prononcée [publiquement]. Nous devons construire sur quelque chose. Nous devrions peut-être demander l’aide de nos amis.

PA – C’est exclu. Il y aurait l’effet inverse. Maas était extrêmement agacé par
la pression des états après la dernière action. Maintenant, il a évidemment fait comprendre qu’il n’y aura pas de décisions embarrassantes de leur part.

Pavel Anatolyevich est présenté par les hackers comme un fonctionnaire important dans l’aparatus d’Etat, probablement un proche ou le ministre des Affaires Etrangères lui-même [Pavel Anatolyevich Klimkin]. Trois éléments dérangent: l’absence de nom de famille mentionné dans l’email pour identifier la personne et son rôle, la langue russe (rappelons que l’ukrainien est la langue officielle du pays, étonnant que tout soit en russe). Enfin, il est difficile d’attribuer réellement l’adresse email à Pavel Anatolyevich – – qui n’apparaît nulle part.

D’autres éléments étonnent dans le dossier. Trois emails sont écrits en anglais et sont adressés ou viennent de personnalités occidentales: Carl Bildt – ancien Premier Ministre Suédois – (expéditeur), George Kent du Département d’Etat Américain (expéditeur) et Graham Atkins de la société Atkins Thomsons (destinataire). Ces individus utilisent des adresses personnelles (gmx, mail.com et tutamail.com) dans le cadre de communication très officielle, assurant le soutien de la Suède et des USA au Président et à la démocratie ukrainienne ou faisant référence à un procès judiciaire (qui a bien eu lieu). Non seulement, l’utilisation de ces adresses mais aussi la structure de certaines tournures de phrase semblent peu crédibles.

Email de Carl Bildt utilisant gmx.com et la mention de « the entire democracy world » pour le moins étrange
Email de George Kent en charge du bureau Eurasie au Département d’Etat Américain
Un partner de la société Atkins Thomson avec une adresse tutamail….

Les adresses emails de Carl Bildt et George Kent peuvent être analysées rapidement:

  1. L’adresses IP de l’email de Carl Bildt est localisé en Suède. Pas étonnant car il est suédois. Sauf que le 15 Mars dans l’après midi, il est à Londres et s’envolera le soir pour le Brésil (seule l’hypothèse du VPN semble tenir…).

2. L’adresse IP de l’email de George Kent est localisée plus bizarrement en Espagne (service VPN du Département d’Etat américain?) et son adresse email backup pour le service mail.com est une adresse en givmail.com du service temporaire d’email de GetNada. C est étrange.

L’ensemble de ce faisceau d’indices nous permet de nous questionner à juste titre: s’agit-il de vrais emails? Est-ce que Carl Bildt et George Kent sont bien les auteurs des emails assurant le soutien de leur gouvernement respectif à la démocratie ukrainienne? Est-ce une tentative de manipulation orchestrée de l’information afin de distraire à quelques jours d’un scrutin électora?. Cette tactique de distraction s’inscrirait alors dans la stratégie des 4 D employée régulièrement dans les campagnes de désinformation (Dismiss, Distract, Distort, Dismay comme le dit Ben Nimmo.).

Travailler avec les leaks dans la recherche en sources ouvertes

Rencontre entre l’open-source et la communauté cyber, les leaks ou data breach (fuites de données) font partie intégrantes des sources disponibles en sources ouvertes. Consacrées initialement par Wikileaks avec la publication en ligne des câbles diplomatiques des ambassades américaines autour du monde et des Syrian Files, ces leaks permettent d’avoir accès à du matériel de première main dans la recherche d’un sujet particulier. Néanmoins, elles amènent à se poser certaines considérations éthiques puisqu’il s’agit de matériel volé et obtenu au travers d’opération de hacking par divers groupes.

Si on s’intéressera beaucoup aux emails, documents, photos de première main qui vont permettre d’appuyer un élément de recherche avec une preuve solide et originelle, il ne sera pas inutile non plus de s’intéresser aux identifiants et mot de passe collectés. Il ne s’agit surtout pas de chercher à utiliser ces informations pour se logguer à un compte (ce serait illégal!).
Mais ces informations peuvent permettre de retrouver d’autres alias, d’autres boites mails appartenant à de individus.

Alors quoi faire face à ces leaks?

Dans un premier temps, il faut être capable d’y accéder et de les ouvrir en toute sécurité car ces leaks peuvent être piégés. Certains nécessitent d’aller les chercher sur le réseau ToR, ce qui demande de configurer son ordinateur à cet effet [un bon guide ici]. Il est toujours plus prévoyant d’ouvrir les fichiers dans une machine virtuelle pour les examiner [un guide ici] – Oracle propose un logiciel gratuit à cet effet [ici].

Ensuite il semble nécessaire d’identifier le groupe derrière et de comprendre leurs motivations. Les attributions sont parfois très faciles mais parfois surgissent de groupes anonymes qu’il est difficile à appréhender. Un excellent article et thread a été partagé et écrit par The Grugq concernant l’utilisation par les services de renseignement russes d’avatars hacktivistes pour pousser des informations servant un agenda précis.

Finalement la dernière étape, l’une des plus dures quand on doit traiter des giga-octets de données, c’est de vérifier l’authenticité des documents. Il s’agit donc de maintenir un esprit critique à tout moment face à ce que l’on voit et lit.

Une plateforme qui regroupe toutes les leaks

Distributed Denial of Secrets [lien vers un site utilisant ToR] a été lancé en décembre 2018 comme un collectif pro-transparence dont le but est de faire circuler l’information. Le collectif suit deux critères pour publication: est- ce intéressant/important pour le public et peut-on déterminer aux premiers abords la véracité du contenu?

Les relevés météorologiques en sources ouvertes

Les relevés météorologiques en sources ouvertes


Lors de vos recherches en sources ouvertes, il est parfois nécessaire de disposer de relevés météorologiques précis d’une zone géographique et une période donnée.
Ainsi, si vous cherchez à identifier la chrono-localisation d’une image ou d’une vidéo présentant de la neige, il est important de pouvoir vérifier vos déductions, à l’aide d’éléments externes.

Bien sûr, il existe une liste importante de site météorologiques en français ou en anglais, capables de vous renseigner.
On citera par exemple Météo-France, Weather Underground…

Malheureusement, ces sites ont une mémoire relativement récente et disposent de statistiques assez lacunaires. Par ailleurs, certaines zones géographiques assez lointaines sont peu référencées, notamment si l’on cherche un historique ancien.

(suite…)