18 janvier 2020

Collecte et archivage d’informations: quelle méthode adopter en OSINT ?

Par Sébastien

Osint methodologie

Ce billet est le second d’une série signée Wolfie et Hervé sur la méthodologie OSINT.

  • Pourquoi et quoi collecter (ID, détails associés, etc.) mais surtout comment (quelle méthode utiliser)
  • Pourquoi et comment archiver (en local, en ligne?)
  • Présentation des outils et de leurs limites (Framapad, gestionnaire de favoris, Google Suite) et quelles limites derrière ces outils (format de sauvegarde, confidentialité des données)

I. Collecte et archive: un duo qui a du sens

I.A. Pourquoi collecter, pourquoi archiver

C’est une lapalissade, mais l’objectif de l’OSINT, c’est avant tout… la collecte ! Bien sûr, viendra par la suite le temps du traitement et de l’analyse des informations collectées.

Collecter une information revient souvent à répondre à une question, il s’agit donc d’une seconde étape, celle de l’expression d’un besoin. Collecter va surtout permettre de préparer les informations nécessaires à la rédaction d’une note ou autre. La collecte peut être individuelle ou collaborative, dans ce second cas, il faut bien s’assurer qu’une méthode en commun permette de maximiser la recherche.

Parallèlement, l’archivage n’est ni plus ni moins que la façon dont on conserve les données collectées afin de pouvoir les réutiliser par la suite: sans archivage, pas de liens entre les enquêtes, sans liens avec les enquêtes, un enfermement dans la sphère tactique qui ne permet pas d’atteindre ses objectifs ! (cf article précédent).

I.B. Quoi collecter

Il est complexe d’établir un listing, dans la mesure où toute liste est forcément incomplète. En matière d’OSINT, la réalité dépasse bien souvent la fiction ! De façon générale, il est toutefois possible de distinguer 4 grandes familles d’éléments :

  • Les biodata, liées à tout ce qui concerne une personne (son nom, sa date de naissance, etc) et de l’autre, tout ce qui est de l’ordre de l’élément technique.
  • Les éléments techniques, qui correspondent à tout élément spécifique lié à un service de type informatique ou spécialisé
  • Les éléments audiovisuels, qui incluent les images, vidéos, métadonnées d’images ou de vidéos. A titre personnel, depuis la montée en puissance des opérations de désinformation, j’y inclus également les publications/posts de réseaux sociaux et les articles
  • Les éléments spatiotemporels, géolocalisation et date sont les plus fréquents, bien que l’on pourrait y inclure, sans forcément qu’il y ait besoin de l’archiver, d’autres éléments spatiotemporels comme… la météo !

En un coup d’œil, voici ce que l’on peut, grosso modo, collecter au sein de chaque catégorie:

schéma-de-collecte-OSINT-flowchart

Petit aparté sur les réseaux sociaux

Les réseaux sociaux sont un cas particulier, dans la mesure où ils sont souvent une porte vers d’autres éléments de collecte. Si on prend par exemple Facebook, il est possible de collecter :

  • Le numéro d’ID, ou UID (Utilisateur ID)
  • Le « pseudo URL » ou Vanity Name, c’est-à-dire le nom qui vient après le facebook.com
  • Le nom du compte Facebook en lui-même

Petit aparté sur les numéros d’ID

Le numéro d’ID, dans toute démarche de collecte sur les réseaux sociaux, est crucial. En effet, il permet, comme il a été démontré récemment sur un article consacré à Instagram, de retrouver des comptes. Car si un changement de pseudo intervient, il est parfois fréquent de perdre l’accès à un compte suspect identifié précédemment pour peu que celui-ci change son pseudo… et que l’on n’a pas enregistré ce dernier. Cela s’applique aussi dans la vraie vie : combien de fois vous êtes-vous gratté la tête en vous demandant quel était le nouveau nom qu’avait pris votre ami sur Facebook ?

L’ID est, de façon plus générale, indispensable. A la manière d’une carte d’identité, l’ID est ce qui a permis à différents services (qu’il s’agisse de réseaux sociaux, de bitcoin ou autre) de pouvoir identifier un compte dans un monde où, avec la montée d’Internet, l’homonymie est fréquente. Gardez en tête qu’il y a souvent un numéro d’ID quelque part, qu’il soit public (c’est le cas des réseaux sociaux) ou cachés, comme sur certains forums.

II. Comment collecter et archiver

II.A. Les workflows

La collecte est une démarche active de récupération de l’information. S’il faut garder un esprit libre et éviter la tentation de la Liste de Course en OSINT, où la pensée originale est souvent la clef de vos enquêtes, il est parfois nécessaire de conserver une structure pour s’assurer de bien avoir fermé toutes les portes.

Pour ce faire, n’hésitez pas à vous construire un « workflow » ou à en utiliser des préconçus. Un des workflows les plus connus est par exemple OSINT Framework, qui propose, à partir d’un élément donné une liste d’actions ou d’outils à réaliser.

(Ci-dessus, capture d’écran de l’OSINT FrameWork. Ce dernier est régulièrement mis à jour, merci il arrive de tomber sur des outils datés.)

D’autres workflows, comme ceux d’Intel Techniques, disponibles uniquement pour ceux qui ont acheté son livre (ou qui savent chercher…) sont aussi particulièrement efficaces et permettent de fermer toutes les portes, ou de se relancer lorsque l’on croit avoir atteint une impasse. Conseil: pour trouver de nouveaux workflows, schémas ou autres, pensez à une veille ou une recherche avec le mot-clef « OSINT flowchart », très utilisé par les anglo-saxons.

Enfin, n’hésitez pas si vous maniez la cartographie à vous créer vos propres workflows: en effet, la plupart des outils mis à disposition sont américano-centrés, ils ne sont pas toujours adaptés à un contexte européen, ou français.

II.B. Les techniques de collecte

1°) A la main :

Si vous savez que les informations que vous trouvez sur un site internet ne vous serviront qu’une fois (le site est unique et sur ce site, vous savez où se trouve votre information), il est inutile d’utiliser des outils complexes. Sauvegardez la page (un « Enregistrez-sous » sous format HTML est le plus rapide et permet de conserver le format, la plupart du temps. Mais l’utilisation du plugin SingleFile vous facilitera grandement la vie (cf infra)!), ou archiver en les éléments les plus importants. Il est essentiel de garder en tête le ratio temps passé à collecter l’info / temps passé à trouver une technique pour la récupérer. Et parfois, faire le travail à la main est beaucoup plus rapide!

Cela ne vous dispense pas cependant de faire preuve d’un minimum de méthode. Pour une collecte à la mano, nulle besoin d’outils compliqués – mais il faut systématiser son action. Le bloc-notes est d’ailleurs votre meilleur allié, car il permet de copier / coller à la volée de nombreux éléments utiles pour différentes recherches. Prenez donc l’habitude de garder à portée de clics: URLs, noms, prénoms, numéro d’ID qui permettront d’être flexibles dans votre enquête – sans compter le fait qu’il s’agit déjà d’un début d’archivage.

Autre point important, ne délaissez jamais vos favoris ! Ces derniers, souvent sous-utilisés, permettent pourtant de rapidement naviguer d’une page Web à une autre pour peu que l’on soit bien organisé. L’intérêt? Éviter de se perdre dans une foule d’onglets ouverts et de rechercher, pendant de longues minutes, la page sur laquelle on avait cru apercevoir quelque chose. Le ratio temps / efficacité, de nouveau.

Ci-dessous, un exemple d’organisation de favoris, dans laquelle l’on distingue les déplacements, les discussions, les associés, etc. Bien entendu, les cas sont fictifs, mais cela vous donne une idée de comment organiser son enquête et ne jamais (trop) s’y perdre…

2°) Avec des outils dédiés :

Une fois ces considérations de collecte manuelle établies, il est désormais possible d’aller plus loin par le biais d’une notion qui vous permettra de plus facilement d’optimiser vos recherches : le scraping. Il s’agit d’une technique consistant à automatiser la collecte de données non-structurées (ou mal structurées), et à les convertir en données structurées.

Si à l’inverse, vous êtes susceptible de revenir souvent sur une page, avez besoin de réactualiser régulièrement vos données, ou vous souhaitez partager votre méthode, ou collecter de l’information sur des dizaines et des dizaines de pages, Dans ce cas, oui, il vous faudra penser à automatiser la collecte.

Raisonnez « OSINT » et soyez humble. Une grande philosophie à retenir c’est que vous n’êtes pas plus intelligent que la moyenne. Si vous avez un problème, d’autres l’ont sans doute déjà eu avant vous! Et parmi ces « autres », quelqu’un l’a très probablement résolu!
Github, par exemple, fourmille d’outils et de scripts pour répondre à une grande quantités de questions. Il suffit de taper une recherche du type « github instagram osint« , pour obtenir une palette incroyable de logiciels utilisables.

Sachez que les journalistes, et plus particulièrement les datajournalistes, se sont penchés très tôt sur ces problématiques et utilisent et développent de nombreux outils très pratiques. Un de ces outils est Outwit-hub, qui n’est pas gratuit, mais qui permet de rapidement prototyper un projet de collecte de données, de manière visuelle et intuitive.

OpenRefine vous permettra également d’automatiser beaucoup de choses – et de les structurer.

3°) Par le code :

Parfois, il vous sera difficile de trouver exactement ce dont vous avez besoin. Dans ce cas, il vous sera nécessaire de coder ou de faire coder un petit outil capable de répondre à votre besoin.
Deux langages informatiques se prêtent facilement à ce petit jeu : Python et R. Faciles à apprendre, et à prendre en main, ils permettent l’un et l’autre à un débutant d’être rapidement autonome.
Les quelques semaines d’apprentissage dans lesquels vous investirez seront très vite rentabilisées. Il existe de très bons MOOC par exemple pour Python et vous pouvez également fréquenter des festivals de journalisme comme Dataharvest pour vous former au cours d’ateliers très pratiques et très orientés data.

II.C. Les techniques d’archivage

Il est de coutume de dire qu’Internet n’oublie rien. Or, la réalité qui s’applique toujours à l’enquête OSINT est celle de la LEM (Loi de l’Emmerdement Maximum). Cette loi mathématique, vérifiée depuis la nuit des temps, montre que ce sont toujours les éléments importants d’un dossier qui tendent à disparaître le plus rapidement, aussi sûrement que la tartine beurrée tombe toujours sur son côté oint (du verbe oindre).
Il faut donc se prémunir de cette disparition.

1° en Local :

Prenez toujours un soin particulier à enregistrer les pages intéressantes, si possible dans deux formats :

  • Sous forme de capture d’écran, qui génèrent des fichiers images que vous pourrez habilement insérer dans vos rapports.
  • Sous forme de fichier html, grâce au plugin SingleFile, qui génère un fichier unique reconnu par des logiciels d’indexation et de recherche full-text.

Hunch.ly, outil payant, fait ça très bien de manière automatisée, mais ne fonctionne que sous Chrome (et Chromium au prix de quelques acrobaties).

2° en ligne :

L’archivage en ligne permet de mettre à disposition de vos lecteurs, une version d’une page à un instant t, en limitant les risques d’accusation de manipulation.

Attention toutefois. L’usage de telle solution induit le recours à un service tiers, qui peut logguer votre adresse IP (utilisez Tor), et si vous tenez à la confidentialité d’une enquête, c’est peut-être une mauvaise idée d’archiver trop tôt un profil. Cela peut en effet mettre la puce à l’oreille de votre cible.

Il existe au moins trois bons site d’archivage en ligne, qui ont chacun leur petite spécialité, et qui doivent donc être considérés comme complémentaires.

  • Archive.org, le plus connu, est polyvalent, et contient énormément d’information. Il accepte toute sorte de documents, et est accessible via tor. Ses performances sont toutefois assez limités sur certains réseaux sociaux (Facebook et Twitter par exemple). Une fois un lien injecté dans Archive, le robot Alexa ira vérifier de temps en temps la page originale pour indexer d’éventuelles modifications.
  • Archive.fo (ou .today), anciennement archive.is, est plus modeste mais fonctionne très bien. Il est particulièrement redoutable pour archiver des pages Facebook. En effet, il utilise un compte FB dédié et ne se contente pas de sauvegarder un profil en mode déconnecté mais bien l’intégralité du profil public.
  • Teyit.link, un site turc lui aussi plus confidentiel que Archive.org, mais assez doué sur les réseaux sociaux.

Souvenez-vous enfin que si ces sites servent à archiver, ils servent également à vérifier qu’une info n’a pas déjà été archivée!!! Lors de vos recherches en sources ouvertes, un passage sur les sites d’archivage est primordial! Heureusement, Archive.org a créé un plug-in très utile qui permet immédiatement de rechercher si une page a été archivée ou pas par le passé.

III. Conclusion

La collecte et l’archivage s’effectuent naturellement en OSINT. Gardez toujours à l’esprit que pour qu’elles soient efficientes, ces deux phases doivent être un minimum organisées, surtout quand on débute.

N’hésitez donc pas à:

  • abuser de workflows pour vous guider dans vos enquêtes et s’assurer d’avoir fermé toutes les boucles
  • à utiliser votre bloc notes comme la base de vos recherches
  • à ne pas délaisser vos favoris et à ouvrir un favori par mission (sur un profil Firefox dédié…)
  • à utiliser le scraping pour les pages avec un volume important de données ou que vous devez collecter fréquemment
  • à archiver aussi fréquemment que possible: une page fermée, un compte de réseau social qui passe en privé, et c’est tout une investigation qui peut tomber à l’eau !

Rejoignez notre mission.

Adhérez à OpenFacto, et faites de l’OSINT un standard en France.