OpenGraph et récupération de contenu effacé…

OpenGraph et récupération de contenu effacé…

[Article édité le 13 mai 2019]
Il y a quelques jours, Hackers Republic signalait sur Twitter la possibilité de récupérer du contenu effacé sur les réseaux sociaux (des images flickr au cas d’espèce), grâce aux balises SEO.

@Tris_HR vous explique comment…

Pour améliorer l’engagement, le référencement et le partage de contenus sur les réseaux sociaux, les développeurs et spécialistes du Search Engine Optimization (SEO) sont fortement incités à paramétrer leurs contenus. Lorsque l’on crée un site internet, en plus des titres courts, des descriptions et des images, on enrichit l’ensemble avec des données supplémentaires, destinées aux moteurs de recherche ainsi qu’aux réseaux sociaux.

La plupart des Content Management System (CMS) proposent des modules complémentaires pour enrichir les pages. Retenons-en trois :

OpenGraph sert principalement à baliser son contenu pour Facebook, l’objectif étant d’avoir une jolie présentation. TwitterCards est utilisé par Twitter, mais le réseau social Mastodon a opté pour un balisage similaire des contenus. Enfin, Schema.org est plus particulièrement destiné aux moteurs de recherche.

Un exemple de balise sémantique SEO Openfacto Osint
Un exemple de balise sémantique

Même si OpenGraph et TwitterCards servent à favoriser le partage, ils ont les mêmes caractéristiques que les moteurs de recherche.
En effet, lorsqu’un contenu est supprimé d’un site Web, s’il a été indexé avant sa suppression, il est possible de récupérer une version en cache, directement dans les moteurs de recherche ou grâce aux différentes plateformes d’archives.

Il subsistait une difficulté : que faire si le contenu effacé n’avait pas été archivé ou indexé ?

En dehors de cas très spécifiques, les contenus mis en ligne ont vocation à être partagés. On peut donc tester les liens sur les réseaux sociaux. Le cas d’espèce concernait des photos, mises en ligne sur Flickr. Le propriétaire avait effacé les photos et supprimé son compte. Il a pourtant été possible de récupérer certaines photos.

La photo récupérée : cache_og.png (anonymisée…)

Pourquoi ? L’auteur des photos les avait partagées sur Facebook. Facebook a stocké les données OpenGraph, permettant ainsi d’afficher les photos. Les métadonnées utilisées pour le partage sont donc toujours disponibles et l’auteur des photos n’a pas indiqué à Facebook que les liens étaient invalides.

Après insertion des liens dans une conversation sur Messenger, les photos qui avaient déjà été partagées, se sont affichées. Il ne restait plus qu’à afficher la console de Chrome (clic droit> inspecter l’élément), cliquer sur l’onglet « Sources » pour récupérer rapidement les photos.

Évidemment, en cas de contenu supprimé, s’il a été partagé sur Facebook, les seules informations qui pourront être récupérées seront celles d’OpenGraph. Du côté de Twitter, le réseau social garde aussi les informations contenues dans les TwitterCards.


Une Twitter Card après suppression du contenu

D’après leur documentation, si un lien est invalide, elles sont supprimées au bout de 7 jours. https://developer.twitter.com/en/docs/tweets/optimize-with-cards/guides/getting-started.html

Edité le 13 mai 2019 :
En théorie, Twitter efface les liens et les données au bout de 7 jours.
En réalité : non. J’ai repris le lien que j’avais posté le 24/04/2019 et la capture d’écran montre que si l’image a disparu, ce n’est pas le cas du texte. J’ai testé avec mon compte Twitter pro le même lien que je n’avais jamais posté depuis ce compte, depuis un autre navigateur. Même résultat.

Quand j’inspecte l’élément, je récupère bien le texte ainsi le lien raccourci via Twitter.

Un tour sur CheckShortURL me montre le lien complet :
http://checkshorturl.com/expand.php?u=https://t.co/TI75mSO9rB

En dehors de Facebook, d’autres réseaux sociaux et messageries utilisent OpenGraph pour baliser les contenus, dont les messageries Telegram et WhatsApp et comme Facebook, il faut forcer la désindexation.

Un contenu, en particulier une photo, qui a été hébergé ailleurs que sur Facebook, peut donc être partiellement ou totalement récupéré grâce au balisage sémantique, si ce contenu a été partagé sur un réseau social utilisant OpenGraph.

Néanmoins, il n’est pas possible de récupérer l’intégralité du balisage en cas de contenu effacé. Dans le cas présenté ici, seule la photo a pu être récupérée, mais pas les autres balises telles que l’heure de mise en ligne, l’auteur, la description éventuelle, etc.

Code-source d’une photo récupérée