référencement naturel - Mardi, août 4 2009
Les moteurs de recherche sanctionnent le plus souvent le duplicate content.
Il est donc utile de comprendre, au mieux, de quoi il s'agit et ce qui peut être considéré comme du duplicate content ou pas.
Définition du duplicate content
Comme son nom l'indique il s'agit du fait de retrouver un contenu identique sur internet (ou contenu dupliqué).
voici la définition qu'en donne google :
"Par contenu en double, on entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires."
et voici la définition qu'en donne bing :
"Le Duplicate Content fait référence à des blocs de contenu conséquents qui, sur un domaine ou sur plusieurs domaines, soit sont parfaitement identiques soit sont très ressemblant" .
Politique des moteurs vis à vis du duplicate content
Les moteurs de recherche dans leur quête continue d'identifier les pages les plus pertinentes axe une partie de leur algorithmique vers la détection de duplicate content. L'idée suprême étant de pouvoir identifier la source originelle d'un contenu pour pouvoir le mettre en avant. L'idée est louable mais ce n'est pas sans conséquences sur l'architecture d'un site et sa politique de déploiement de son contenu.
En la matière, il n'est pas possible à l'heure actuelle de tirer de constat formel sur ce qui est considéré ou pas comme étant du duplicate content. Seule certitude, le pompage intégral d'un article est sanctionné. Quant à dire ce qui est considéré comme similaire ainsi que la taille d'un bloc conséquent, ce n'est tout simplement pas possible. Tout d'abord parce que les algorithmes évoluent très vite, et la vérité d'un jour n'est pas celle du lendemain dans ce domaine.
Cet article par exemple reprend les définitions données par Google et Bing du duplicate content, cette partie n'est donc pas originale en soit puisque déjà indexée dans les moteurs de recherche.
Reste à savoir si les moteurs de recherche verrons l'article comme douteux s'ils pensent que cet part représente un bloc de contenu important... Concernant la similarité, il est certain qu'un certain nombre de sites ont déjà traité la thématique du duplicate content en long en large et en travers, ce qui confère à ce nouvel article un caractère « prédictivement » similaire.
On commence à comprendre la difficulté de la gestion du contenu dupliqué, au cœur de toutes les attentions actuellement.
Pourquoi tant d'attention ?
Tout simplement parce que ce qui est vu comme n'étant pas original est sanctionné dans les moteurs de recherche.
Lorsqu'ils identifient un bloc en duplicate content, la page contenant ce blog est déclassée. Si cette page est une page important de votre site, c'est a priori toutes les pages qui sont liés à celle ci qui ne bénéficierons plus ou mal des liens qui pointent vers elles.
Les risque de duplicate content
Comment essayer de s'en prémunir ?
Maitrisez votre architecture
La première solution, est une solution de bon sens et parfaitement maitrisable (normalement).
Bien gérer son contenu en interne. Evitez les pages qui n'apportent rien en reprenant certains de vos contenus dans l'espoir de voir de nouvelles pages facilement construites. Le nombre ne fait plus la qualité !
Améliorer sa notoriété
A priori on pourrait penser que ça n'a pas d'influence sur ce qu'est véritablement du duplicate content, mais il est notable que certains articles ou sites limites de ce point de vue, ne soient pas sanctionnés.
Pourquoi ? parce que les moteurs de recherche leur font confiance.
Le nombre de liens entrant sur un article, la diversité des sources, leur environnement, crédibilise ou pas votre site au yeux des moteurs de recherche. (voir les bons et les mauvais liens).
Bref ce crédit de confiance ou trust rank peut considérablement améliorer les choses dans ce qui sera considéré comme un bloc important en contenu dupliqué.
Cette méthode n'affranchi pas de tout pour autant ;-)
Utiliser la balise canonique
<Link rel = "canonique" href = "http://mysite.com" />
Live Search (bing), en partenariat avec Google et Yahoo se sont entendus sur l'utilisation de cette balise pour permettre d'identifier la source unique (ou canonique) pour l'URL d'une page donnée.
En savoir plus sur l'url canonique avant que je trouve le temps de rédiger un article spécifique :
http://www.annuaire-info.com/google-url-canonique/ /p>
Utilisez les redirection 301
Si votre site déménage en tout ou partie, pensez à effectuer une redirection de type 301 (move permanently) qui indiquera aux moteurs de recherche lorsqu'ils reviendront sur votre page que celle-ci a déménagé.
Sans effectué cette opération, les moteurs ne seront pas en mesure de détecter ce changement et considérerons votre nouvelle page comme du duplicate content de l'ancienne version.
La gestion des flux syndiqués (rss)
Cette partie mérite un article à part entière.
Sans entrer dans le détail pour l'instant par manque de temps, la lecture de ce qui précède devrait déjà orienté vos démarches dans la gestions de la syndication des flux.
Soumettre un flux rss sur un site de plus forte notoriété présente un risque majeur pour vos pages qui pourraient être en situation de duplicate content alors que vous êtes l'auteur d'un article.
Articles complémentaires :
http://wordpress-tuto.fr/duplicate-content-google-definition-302
Comme présenté en début d'article, il n'y a pas de vérité en matière de référencement, à chacun de se forger son opinion, mais pour les débutants, je souhaite que cet article ait répondu à ce qu'est le duplicate content.

Commentaires
très instructif merci !
bon a savoir; reste à pourvoir gérer. merci pour l'info