Het probleem van dubbele inhoud en hoe het op te lossen

Een probleem dat we op bijna elke website tegenkomen, is dubbele inhoud. Grotere websites met honderden pagina's zijn hier vooral gevoelig voor. Maar wat kwalificeert zich precies als dubbele inhoud? Waarom leidt het hebben van dubbele inhoud tot problemen en hoe kunnen we ze vermijden? We zullen dit en meer behandelen in dit artikel.

Wat is dubbele inhoud?

Dubbele inhoud is precies wat u denkt dat het is: twee of meer stukken inhoud die identiek zijn, het enige verschil is de URL.

Google ziet elke URL als een afzonderlijke pagina. Vanwege dit zou het de volgende URL's als volledig verschillende pagina's beschouwen:

Originele pagina met rode shirts: http://website.com/shirts/red
Dezelfde pagina, maar gesorteerd op prijs: http://website.com/shirts/red?order=asc

Het probleem hier is dat we in feite dezelfde pagina bekijken met dezelfde inhoud. Het enige verschil is dat de inhoud op de laatste URL in een andere volgorde staat. Google ziet dit als dubbele inhoud.

Waarom is dubbele inhoud slecht?

Dubbele inhoud verwart zoekmachines. Waarom? Omdat ze het moeilijk hebben om te beslissen welke pagina het meest relevant is voor een zoekopdracht.

Zoekmachines zullen nooit twee identieke stukken inhoud in de SERP's weergeven. Dit wordt gedaan om de hoogste zoekkwaliteit te garanderen; twee keer dezelfde inhoud zien is niet erg interessant voor de gebruiker.

Een ander probleem is de rangorde macht van dubbele pagina's. In plaats van een enkele pagina met veel autoriteit hebt u meerdere pagina's met verwaterde, suboptimale prestaties. Dit kan u veel organisch verkeer kosten.

Hoe dubbele inhoud wordt aangemaakt

Dubbele inhoud kan opzettelijk of per ongeluk worden gemaakt. Niettemin, het resultaat is hetzelfde.

Een voorbeeld van opzettelijke dubbele inhoud is de gedrukte versie van een pagina. Het is in feite dezelfde pagina met dezelfde inhoud, dus wanneer deze gedrukte versie wordt geïndexeerd, is er een probleem met dubbele inhoud.

Er zijn echter tal van situaties waarin dubbele inhoud onbedoeld wordt gemaakt. Er kunnen verschillende oorzaken zijn, zoals:

Sessie-ID's
Sorteeropties
Affiliate codes
domeinen
...

Sessie-ID's

Een sessie-ID is een variabele, een reeks willekeurig gegenereerde getallen en / of letters en wordt gebruikt om bezoekers bij te houden. Ze worden vaak gebruikt voor winkelwagentjes, bijvoorbeeld:

http://website.com/?sessionid=5649612

Het probleem met sessie-ID's ligt voor de hand: ze kunnen honderden, misschien zelfs duizenden duplicaten maken. Het opslaan van sessie-ID's in cookies kan dit probleem oplossen, maar als u op deze optie vertrouwt, moet u de EU-cookiewetgeving niet vergeten.

Sorteeropties

Wanneer mensen nadenken over sorteeropties, denken ze meestal aan webwinkelproductcatalogi waar gebruikers kunnen sorteren op prijs, datum, etc. Maar sorteerfuncties zijn ook vaak te vinden op andere websites. De volgende URL gebruikt een typische blogsorteerfunctie:

http://website.com/category?sort=asc

De URL met de sorteeroptie en het origineel zijn in feite dezelfde pagina. Het is dezelfde inhoud, alleen gesorteerd op een andere manier.

Affiliate Codes

Affiliate-codes verschijnen overal op internet. Ze worden gebruikt om de verwijzer te identificeren, die op zijn beurt wordt beloond voor het binnenhalen van een nieuwe bezoeker. Een partnercode kan er als volgt uitzien, bijvoorbeeld:

http://website.com/product?ref=name

Nogmaals, deze code kan een duplicaat van de originele pagina maken.

domeinen

Zelfs iets simpels als een domeinnaam kan soms problematisch zijn. Bekijk de volgende URL's:

http://website.com
http://www.website.com

Zoekmachines hebben een lange weg afgelegd, maar af en toe krijgen ze deze nog steeds verkeerd. Beide URL's verwijzen waarschijnlijk naar de startpagina, maar omdat beide URL's er anders uitzien, worden ze soms als verschillende pagina's beschouwd.

Hoe dubbele inhoud te identificeren

We hebben het gehad over de manier waarop dubbele inhoud wordt gemaakt, maar hoe kunt u dubbele inhoudsproblemen op uw site identificeren??

De eenvoudigste manier om dit te doen is via Webmasterhulpprogramma's van Google. Meld u aan bij uw account en ga naar Optimalisatie> HTML-verbeteringen. Hier vindt u een lijst met dubbele titels (die waarschijnlijk dubbele inhoud is).

Webmasterhulpprogramma's van Google

Als alternatief kunt u de site: -search-opdracht in de URL-balk om pagina's van een specifiek domein te vinden (bijvoorbeeld site: webdesign.tutsplus.com). Deze methode is erg handig als u vermoedt dat een bepaalde pagina meerdere duplicaten heeft. Gebruik de opdracht site en plak een paar zinnen van de verdachte pagina. Als u een bericht van Google ontvangt met de mededeling: "Om u de meest relevante resultaten te laten zien, hebben we enkele vermeldingen weggelaten ...", heeft u waarschijnlijk dubbele inhoud.

Eindelijk, je zou ook kunnen gebruiken site crawlers. Software zoals Xenu en Screaming Frog kan worden gebruikt om de benodigde informatie te verzamelen. Analyseer de paginatitels in het crawlrapport en controleer op duplicaten.

Problemen met dubbele inhoud oplossen

Zoals het gezegde luidt: "elke ziekte heeft een remedie". Gelukkig zijn er verschillende manieren om dubbele inhoudsproblemen te verhelpen:

301 Doorverwijzing

Een eenvoudige manier om te voorkomen dat dubbele inhoud wordt geïndexeerd, is een 301-omleiding. Op deze manier worden de gebruiker en zoekmachines omgeleid van het duplicaat naar het origineel. Als gevolg hiervan wordt alle link juice naar de originele pagina verzonden.

Een 301-omleiding wordt geïmplementeerd op Apache-servers door regels toe te voegen aan het .htaccess-bestand van uw server. Houd er rekening mee dat deze methode de kopie verwijdert. Als u de dubbele pagina ('s) niet wilt verwijderen, moet u de volgende methode gebruiken.

Rel = canonical

Er is een andere manier om zoekmachines te vertellen over dubbele inhoud; de rel =”canonical” label. Dit codefragment moet worden geïmplementeerd in de van een webpagina.

Laten we zeggen dat we pagina B hebben die een duplicaat is van pagina A. Als we zoekmachines hiervan willen informeren, plaatsen we de volgende code in de opmaak van pagina B:

Deze code geeft aan dat de huidige pagina eigenlijk een kopie is van de bovengenoemde URL. Nadat het is geïmplementeerd, wordt het meeste linkensap overgedragen naar de oorspronkelijke pagina en wordt het rangschikkingsvermogen van die pagina verbeterd. In tegenstelling tot de 301-omleiding, blijven de dubbele pagina's toegankelijk.

Meta Robots-tag

We hebben de metatag voor robots uitgebreid besproken tijdens een eerdere zelfstudie. Door een meta-robots-tag toe te voegen met de parameter "noindex", kunt u voorkomen dat de dubbele pagina wordt geïndexeerd.

URL herschrijven

Dit is een geavanceerdere oplossing. Het is moeilijker om te implementeren als je een beperkt begrip van code hebt, maar het kan een aantal keren nuttig zijn.

Zoals eerder vermeld, de domeinnaam kan vaak dubbele inhoudsproblemen veroorzaken (www versus niet-www-versie). U kunt dit probleem oplossen door een URL-herschrijfregel toe te voegen aan uw htaccess-bestand (iets anders dat we eerder hebben behandeld in Webdesigntuts +). Kies het domein van uw voorkeur (www of niet-www) en herschrijf URL's automatisch naar het opgegeven domein.

Een ander probleem waar we het over gehad hebben, is gebruik van Sessie-ID's. Dezelfde URL met een andere Sessie-ID die is toegevoegd, kan worden gezien als dubbele inhoud. Opnieuw kan het htaccess-bestand worden gebruikt om deze parameters uit te schakelen. Lees Disable sessie-ID's doorgegeven via URL door Constantin Bejenaru om te leren hoe dit te doen.

Webmasterhulpprogramma's van Google

In het vorige gedeelte hebben we gesproken over automatische URL-herschrijving voor domeinnamen. Een eenvoudigere manier om dit te doen, is via de Webmasterhulpprogramma's van Google. Meld u gewoon aan bij uw account, ga naar Configuratie, klik op Instellingen en stel een voorkeursdomein.

Voorkeurdomein van Google Webmaster

Als je gebruikt dynamische URL-parameters, je kunt Google vertellen hoe je ermee om moet gaan. Op deze manier kunt u zien welke parameters moeten worden genegeerd. Dit kan vaak veel dubbele inhoudsproblemen oplossen. Ga naar de Webmasterhulpprogramma's van Google en ga naar Configuratie> URL-parameters. Meer informatie is te vinden op Google Ondersteuning, maar zorg ervoor dat u deze functie alleen gebruikt als u weet hoe parameters werken, anders kunt u per ongeluk pagina's blokkeren.

Targeting op taal

Dit probleem heeft te maken met dubbele inhoud, maar er zijn enkele verschillen.

Laten we zeggen dat een bedrijf dat producten in Noord-Amerika verkoopt, twee websites heeft: company.us en company.ca. De eerste is gericht op de Verenigde Staten, de laatste op Canada. Op beide websites vinden we inhoud die vergelijkbaar is omdat de webmasters verschillende pagina's van de tekst niet wilden herschrijven.

Het is mogelijk dat de Amerikaanse versie beter presteert dan de Canadese versie (zelfs op Google.ca) omdat deze meer autoriteit heeft. Hoe kunnen we dit targetingprobleem oplossen??

Er is een eenvoudige oplossing: de rel = "alternate" hreflang = "x" aantekening.

Als we ons vorige voorbeeld gebruiken, moeten we de volgende code toevoegen in de sectie van het .us domein:

Op het .ca-domein moeten we deze code plaatsen:

In wezen vertel je Google dat er een alternatieve versie (of duplicaat) is in een andere taal. Het hreflang-kenmerk gebruikt ISO 639-1 om de taal te identificeren. Optioneel kunt u de regio toevoegen in ISO 3166-1-indeling.

Slotopmerkingen

Voorkomen is beter dan genezen ... Consistente interne koppeling kan het maken van dubbele inhoud voorkomen. Als u http://www.website.com als voorkeursdomein heeft, richt u dan niet op uw interne links naar de niet-www-versie. Dezelfde tip is van toepassing op inkomende links. Als u vanuit een ander domein naar uw eigen site linkt, gebruikt u een consistente linkstructuur.

Maak opzettelijk geen dubbele inhoud door grote stukken tekst van andere websites te kopiëren. Google komt er waarschijnlijk achter en de gevolgen zijn misschien niet zo prettig:

In de zeldzame gevallen waarin Google ziet dat dubbele inhoud kan worden getoond met de bedoeling onze rankings te manipuleren en onze gebruikers te misleiden ... kan de positie van de site te lijden hebben, of de site kan geheel van de Google-index worden verwijderd.

Conclusie

Dubbele inhoud is iets dat u op bijna elke site ziet. Het kan verschillende oorzaken hebben, zowel per ongeluk als anderszins.

Tenzij u de toegang van de pagina via een 301-omleiding wilt voorkomen, kunt u het beste de rel = canonieke annotatie gebruiken. U kunt ook de meta-robots-tag of automatische URL-herschrijving gebruiken. Webmasterhulpprogramma's van Google bieden ook enkele manieren om dubbele inhoud te voorkomen.

Ten slotte is het het beste om consistent te zijn in je linking. Interne links en inkomende links moeten hetzelfde lijken.

Web ontwerp