Beheer van de toegankelijkheid van uw site voor zoekmachines

Uw site is nutteloos als deze niet door zoekmachines kan worden geïndexeerd. Als u wilt dat het wordt weergegeven in de zoekresultaten, moet u ervoor zorgen dat het kan worden geopend door zoekmachines. Soms wilt u echter de toegang tot bepaalde delen van uw site beperken, misschien wilt u irrelevante pagina's of privédocumenten verbergen. In dit artikel leert u hoe u de toegankelijkheid van uw site voor zoekmachines kunt beheren via een robots.txt bestand of de robots metatag.

Voordelen van robots Bestanden en tags

Voordat we ingaan op de details over het maken van een robots.txt-bestand of robots-metatag, moeten we naar hun voordelen kijken. Er zijn enkele scenario's waarvan de implementatie van pas kan komen, zoals:

Voorkomen dubbele inhoud van indexering (bijvoorbeeld afdrukbare versies van pagina's).
Voor onvolledige pagina's.
Beperking van zoekmachines voor indexering vertrouwelijke pagina's of bestanden.

Dubbele inhoud verdunt uw SEO-inspanningen omdat zoekmachines het moeilijk vinden om te beslissen welke versie het meest relevant is voor de zoekopdracht van de gebruikers. Dit probleem kan worden voorkomen door dubbele pagina's te blokkeren via een robots-bestand of -tag. Er is nog een andere manier om dubbele inhoud te beheren, maar daarover zullen we later praten.

Als u nieuwe maar onvolledige pagina's online hebt, kunt u deze het beste van crawlers blokkeren om te voorkomen dat ze worden geïndexeerd. Dit kan bijvoorbeeld handig zijn voor nieuwe productpagina's - als u ze geheim wilt houden tot de lancering, voeg dan een robots-bestand of -tag toe.

Sommige websites hebben vertrouwelijke pagina's of bestanden die niet worden geblokkeerd door een inlogformulier. Een eenvoudige manier om deze te verbergen voor zoekmachines is via het robots.txt-bestand of de metatag.

Nu dat we het weten waarom we moeten de toegankelijkheid van bepaalde pagina's beheren, het is tijd om te leren hoe we kunnen dit.

Het robots.txt-bestand

Crawlers zijn workaholics. Ze willen zoveel mogelijk indexeren, tenzij je ze anders vertelt.

Wanneer een crawler uw website bezoekt, zoekt deze naar het robots.txt-bestand. Dit bestand geeft instructies over welke pagina's moeten worden geïndexeerd en welke moeten worden genegeerd. Door een robots.txt-bestand te maken, kunt u voorkomen dat crawlers toegang krijgen tot bepaalde delen van uw website.

Het robots.txt-bestand moet in de. Worden geplaatst hoofddirectory van uw site - bijvoorbeeld: www.domain.com/robots.txt. Deze bestandsnaam is ook hoofdlettergevoelig.

Waarschuwing: Als u een robots.txt-bestand toevoegt aan uw website, controleer dan op fouten. U wilt niet dat crawlers ongewild worden geblokkeerd van het indexeren van belangrijke pagina's.

Een robots.txt-bestand maken

robots.txt is een eenvoudig tekstbestand met verschillende records. Elke record heeft twee elementen: user agent en weigeren.

Het user-agent-element geeft aan welke crawlers de niet-toegestane informatie moeten gebruiken. Disallow vertelt crawlers welk deel van de website niet kan worden geïndexeerd.

Een record ziet er ongeveer zo uit:

User-agent: * Disallow:

Het record hierboven geeft zoekmachines toegang tot alle pagina's. We gebruiken de asterisk (*) om alle crawlers te targeten en omdat we geen pagina voor niet-toestemming hebben opgegeven, kunnen ze alle pagina's indexeren.

Door een schuine streep naar het veld niet toestaan toe te voegen, kunnen we voorkomen dat alle crawlers worden geïndexeerd iets van onze website:

User-agent: * Disallow: /

We kunnen er ook voor kiezen om een enkele crawler te targeten. Bekijk het onderstaande voorbeeld:

User-agent: Googlebot Disallow: / privé-directory /

Deze record vertelt Google om de privé-directory niet te indexeren; Googlebot wordt door Google gebruikt voor zoekopdrachten op internet. Ga voor een volledige lijst van alle crawlers naar de webrobotsdatabase.

Het koppelen van één niet toegestaan aan één user-agent zou een tijdrovende klus zijn. Gelukkig kunnen we meerdere niet-toegestaan's in dezelfde record toevoegen.

User-agent: Bingbot Disallow: / sample-directory / Disallow: /an-uninteresting-page.html Disallow: /pictures/logo.jpg

Dit voorkomt dat Bing de voorbeelddirectory, de oninteressante pagina en het logo indexeert.

wildcards

Omdat we hier op reguliere expressies leunen, kunnen we ook jokertekens gebruiken in een robots.txt-bestand.

Veel mensen gebruiken bijvoorbeeld Wordpress als een CMS. Bezoekers kunnen de ingebouwde zoekfunctie gebruiken om berichten over een bepaald onderwerp te vinden en de URL voor een zoekopdracht heeft de volgende structuur: http://domain.com/?s=searchquery.

Als ik wil voorkomen dat zoekresultaten worden geïndexeerd, kan ik een jokerteken gebruiken. Het robots.txt-record ziet er als volgt uit:

User-agent: * Disallow: /? S =

U kunt ook jokertekens gebruiken om te voorkomen dat bestandstypes worden geïndexeerd. De volgende code blokkeert alle PNG-afbeeldingen:

User-agent: * Disallow: /*.png$

Vergeet niet het dollarteken aan het einde toe te voegen. Het vertelt zoekmachines dat dit het einde is van een URL-string.

Uw robots.txt-bestand testen

Het is altijd een goed idee om uw robots.txt-bestand te testen om te zien of u fouten hebt gemaakt. U kunt hiervoor Webmasterhulpprogramma's van Google gebruiken.

Onder 'Gezondheid' vindt u de pagina 'geblokkeerde URL's'. Hier vindt u alle informatie over uw bestand. U kunt ook wijzigingen testen voordat u ze uploadt.

Robots metatag

De metatag voor robots wordt gebruikt om de toegankelijkheid van crawlers naar één pagina te beheren. Het vertelt zoekmachines of de pagina kan worden gecrawld, gearchiveerd of als de links op de pagina worden gevolgd.

Dit is wat de robots-metatag eruitziet:

Deze metatag voorkomt dat crawlers de webpagina indexeren. Naast "noindex" zijn er nog andere attributen die nuttig kunnen zijn:

inhoudsopgave: deze pagina kan worden geïndexeerd.
noindex: deze pagina kan niet worden weergegeven in de zoekresultaten.
volgen: de links op deze pagina kunnen worden gevolgd.
nofollow: de links op deze pagina kunnen niet worden gevolgd.
archief: een cache-kopie van deze pagina is toegestaan.
noarchive: een cache-kopie van deze pagina is niet toegestaan.

Meerdere attributen kunnen in een enkele robots-metatag worden gebruikt, bijvoorbeeld:

Deze markup voorkomt dat crawlers de pagina indexeren en de links volgen.

Als u toevallig conflicterende tags gebruikt, gebruikt Google de meest beperkende optie. Laten we zeggen dat u '' index '' en 'noindex' in dezelfde tag gebruikt, de pagina wordt niet geïndexeerd (meest beperkende optie, alleen maar om veilig te zijn).

Gebruik ik robots.txt of metatags?

Zoals we hebben besproken, zijn er twee manieren om de toegankelijkheid van webpagina's te beheren: een robots.txt-bestand en metatags.

Het robots.txt-bestand is geweldig voor het blokkeren van volledige mappen of bepaalde bestandstypen. Met een enkele regel tekst kun je veel werk (en mogelijk veel schade!) Doen. Maar als je een individuele pagina wilt blokkeren, kun je het beste de metatag voor robots gebruiken..

Soms kunnen URL's die worden geblokkeerd via het robots.txt-bestand nog steeds worden weergegeven in de zoekresultaten. Wanneer er veel links naar de pagina verwijzen en Google het enige relevante zoekresultaat voor de zoekopdracht gelooft, wordt deze nog steeds weergegeven. Als je absoluut niet wilt dat de pagina wordt weergegeven, moet je de noindex-metatag toevoegen. Dit klinkt misschien ingewikkeld, maar Matt Cutts legt alles in detail uit in niet-gecrawlde URL's in zoekresultaten op YouTube.

Conclusie

Met het robots.txt-bestand en robots-metatags kunt u eenvoudig de toegankelijkheid van uw site voor zoekmachines beheren.

Vergeet niet om uw meta-tags en het robots.txt-bestand te controleren en te controleren om te voorkomen dat uw crawlers onbedoeld belangrijke pagina's indexeren..

Web ontwerp