Wat doet Robot.txt.

Robot.txt staat voor hoever de zoekmachinerobots door de site mogen crawlen. Deze grenzen moeten duidelijk aangegeven worden op de website, een klantenpagina hoeft bijvoorbeeld niet door een zoekmachinerobot bezocht (gecrawld) te worden. Een synoniem voor Robot.txt is het Robots Exclusion Protocol, robots exclusion standard of robots.txt protocol.

Met het robots.txt bestand kan ervoor gezorgd worden dat de robots toegang tot bepaalde delen van de website worden onthouden, dat duplicate content problemen voorkomen worden, en bij zoekmachines aangeven wordt hoe zij de website efficiënter kunnen crawlen.

Een voorbeeld hiervan is dat er op de website voor bezoekers een filter is waarmee gemakkelijk gezocht kan worden naar producten. Deze filter genereert daardoor pagina’s die vrijwel dezelfde inhoud tonen als die van andere pagina’s. Deze filter is erg handig voor bezoekers, maar werkt verwarrend voor robots omdat het duplicate content veroorzaakt. Om te voorkomen dat de robots deze gefilterde pagina’s indexeren, maar nog veel liever dat ze niet eerst hun tijd verspillen aan het crawlen van deze URL’s met gefilterde content, wordt hier een Robot.txt op gezet.

Een Robot.txt ziet er als volgt uit:

User-agent: de user-agent geeft aan voor welke zoekmachines de richtlijnen bedoeld zijn.
*: Dit geeft aan dat de richtlijnen zijn bedoeld voor alle zoekmachines.
Disallow: Deze richtlijn geeft aan welke content niet toegankelijk is voor de user-agent.
/wp-admin/: Dit is het path dat niet toegankelijk is voor de user-agent.

Samengevat: dit robots.txt bestand vertelt alle zoekmachines dat de /wp-admin/ directory niet toegankelijk is.

Nu in aanbouw

Robot.txt

Kennisbank Internet Marketing

Wat doet Robot.txt.

Twijfel je over een nieuwe website?

Plan een kennismaking

Eindelijk een website die bij de groei van jouw bedrijf past!

Flerque - |de; m/v;| /`vlerk/ - Brutaal, eigenwijs, maar gedreven en betrouwbaar’