Manchmal möchte man, dass bestimmte Seiten aus dem Google-Index verschwinden. Zur Zeit wird viel über das Recht auf Vergessenwerden diskutiert. Damit wird es dem Einzelnen ermöglicht, unter bestimmten Voraussetzungen Verweise aus dem Google-Index entfernen zu lassen.

Darum soll es aber in diesem Artikel nicht gehen.

Thema dieses Beitrags ist die Löschung von Seiten aus dem Google-Index als Betreiber einer Website.

Warum überhaupt eine Seite löschen?

Heerscharen von SEO-Managern bemühen sich, möglichst viele Seiten auf möglichst hohen Positionen in Google unterzubringen. Welchen Grund könnte es geben, dass jemand Seiten ganz bewusst aus dem Index entfernen möchte?

Stellen Sie sich vor, Sie betreiben einen Webshop mit vielen Artikeln. Jeder Artikel verfügt über eine Detailbeschreibung, die über einen direkten Link erreicht werden kann. Normalerweise wird auch eine Suchmaschine diese Links irgendwann entdecken und in den Index aufnehmen. Das liegt durchaus im Interesse des Webshop-Betreibers.

Wenn Sie den Artikel aus dem Sortiment entfernen, werden Sie zur Pflege Ihres Webshops eine der folgenden Maßnahmen durchführen:

  1. Für den alten Link eine spezielle Ersatzseite mit Hinweisen oder ähnlichen Produkten bereitstellen
  2. Den ursprünglichen Link per .htaccess Datei auf ein anderes Produkt weiterleiten, das dem bisherigen sehr ähnlich ist
  3. Den ursprünglichen Link per .htaccess Datei auf die Startseite weiterleiten
  4. … oder gar nichts tun

Wenn nun ein Besucher in der Ergebnisliste einer Suchabfrage auf den alten Link klickt, wird er in den Fällen 1-3 eine (mehr oder weniger) passende Seite erreichen. (Auf diese Fälle werde ich hier nicht weiter eingehen.)

Im 4. Fall allerdings wird er auf einer (hoffentlich informativen) Fehlerseite landen. Wenn Sie Pech haben, wird er den Besuch Ihres Shops an dieser Stelle frustriert abbrechen und es beim nächsten Treffer in der Suchergebnisliste versuchen. Das wollen wir aber verhindern!

Besser wäre es, wenn der fehlerhafte bzw. veraltete Link gar nicht mehr im Google-Index zu finden wäre.

Dies geschieht irgendwann ganz automatisch, wenn Google weiß, dass eine Seite nicht mehr existiert (Dazu muss der Server-Code 404 oder 410 zurückgegeben werden.)

Neben dem offensichtlichen Wunsch, eine nicht mehr vorhandene Seite aus dem Index zu bekommen, kann es natürlich auch Gründe geben, eine weiterhin existierende Seite aus dem Index löschen zu wollen.

Zum Beispiel könnte es urheberrechtliche Probleme mit Inhalten auf Ihren Seiten geben, die Sie deshalb möglichst schnell aus dem Google-Index entfernen müssen.

Wie kann ich fehlerhafte Links entdecken?

Oft stolpert man nur zufällig über fehlerhafte Links, wenn man prüft, welche Platzierungen die eigene Website bei der Suche nach bestimmten Suchbegriffen hat.

Manchmal wird man von einem Besucher auf fehlerhafte Links hingewiesen.

Die sicherste Methode ist allerdings die Nutzung der Google Webmaster Tools. (Andere Suchmaschinen bieten ähnliche Hilfsmittel an.)

Zur Nutzung der Google Webmaster Tools müssen Sie sich einen kostenlosen Account anlegen.

Anschließend können Sie sich ansehen, auf welche Fehler Google beim Crawlen Ihrer Website gestoßen ist.

Screenshot mit der Darstellung der Crawling Errors in den Google Webmaster Tools

Unterhalb der Grafik befindet sich eine Liste mit allen fehlerhaften Links. Weitere Hilfe zu dieser Seite erhalten Sie bei Google durch den Artikel Die Seite Crawling-Fehler.

Wie kann ich eine Seite aus dem Google-Index löschen?

Screenshot des Seitenmenüs der Google Webmaster Tools

Sobald Sie wissen, welche Seiten Sie aus dem Index der Suchmaschine entfernen möchten, können Sie die Webmaster Tools einsetzen, um die Seite zu entfernen.

Wählen Sie auf der linken Seite den Menüpunkt URLs entfernen aus.

Hierzu stellt Google eine eigene Hilfeseite bereit, nämlich Ganze Seite vollständig entfernen.

Wenn Sie eine weiterhin existierende Seite mit Hilfe der Webmaster Tools löschen, sollten Sie diese Seite parallel in der Datei robots.txt für das erneute Crawlen sperren.

Seiten, die zwar bereits im Index eingetragen sind, die sie aber dort entfernen möchten, können Sie auch noch auf eine andere, etwas langsamere Art löschen.

Dazu schreiben Sie in den Head-Bereich der Seite

<meta name="robots" content="noindex">

Sobald Google diese Anweisung bei einem Crawling-Vorgang liest, wird die Seite in der Nachbearbeitung aus dem Index gelöscht.

Ist eine Seite aus dem Suchmaschinen-Index gelöscht, stellt sich die Frage …

Wie kann ich die Indexierung verhindern?

Manchmal macht es Sinn, die Suchmaschinen darüber zu informieren, dass bestimmte Seiten gar nicht erst in den Index gelangen sollen. Dann muss man sie später nicht wieder löschen.

Vielen fällt als erstes die Datei robots.txt ein.

Vielleicht kommt Ihnen auch das Meta-Tag NOINDEX in den Sinn.

Kann ich die Indexierung mit der robots.txt verhindern?

Vor einigen Jahren habe ich den Artikel SEO-Tipp #7: die Datei robots.txt veröffentlicht und Syntax und Funktion dieser Datei beschrieben.

Wenn Sie mit einer SEO-Agentur zusammenarbeiten oder selber SEO-Tools einsetzen, werden Sie meistens auf das Vorhandensein oder Nicht-Vorhandensein der robots.txt hingewiesen.

Das Fehlen der robots.txt ist aus Sicht der Suchmaschinenoptimierung absolut unwichtig.

Interessanter wird es, wenn die Datei existiert.

Zunächst gilt es aber im Hinterkopf zu behalten, dass die Anweisungen in der robots.txt keineswegs bindend für irgendeinen Web-Crawler sind. Auf diese Weise lassen sich Informationen nicht verstecken! (Mehr dazu im oben angesprochenen Artikel SEO-Tipp #7: die Datei robots.txt)

Wenn Sie Inhalte wirklich schützen wollen, so stellen Sie diese am besten nicht ins Internet oder schützen Sie den Bereich durch Authentifizierungsmaßnahmen wie zum Beispiel durch die Verwendung einer Benutzerkennung/Kennwort-Kombination. So geschützt haben Suchmaschinen keine Chance, die Dateien in dem Verzeichnis auch nur zu sehen, geschweige denn zu crawlen.

Beachten Sie weiter, dass Suchmaschinen Ihre robots.txt nicht ständig neu auslesen. Wenn Sie eine Datei oder ein Verzeichnis mit Hilfe der robots.txt vom Crawlen ausschließen wollen, so definieren Sie die entsprechende Direktive ein paar Tage, bevor Sie die betroffenen Seiten tatsächlich auf Ihrem Webserver bereitstellen, mindestens jedoch 24 Stunden vorher.

Von Google gibt es dazu auch eine offizielle Aussage:

Caching

A robots.txt request is generally cached for up to one day, but may be cached longer in situations where refreshing the cached version is not possible (for example, due to timeouts or 5xx errors). The cached response may be shared by different crawlers. Google may increase or decrease the cache lifetime based on max-age Cache-Control HTTP headers.
Robots.txt Specifications

Wenn Sie alle Seiten, die nicht im Google-Index auftauchen sollen, rechtzeitig in die robots.txt eintragen, wird die Suchmaschine diese Seiten nicht crawlen. Im Index landen sie trotzdem. Nur der Inhalt wird nicht untersucht und dort vorhandene Links werden nicht verfolgt.

Leider können Sie eine Webseite mit der robots.txt weder löschen noch vor der Indexierung schützen.

Kann ich die Indexierung mit dem Meta-Tag und dem Attribut robots verhindern?

Es besteht die Möglichkeit, im Head-Bereich einer HTML-Seite die folgende Anweisung zu hinterlegen

<meta name="robots" content="noindex">

Diese Anweisung weist die Suchmaschine an, die Seite nicht in den Index aufzunehmen.

Falls sich die Seite bereits im Index befinden sollte, wird sie entfernt, sobald Google die Seite erneut analysiert.

Aber Achtung: die Seite muss natürlich für Google und Co. lesbar sein. Sie darf also in der robots.txt keineswegs gesperrt sein. Denn dann liest die Suchmaschine nicht den Inhalt der Seite und findet auch die Noindex-Direktive nicht.

Der Nachteil dieser Anweisung ist, dass man sie in jede betroffene Seite schreiben muss. Ein ganzes Verzeichnis lässt sich auf diese Weise nicht vor der Indexierung schützen.

Schlussbemerkung

Die sogenannten 404-Fehler (Seite nicht gefunden) sind aus Sicht einer Suchmaschine nicht kritisch, sondern gehören zum normalen Betrieb einer Website.

Für den Besucher einer Website können fehlerhafte Links aber sehr frustrierend sein und zum Abbruch des Besuchs führen. Umso wichtiger ist es, diese Fälle mit einer informativen Fehlerseite abzufangen.

Wie es andere machen, zeigen die Seiten 404 Error – Die schönsten Fehlerseiten oder 404-Error mal anders: 40 Beispiele für richtig kreative Fehlerseiten.

Suchmaschinen unterstützen den Website-Betreiber mit verschiedenen Werkzeugen bei der Behandlung von fehlerhaften Verlinkungen. Entweder werden die toten Links weitergeleitet oder sie werden aus dem Index gelöscht, manuell oder nach einer gewissen Zeitspanne automatisch.

Das Löschen von einzelnen Links aus dem Google Suchindex gestaltet sich für den Betreiber einer Website sehr einfach, handelt es sich nun um tatsächlich nicht mehr existierende Seiten oder um Seiten, die zwar vorhanden sind, aber nicht als Link in den Suchergebnislisten angezeigt werden sollen.