Was ist der Unterschied zwischen Disallow in der robots.txt und dem Tag robots Noindex?

 

Wer eine Webseite betreibt und sich mit der Indexierung durch Google beschäftigt kommt an den Themen robots.txt, noindex, Crawl Budget,etc. nicht vorbei. In diesem Zusammenhang sind die robots.txt und das Meta-Tag "robots" von Bedeutung. Der wesentliche Unterschied besteht im Zeitpunkt des Wirkens der beiden Angaben.

Die Angabe Disallow in der robots.txt verbietet den Crawlern, wie etwa dem Google Crawler oder auch diverse SEO Tools, in den jeweiligen “Bereich” der Webseite einzudringen und die dortigen Inhalte zu crawlen.
Die Angabe robots noindex hingegen ist auf Seitenebene zu betrachten, wobei hier bspw. einzelne, wenig relevante Seiten auf noindex gesetzt werden können.


Wann verwende ich Disallow in der robots.txt?

Ordner mit temporären Dateien

Ein Beispiel für die Verwendung von Disallow in der robots.txt sind Ordner mit temporären Dateien.

Disallow: /temp/

Loginbereich

Ein weiteres Beispiel ist eine Loginbereich der nur bestimmten Nutzern zugänglich ist und nicht gleichzeitig eine Loginseite ist.

Disallow: /login/

Probleme mit Disallow in der robots.txt

Auch wenn der jeweilige User-Agent angewiesen wird einen bestimmten Bereich nicht zu crawlen, kann ein einfacher Backlink auf eine der Seiten dazu führen, dass der Inhalt doch gecrawlt wird.

MERKE: Ein Backlink auf eine Disallow-Seite durchbricht die Disallow-Anweisung in der robots.txt

Beispiel für eine Disallow Anweisung in der robots.txt:

User-agent: * 
Allow: /
Disallow: /loginbereich/
Disallow: /temp/
Disallow: /admin/
Sitemap: https://www.meinewebseite.de/sitemap.xml

Wo findet man die robots.txt?

Die robots.txt, wie auch die sitemap.xml ist direkt im Root-Verzeichnis zu finden. Also unter meine-webseite.de/robots.txt


Wann verwende ich robots noindex Meta-Tag?

Warenkorb, Loginbereich, Schlagworte / Tags

Bereiche die wenige sinnvolle Inhalte bieten sollten durch noindex ausgeschlossen werden.
Hierzu zählen bspw. bei Onlineshops der Warenkorb, der Loginbereich und auch Seiten die durch Schlagwörter generiert werden und keinen zusätzlichen Nutzen bieten.

MERKE: Links zu NOINDEX Seiten sollten auf nofollow gestellt werden.

Wie werden Seiten aus dem Google-Index entfernt?

Um bereits indexierte Seiten aus dem Google-Index zu entferenen empfiehlt sich folgende Vorgehensweise:

Um einzelne Seiten aus dem Index von zu entfernen, darf der Zugriff in der robots.txt nicht verboten werden, und der robots Metatag muss auf  noindex-Metatag gesetzt werden.

Zudem sollten alle internen Links auf die zu entfernende Seite entfernt werden. Sowohl aus den eigenen Seiten als auch in der Sitemap. Für Backlinks sollten dementsprechend Weiterleitungen eingerichtet werden.