indirekte Frage - die Datei "robots.txt" ...

Wenn Sie Ihre Homepage bei Suchmaschinen angemeldet haben, "besucht" die Suchmaschine Ihre Homepage in regelmäßigen Abständen, um sich zu aktualisieren.

Dabei sucht eine Suchmaschine im Normalfall automatisch auch nach einer Datei "robots.txt". Ist die Datei nicht vorhanden, erzeugt die Suchmaschine bei jedem(!) weiteren Besuch eine Fehlermeldung im *.log-File.

Das Vorhandensein des "robots.txt" ist nicht zwingend erforderlich. Bei kleinen Homepages genügt auch alternativ der Meta-Tag "robots". Wer sich allerdings bei vielen Suchmaschinen angemeldet hat, wird sich wundern, wie oft dennoch eine Fehlermeldung von Suchmaschinen erscheint, wenn die Datei "robots.txt" nicht vorhanden ist.

Sie sollten unbedingt beachten, daß nicht wenige Suchmaschinen Ihre Homepage besuchen! Hier kann das *.log-File schnell eine ungeahnte Größe (mit unrelevanten Fehlermeldungen) erreichen.

Die Datei robots.txt besteht aus zwei Teilen und kann mit jedem einfachen Text-Editor (z.B. notepad.exe) erstellt und bearbeitet werden.

Im Ersten wird die Suchmaschine genannt (der robots), im Zweiten das oder die Verzeichnisse, die nicht von der(n) genannten Suchmaschine(n) durchsucht werden dürfen.

   User-agent: webcrawler
   Disallow: /privat/privat/

Dem Webcrawler wird also der Zugriff auf den Ordner /privat/privat/ nicht gestattet. Alle Suchmaschinen (robots) kann man ansprechen, indem man den üblichen Platzhalter, das Sternchen, verwendet:

   User-agent: *
   Disallow: /privat/privat/
   Disallow: /geheim/

Auch einzelne Dateien lassen sich ausschließen:

    User-agent: *
    Disallow: /privat/privat.html
    Disallow: /geheim.htm

Wenn man eine bestimmte Suchmaschine komplett von seiner HomePage fernhalten möchte, gibt man ihren Namen und kein Verzeichnis an. Wichtig ist der Slash ("/").

     User-agent: EmailCollector
     Disallow: /

Fehlt hingegen der Slash ("/"), so wird die gesamte HomePage entsprechend freigegeben.

    User-agent: Yahoo
    Disallow:

Alle Einträge in die Datei robots.txt lassen sich kombinieren und auch kommentieren.
Kommentare werden mit einem Doppelkreuz ("#") eingeleitet und sorgen dafür, daß Sie sich auch nach längeren Pausen immer noch zurechtfinden.

   # für alle Suchmaschinen
   User-agent: *
   Disallow: /privat/privat/
   Disallow: /geheim/
   # unverschämte Suchmaschinen ausschließen
   User-agent: MegaRobot
   Disallow: /
   # alle E-Mail-Sammler ausschließen
   User-agent: EmailCollector
   Disallow: /

Es gibt "unverschämte Suchmaschinen", die Ihre HomePage sehr häufig und mit hoher Bandbreite scannen. Anhand Ihres Logfiles können Sie solche Suchmaschinen sehr schnell ausmachen und ihnen mittels robots.txt den Zugriff verweigern.

"E-Mail-Sammler" werden häufig dazu mißbraucht, die Adreßdatenbestände von "Spannern" aufzufüllen, die dann wiederum unerwünschten Werbemüll per E-Mail an die gefundenen Adressen schicken. Solchen Sammlern sollte man den Zugriff verwehren.

Aber Achtung:
Derartige robots ignorieren zum Großteil den robots.txt. Ist ja eigentlich auch kein Wunder!
Wer sich nicht scheut, andere User mit dummdreisten Werbesprüchen zu belästigen, dem ist auch die Netiquette von robots egal.

 
 
 
 Kontakt | Übersicht | Komplex-Suche | AGB | Impressum | Datenschutz
Copyright © 2012 Juniors-Workstation. Alle Rechte vorbehalten.
Joomla! ist freie, unter der GNU/GPL-Lizenz veröffentlichte Software.
 
 
     
 
   
Design by windows vista forum and energiesparlampen