robots.txt

Z funus.net

robots.txt – plik umieszczany w głównym katalogu serwera WWW pozwalający zasugerować robotom ominięcie niektórych zasobów.

Spis treści

[edytuj] Składnia

Plik składa się z sekcji, z których każda identyfikuje robota oraz definiuje zasoby, które powinien on omijać.

User-Agent: nazwa robota #1
Disallow: ścieżka1
Disallow: ścieżka2
...

User-Agent: nazwa robota #2
Disallow: ścieżka1
...

Nazwę robota najprościej skopiować z logów serwera WWW rejestrujących pole User-agent protokołu HTTP. Na przykład, żeby odstraszyć GoogleBota przeszukującego strony na potrzeby wyszukiwarki Google), definiujemy coś takiego:

User-agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Disallow: /

To powinno skutecznie powstrzymać Google od indeksowania naszych stron.

Jeżeli chcemy, żeby zakaz dotyczył wszelkich robotów, zamiast identyfikatora podajemy gwiazdkę:

User-agent: *
Disallow: /

[edytuj] Rozszerzenia

Niekiedy stosowane są dodatkowe wpisy w pliku robots.txt, nie są one jednak ustandaryzowane. Na przykład wspomniany już GoogleBot rozpoznaje także wiersze rozpoczynające się od słowa Allow:

User-agent: *
Disallow: /
Allow: /portal

Powyższy wpis zabrania przeszukiwania czegokolwiek z wyjątkiem zawartości pliku bądź katalogu /portal. Jeżeli jest to katalog, to wpis dotyczy również całej jego zawartości wraz z podkatalogami.

Niektóre roboty, w tym wspomniany już Googlebot, potrafią także rozpoznać znak uogólniający '*' (gwiazdka) oraz zapożyczony z wyrażeń regularnych '$' (dolar), oznaczający dopasowanie do końca adresu URL. Na przykład, żeby zakać indeksowania plików .pdf, można dodać do robots.txt wiersz:

Disallow: *.pdf$

Kolejnym zastosowaniem tego rozszerzenia może być wykluczenie specyficznych dla MediaWiki URL-i, związanych z edycją i historią stron. Można to zrobić dodając wiersze:

Disallow: /wiki/index.php*oldid=           # Nie indeksuj starych wersji stron
Disallow: /wiki/index.php*action=          # Omijaj różne "akcje": edycja, historia itp
Disallow: /wiki/index.php*printable=yes    # Nie indeksuj wersji przeznaczonych do druku

[edytuj] Komentarze

W pliku robots.txt można używać komentarzy zaczynających się od znaku # i rozciągających do końca wiersza:

# dla robotów
User-agent: *        # dotyczy wszystkich robotów
Disallow: /private   # proszę tu nie wchodzić

[edytuj] Sitemaps

Główne przeszukiwarki internetowe, jak Google, Ask, Yahoo i MSN, wykorzystują rozszerzenie pliku robots.txt, pozwalające na umieszczenie w nim URL-a do pliku sitemap. Robi się to następująco:

SITEMAP: URL

przykładowo:

SITEMAP: http://www.example.com/my_sitemap.xml

Taki wpis jest niezależny od definicji User-agent i może być umieszczony w dowolnym miejscu pliku.

Ta funkcjonalność nazywana jest Sitemaps auto-discovery.

[edytuj] Zobacz też