robots.txt
robots.txt – plik umieszczany w głównym katalogu serwera WWW pozwalający zasugerować robotom ominięcie niektórych zasobów.
Spis treści |
[edytuj] Składnia
Plik składa się z sekcji, z których każda identyfikuje robota oraz definiuje zasoby, które powinien on omijać.
User-Agent: nazwa robota #1 Disallow: ścieżka1 Disallow: ścieżka2 ... User-Agent: nazwa robota #2 Disallow: ścieżka1 ...
Nazwę robota najprościej skopiować z logów serwera WWW rejestrujących pole User-agent protokołu HTTP. Na przykład, żeby odstraszyć GoogleBota przeszukującego strony na potrzeby wyszukiwarki Google), definiujemy coś takiego:
User-agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Disallow: /
To powinno skutecznie powstrzymać Google od indeksowania naszych stron.
Jeżeli chcemy, żeby zakaz dotyczył wszelkich robotów, zamiast identyfikatora podajemy gwiazdkę:
User-agent: * Disallow: /
[edytuj] Rozszerzenia
Niekiedy stosowane są dodatkowe wpisy w pliku robots.txt, nie są one jednak ustandaryzowane. Na przykład wspomniany już GoogleBot rozpoznaje także wiersze rozpoczynające się od słowa Allow:
User-agent: * Disallow: / Allow: /portal
Powyższy wpis zabrania przeszukiwania czegokolwiek z wyjątkiem zawartości pliku bądź katalogu /portal. Jeżeli jest to katalog, to wpis dotyczy również całej jego zawartości wraz z podkatalogami.
Niektóre roboty, w tym wspomniany już Googlebot, potrafią także rozpoznać znak uogólniający '*' (gwiazdka) oraz zapożyczony z wyrażeń regularnych '$' (dolar), oznaczający dopasowanie do końca adresu URL. Na przykład, żeby zakać indeksowania plików .pdf, można dodać do robots.txt wiersz:
Disallow: *.pdf$
Kolejnym zastosowaniem tego rozszerzenia może być wykluczenie specyficznych dla MediaWiki URL-i, związanych z edycją i historią stron. Można to zrobić dodając wiersze:
Disallow: /wiki/index.php*oldid= # Nie indeksuj starych wersji stron Disallow: /wiki/index.php*action= # Omijaj różne "akcje": edycja, historia itp Disallow: /wiki/index.php*printable=yes # Nie indeksuj wersji przeznaczonych do druku
[edytuj] Komentarze
W pliku robots.txt można używać komentarzy zaczynających się od znaku # i rozciągających do końca wiersza:
# dla robotów User-agent: * # dotyczy wszystkich robotów Disallow: /private # proszę tu nie wchodzić
[edytuj] Sitemaps
Główne przeszukiwarki internetowe, jak Google, Ask, Yahoo i MSN, wykorzystują rozszerzenie pliku robots.txt, pozwalające na umieszczenie w nim URL-a do pliku sitemap. Robi się to następująco:
SITEMAP: URL
przykładowo:
SITEMAP: http://www.example.com/my_sitemap.xml
Taki wpis jest niezależny od definicji User-agent i może być umieszczony w dowolnym miejscu pliku.
Ta funkcjonalność nazywana jest Sitemaps auto-discovery.