507 392 548 lub 531 111 181 kontakt@studioa7.pl

Robots txt

Robots txt

Robots txt – jest to plik, znajdujący się na stronie ułatwiający robotom wyszukiwarki jej indeksowanie. Stosowanie pliku robots.txt jest bardzo ważnym elementem optymalizacji strony oraz procesu pozycjonowania.
Plik robots.txt informuje roboty wyszukiwarki, na którą podstronę mogą wejść i wykonać skanowanie, a które podstrony są wykluczone ze skanowania i nie biorą udziału w procesie pozycjonowania. Domyślnie wszystkie pliki mogą być indeksowane, o ile nie określi się inaczej w pliku robots.txt.

Charakterystyka

  • ma format zwykłego tekstu,
  • jest zgodny ze standardem Robots Exclusion Protocol,
  • zawiera co najmniej 1 regułę, która blokuje lub umożliwia dostęp określonego robota do wskazanego pliku.

Dyrektywy pliku robots.txt

  • user-agent – określa nazwę robota wyszukiwarki, którego dotyczy reguła i znajduje się jako pierwszy wiersz każdej reguły. Użycie gwiazdki (*) powoduje, że reguła odnosi się do wszystkich robotów z wyjątkiem różnych robotów AdsBot (robot reklamowy), które należy wyraźnie wskazać.
  • Disallow  – całkowity zakaz skanowania i indeksowania strony lub katalogu przez roboty wskazane w dyrektywie user-agent. Należy podać pełną nazwę strony widoczną w przeglądarce. Musi zaczynać się od znaku /, a jeśli odnosi się do katalogu, musi kończyć się znakiem /.
  • Allow – wskazuje, które strony lub podstrony mogą być indeksowane przez roboty wskazane w dyrektywie user-agent. W przypadku pojedynczej strony należy podać jej pełną nazwę widoczną w przeglądarce, natomiast w przypadku katalogu reguła powinna kończyć się znakiem /.
  • sitemap – (element opcjonalny) – lokalizacja mapy witryny. Adres URL mapy witryny musi być w pełni kwalifikowanym adresem URL. użycie tego rodzaju dyrektywy wskazuje robotowi Google treści, które powinien indeksować, oraz te, które może lub których nie może indeksować. 

Przykłady zastosowania

1. Zakaz indeksowania całej strony

User-agent: *
Disallow: /

2. Zakaz indeksowania katalogu na stronie

User-agent: *
Disallow: /catalog/

3. Zezwolenie na dostęp do strony tylko robotowi Google

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

4. Zakaz dostępu do grafiki na stronie

User-agent: Googlebot-Image
Disallow: /