Wszystko, co powinieneś wiedzieć o pliku robots.txt


Infrastruktura drogowa, sieciowa a nawet budynki wymagają odpowiednich oznaczeń – czegoś na wzór znaków na drodze. W ten sposób ich użytkownicy wiedzą, w jaki sposób się poruszać oraz jak znaleźć poszukiwane przez nich miejsce, bądź z niego powrócić. Takim znakiem drogowym dla robotów wyszukiwarek jest właśnie plik robots.txt, dzięki czemu roboty kierowane są w obszary naszej witryny, które chcemy, aby zobaczyły, a te niepożądane jesteśmy w stanie zablokować.


1 Roboty wyszukiwarek – czym są?

Zacznijmy od tego, czym w ogóle są roboty wyszukiwarek. Boty, robaki, pełzacze, automaty są to programy, które zbierają informacje o strukturze, stronach i treściach, które znajdują się w internecie. Robot, aby wyszukać nowe materiały w sieci, podąża za linkami, a następnie indeksuje zawartość całych stron internetowych do katalogów wyszukiwarek. Po analizie strony internetowej, bot umieszcza stronę www na pozycji w wynikach wyszukiwania.

2 Robots Exclusion Protokol – co warto o nim wiedzieć?

Istnieje protokół, który mówi robotom wyszukiwarek o tym, czego nie mogą robić na danej stronie internetowej. Jest to Robots Exclusion Protocol i posiada dwa elementy, które kierują botami – plik robots.txt oraz znaczniki meta.

3 Czym jest plik robots.txt?

Plik robots.txt, pomimo że jest plikiem tekstowym o prostej budowie, w bardzo dużym stopniu wpływa na to, jak roboty wyszukiwarek postrzegają Twoją stronę internetową. We wstępie napisaliśmy, że plikiem robots.txt jesteś w stanie zablokować robotom dostęp do miejsc na swojej stronie. Nie jest to do końca zgodne z prawdą, owszem roboty znanych wyszukiwarek będą przestrzegać tego, co zawarłeś w pliku robots.txt – jest to jednak jedynie wskazówka, a nie wymuszenie, ponieważ inne roboty np. spamerów czy oszustów Twoje zasady mogą ignorować. Warto je blokować już z poziomu serwera lub też w pliku .htaccess.
Plik robots.txt w prosty sposób stworzysz nawet w windowsowym Notatniku.
Aby sprawdzić czy Twoja strona posiada plik robots.txt wystarczy, że po wpisaniu jej adresu w pasek przeglądarki dodasz „/robots.txt”.

4 Dobry plik robots.txt, czyli jaki?

Kiedyś dobry plik robots.txt nakazywał pełzać robotom jedynie po stronach .html. To się jednak zmieniło, gdyż wyszukiwarka Google indeksuje cały wygląd strony, zatem robot powinien mieć do tego wgląd. Najprościej mówiąc, robotowi wyszukiwarki powinno się wyświetlać tyle, ile się wyświetla użytkownikom internetu.
Ruchem robotów kierujesz za pomocą kilku poleceń. Polecenia dla poszczególnych robotów rozpoczyna się od polecenia „User-agent:”, po czym podaje się nazwę robota sieciowego, inną możliwością jest wpisanie „*” gwiazdki, co oznacza, że późniejsze polecenia będą dotyczyć wszystkich botów.

5 Polecenia, które można zastosować to m.in.:


Disallow – polecenie zabraniające indeksowania wskazanych zasobów Twojej strony:
np. Disallow: /directory/ (lub inny dowolny folder)
Disallow: /directory/przykład.html (lub inny dowolny plik).
Allow – pozwala na indeksację konkretnych plików, folderów czy całego serwisu.
Istotnym jest, aby odstępy pomiędzy poleceniami w pliku były prawidłowe. Stworzony robots.txt najpierw zapisz na dysku komputera, aby później umieścić go w głównym katalogu Twojej domeny. Pamiętaj, że roboty odnajdą plik robots.txt jedynie wtedy, kiedy będzie on umieszczony prawidłowo, pod odpowiednim adresem URL, czyli www.twojadomena.pl/robots.txt.


6 Robots.txt – popełniane błędy

Blokowanie ważnych stron lub całego serwisu w robots.txt powoduje, że Twoja strona może odnieść bardzo duże spadki w wynikach wyszukiwania. Dlatego też warto skorzystać z narzędzi Google dla Webmasterów i Testera pliku robots.txt.
Najczęstszym błędem jest jednak brak samego pliku robots.txt, oczywiście bez niego roboty stwierdzą, że można indeksować całą stronę, ale warto posiadać nawet plik domyślny. Głównym powodem jest to, że większość robotów, przynajmniej tych pochodzących od poważnych wyszukiwarek, w pierwszej kolejności pyta stronę o posiadanie pliku robots.txt, a jeśli go nie znajduje dostaje komunikat 404, co zwiększa transfer oraz stwarza błędy w statystykach. Oprócz tego plik robots.txt jest istotnym elementem, wpływającym na pozycję strony w wyszukiwarce.
Pamiętaj, że pomimo polecenia „Disallow” roboty nadal mogą indeksować zablokowane adresy URL bez ich zawartości, przez co będą one i tak wyświetlane w wynikach wyszukiwania. Dodatkowo, poprzez to polecenie blokujesz linki przychodzące i możliwość przekazania wartości danego linku (jeśli takowe znajdują się na danej podstronie).

Robots.txt to plik istotny przy pozycjonowaniu Twojej strony internetowej. Stworzenie domyślnego pliku nie jest trudne, jednak jeśli pomyślisz o jego optymalizacji w sposób profesjonalny, zadanie to może okazać się już bardziej poważne, gdyż wymaga odpowiedniej wiedzy i doświadczenia. W tej kwestii warto zaufać profesjonalistom.

Mamy nadzieję, że w powyższym artykule dowiedziałeś się istotnych informacji na temat pliku robots.txt, które pomogą Ci w optymalizacji Twojej strony internetowej. Jeśli jednak dopiero zamierzasz postawić własną stronę www, możemy zaproponować Ci profesjonalny hosting, który dodatkowo otrzymasz w o połowę niższej cenie, podając poniższy kod rabatowy przy zamówieniu.

Jak zaoszczędzić 50% na hostingu?

EXAG456765

Podaj ten kod zamawiając nowe konto hostingowe w Hekko.pl, a w pierwszym roku dostaniesz aż 50% rabatu od cen wskazanych na stronie. Testuj bezpłatnie przez 14 dni. Polecany przez 95% użytkowników niezależnego forum webhostingtalk.pl

Dobre? To podziel się!Share on FacebookTweet about this on TwitterShare on LinkedInShare on Google+Buffer this page