Jedným z nástrojov na správu indexovania stránok pomocou vyhľadávacích nástrojov je súbor robots.txt. Používa sa hlavne na zabránenie tomu, aby všetci alebo iba určití roboti sťahovali obsah určitých skupín stránok. Vďaka tomu sa môžete zbaviť „smetí“vo výsledkoch vyhľadávacieho nástroja a v niektorých prípadoch výrazne vylepšiť hodnotenie zdroja. Pre úspešnú aplikáciu je dôležité mať správny súbor robots.txt.
Nevyhnutné
textový editor
Inštrukcie
Krok 1
Vytvorte zoznam robotov, pre ktorých budú stanovené špeciálne pravidlá vylúčenia, alebo budú použité smernice rozšíreného štandardu robots.txt, ako aj neštandardné a konkrétne smernice (rozšírenia konkrétneho vyhľadávacieho nástroja). Zadajte do tohto zoznamu hodnoty polí User-Agent hlavičiek požiadaviek HTTP odoslaných vybranými robotmi na server lokality. Mená robotov sa nachádzajú aj v referenčných sekciách webov vyhľadávacích strojov.
Krok 2
V zozname zostavenom v prvom kroku vyberte skupiny adries URL zdrojov lokality, ku ktorým má byť odmietnutý prístup každému z robotov. Vykonajte rovnakú operáciu so všetkými ostatnými robotmi (neurčitá sada indexovacích robotov). Inými slovami, výsledkom by malo byť niekoľko zoznamov obsahujúcich odkazy na časti webu, skupiny stránok alebo zdroje mediálneho obsahu, ktoré je zakázané indexovať. Každý zoznam musí zodpovedať inému robotovi. Mal by tiež existovať zoznam zakázaných adries URL pre všetkých ostatných robotov. Zoznamy robte na základe porovnania logickej štruktúry webu s fyzickým umiestnením údajov na serveri, ako aj zoskupením adries URL stránok podľa ich funkčné vlastnosti. Napríklad môžete do zakázaných zoznamov zahrnúť obsah všetkých katalógov služieb (zoskupených podľa umiestnenia) alebo všetkých stránok profilov používateľov (zoskupených podľa účelu).
Krok 3
Vyberte znaky adresy URL pre každý zo zdrojov obsiahnutých v zoznamoch zostavených v druhom kroku. Pri spracovávaní zoznamov vylúčení pre roboty, ktoré používajú iba štandardné smernice robots.txt a nedefinované roboty, zvýraznite jedinečné časti adresy URL maximálnej dĺžky. Pre zostávajúce sady adries môžete vytvoriť šablóny v súlade so špecifikáciami konkrétnych vyhľadávacích nástrojov.
Krok 4
Vytvorte súbor robots.txt. Pridajte doň skupiny smerníc, z ktorých každá zodpovedá množine zákazových pravidiel pre konkrétneho robota, ktorých zoznam bol zostavený v prvom kroku. Po tomto druhom by mala nasledovať skupina smerníc pre všetky ostatné roboty. Oddeľte skupiny pravidiel jedným prázdnym riadkom. Každá skupina pravidiel musí začínať smernicou User-agent identifikujúca robota, za ktorou nasleduje smernica Disallow, ktorá zakazuje indexovanie skupín adries URL. Vytvorte riadky získané v treťom kroku s hodnotami smerníc Disallow. Oddeľte smernice a ich význam dvojbodkou. Zvážte nasledujúci príklad: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Táto sada smerníc dáva pokyny hlavnému robotovi Vyhľadávač Yandex neindexuje adresu URL, ktorá obsahuje podreťazec / temp / data / images /. Taktiež zabraňuje všetkým ostatným robotom v indexovaní adries URL obsahujúcich / temp / data /.
Krok 5
Doplňte súbor robots.txt o rozšírené štandardné smernice alebo špecifické smernice pre vyhľadávače. Príklady takýchto smerníc sú: hostiteľ, mapa stránok, miera požiadaviek, doba návštevy, oneskorenie indexového prehľadávania.