AcasăBlogSite-ul tău are un paznic la intrare. Dar nimeni nu i-a dat instrucțiunile corecte.
SEORecomandat

Site-ul tău are un paznic la intrare. Dar nimeni nu i-a dat instrucțiunile corecte.

83,9% din site-uri au fișier robots.txt, dar majoritatea nu știu ce face de fapt. Nu blochează indexarea. Nu ascunde conținut. Și 63% din site-urile enterprise blochează accidental fișiere critice prin el. Iată ce este robots.txt, ce NU este, și de ce un fișier text de 5 rânduri poate face diferența între vizibilitate și invizibilitate.

22 iunie 202614 min lectură
Site-ul tău are un paznic la intrare. Dar nimeni nu i-a dat instrucțiunile corecte.

Imaginează-ți că ai o clădire de birouri. La intrare, ai un paznic. Paznicul are o singură foaie cu instrucțiuni: cine are voie să intre și în ce zone. Dacă cineva nu e pe listă, nu trece de ușă. Simplu.

Fișierul robots.txt e paznicul site-ului tău. Stă la intrarea principală (site.ro/robots.txt) și le spune crawlerelor (roboților de scanare) ai motoarelor de căutare: "Aici ai voie. Aici nu." Un fișier text simplu, de câteva rânduri, fără parolă, fără criptare, fără nimic spectaculos.

Dar iată problema: paznicul tău decide doar cine intră în clădire. Nu decide cine apare pe firma de la intrare. Chiar dacă paznicul refuză un vizitator, numele clădirii tot e vizibil de pe stradă. Și exact asta e cea mai mare confuzie din SEO: robots.txt blochează crawl-ul (accesul), nu indexarea (apariția în Google).

Și totuși, 28 de ani după ce a fost propus, majoritatea site-urilor îl au greșit sau nu-l înțeleg. Iată ce arată datele.

83,9%
din site-uri au robots.txt valid (HTTP Archive, 2024)
63%
din site-urile enterprise blochează accidental CSS/JS (SearchEngineZine, 2026)
28 de ani
până robots.txt a devenit standard oficial: RFC 9309 (2022)
57,5%
din traficul web e generat de boți, nu de oameni (Cloudflare, 2026)

Ce este robots.txt: fișierul pe care nimeni nu-l citește

Robots.txt e un fișier text simplu, plasat la rădăcina site-ului tău: https://site.ro/robots.txt. Orice crawler (robot de scanare) care ajunge pe site-ul tău verifică mai întâi acest fișier, înainte de a accesa orice pagină.

Conținutul e la fel de simplu. Trei elemente de bază:

  • User-agent (agent utilizator) — identifică crawler-ul. User-agent: * înseamnă "toți roboții." User-agent: Googlebot înseamnă "doar Google"
  • Disallow (interzicere) — specifică ce căi sunt blocate. Disallow: /admin/ înseamnă "nu accesa nimic din folderul admin"
  • Allow (permitere) — excepție la o regulă Disallow. Allow: /admin/public/ înseamnă "chiar dacă admin e blocat, folderul public din admin e accesibil"

Scurt istoric: protocolul a fost propus în 1994 de Martijn Koster, ca o convenție informală între webmasteri și motoarele de căutare. 28 de ani mai târziu, în septembrie 2022, a devenit RFC 9309: un standard oficial de internet. Până atunci, fiecare motor de căutare interpreta regulile ușor diferit.

Nu e obligatoriu

Dacă site-ul tău nu are fișier robots.txt, crawlerele presupun că au acces la tot. Nu primești penalizare. Dar pierzi controlul: orice pagină, orice folder, orice resursă poate fi accesată și consumă din bugetul de crawling.

Ce NU face robots.txt: marea confuzie care costă vizibilitate

Aici se strică lucrurile. Dacă reții un singur lucru din articolul ăsta, să fie acesta:

Robots.txt NU blochează indexarea

Robots.txt blochează crawl-ul (accesul robotului la pagină). NU blochează indexarea (apariția paginii în Google). Dacă o pagină e linkuită de pe alt site, Google o poate indexa chiar dacă robots.txt interzice accesul. Va apărea în rezultate fără titlu, fără descriere, doar cu URL-ul gol. Dar va apărea.

Revenind la analogia cu paznicul: paznicul poate refuza intrarea vizitatorului. Dar dacă un ziar a publicat adresa clădirii, clădirea tot apare pe hartă. Paznicul nu controlează harta.

Alte lucruri pe care robots.txt nu le face:

  • Nu ascunde conținut — nu e mecanism de securitate. Oricine poate accesa robots.txt și vedea exact ce încerci să "ascunzi." Ironic, e un indicator pentru hackeri: dacă blochezi /admin/, tocmai le-ai confirmat unde e panoul de administrare
  • Nu suportă noindex — Google a depreciat directiva noindex din robots.txt în 2019. Dacă pui Noindex: în robots.txt, e ignorat complet
  • Nu e o directivă absolută — e o convenție. Crawlerele "politicoase" (Google, Bing) o respectă. Crawlerele malițioase o ignoră cu totul

Dacă vrei ca o pagină să nu apară în Google, ai nevoie de altceva: un meta tag noindex în secțiunea <head> a paginii, sau un header HTTP X-Robots-Tag: noindex. Asta e instrumentul corect. Robots.txt e instrumentul greșit.

Robots.txt vs. noindex vs. canonical: când folosești ce

Trei instrumente diferite, trei scopuri diferite. Le confundă toată lumea, inclusiv agențiile. Iată distincția clară:

Trei instrumente, trei scopuri diferite

robots.txt
  • Controlează accesul (crawl-ul)
  • Blochează robotul să acceseze anumite pagini
  • Ideal pentru: pagini admin, căutări interne, filtre, resurse grele
  • NU împiedică indexarea dacă pagina e linkuită extern
  • Analogie: paznicul de la ușă
noindex
  • Controlează indexarea (apariția în Google)
  • Spune motorului să nu indexeze pagina
  • Ideal pentru: pagini mulțumiri, staging, conținut intern
  • Robotul TREBUIE să acceseze pagina ca să citească directiva
  • Analogie: ștergerea de pe hartă
canonical
  • Controlează versiunea oficială
  • Spune motorului care URL e "real" dintre mai multe duplicate
  • Ideal pentru: www vs. non-www, parametri UTM, filtre de produse
  • E o sugestie (hint), nu o directivă absolută
  • Analogie: actul de proprietate al paginii

Scenarii practice:

  • Pagina de administrare (/wp-admin, /dashboard) → robots.txt Disallow + protecție cu parolă
  • Pagina care nu trebuie să apară în Google (mulțumiri, stagiu, pagini interne) → meta tag noindex
  • Aceeași pagină accesibilă pe mai multe URL-uri (www vs. non-www, cu parametri) → canonical tag
  • Filtre de produse pe magazin online → robots.txt Disallow pentru crawl budget + canonical pe pagina principală a categoriei

Conflictul clasic: robots.txt + noindex

Dacă blochezi o pagină în robots.txt ȘI pui noindex pe ea, Google nu poate vedea noindex (pentru că nu accesează pagina). Rezultat: pagina rămâne în index fără conținut, exact opusul a ce voiai. Dacă vrei deindexare, nu bloca pagina în robots.txt; lasă Google-ul să o acceseze ca să citească directiva noindex.

5 greșeli cu robots.txt pe care le vedem constant

Am analizat ce scriu agențiile din România despre robots.txt. Am găsit ~10 articole, toate la nivel de dicționar: "ce e robots.txt, cum se scrie." Niciuna nu discută greșelile concrete. Iată cele 5 pe care le întâlnim cel mai des:

1. Blochezi fișierele CSS și JavaScript

Un studiu SearchEngineZine din 2026 arată că 63% din site-urile enterprise blochează accidental fișiere CSS (stiluri vizuale) sau JavaScript (funcționalitate interactivă) prin robots.txt.

De ce e grav: Google are nevoie de CSS și JavaScript ca să randeze pagina ta (să o deseneze vizual, exact cum o vede un utilizator). Dacă blochezi aceste fișiere, Google vede o pagină goală sau deformată. Nu înțelege layout-ul, nu înțelege conținutul, nu poate evalua experiența utilizatorului. Ranking-ul scade.

Exemplu de greșeală clasică:

Disallow: /wp-content/themes/ — blochează toate fișierele CSS și JS ale temei WordPress. Google nu mai poate randa nicio pagină corect.

Regula de aur: nu bloca niciodată fișierele CSS și JavaScript în robots.txt. Google are nevoie de ele ca să înțeleagă cum arată pagina ta. Excepție: fișiere JS/CSS care nu afectează randarea paginilor publice (ex: scripturi de administrare).

2. Blochezi pagini și aștepți să dispară din Google

Cea mai frecventă confuzie. Ai o pagină pe care nu vrei să apară în Google. Pui Disallow: /pagina-secreta/ în robots.txt. Și aștepți.

Ce se întâmplă de fapt: Google nu mai accesează pagina, dar dacă altcineva a făcut link către ea (un forum, un director, un comentariu), Google o vede prin acel link și o indexează. Va apărea în rezultate cu URL-ul gol, fără titlu, fără descriere. Mai rău decât dacă nu făceai nimic.

Soluția corectă: scoate regula din robots.txt, pune <meta name="robots" content="noindex"> pe pagină, și lasă Google-ul să o acceseze ca să citească directiva.

3. Wildcard prea agresiv

Robots.txt suportă wildcard-uri (caractere universale): * înseamnă "orice." Dar folosite greșit, pot bloca mai mult decât intenționai:

  • Disallow: / — blochează tot site-ul. Niciun crawler nu poate accesa nimic. Uneori pus intenționat pe staging (mediu de test), dar uitat la lansare
  • Disallow: /admin — blochează și /admin, și /administrator, și /admin-panel, și orice alt folder care începe cu "admin." Dacă vrei doar folderul admin, scrie Disallow: /admin/ (cu slash la final)
  • Disallow: /*? — blochează orice URL cu parametri. Inclusiv parametrii de filtrare pe care Google îi folosește pentru a înțelege structura site-ului

4. Staging-ul rămâne indexat

Scenariul clasic: ai un site de test (staging) unde dezvoltatorii lucrează. Pui Disallow: / în robots.txt ca Google să nu-l acceseze. Site-ul de test e la adresa staging.site.ro sau dev.site.ro.

Două probleme:

  1. 1Disallow nu previne indexarea — dacă cineva face link către staging (un coleg trimite URL-ul pe Slack, un contractor îl pune pe un forum), Google poate indexa URL-ul fără conținut
  2. 2La lansare, uiți să scoți Disallow — site-ul live moștenește robots.txt-ul de pe staging, care blochează tot. Rezultat: site-ul nou e complet invizibil în Google. Am văzut cazuri în care a durat săptămâni până când cineva a descoperit de ce "site-ul nu apare în Google"
Pentru staging real: nu te baza doar pe robots.txt. Adaugă protecție cu parolă (HTTP Basic Auth) sau restricționare pe IP. Și la lansare, verifică robots.txt-ul în primele 5 minute.

5. Crawl-delay pentru Google

Directiva Crawl-delay (întârziere de crawling) îi spune crawler-ului să aștepte un anumit număr de secunde între cereri. Unele motoare de căutare o respectă (Bing, Yandex). Dar Google nu suportă Crawl-delay. Directiva e complet ignorată.

Dacă vrei să controlezi viteza cu care Google accesează site-ul tău, folosește setarea din Google Search Console: "Crawl rate" (rată de crawling). E singura metodă care funcționează pentru Google.

Robots.txt și crawl budget: cine intră, cine așteaptă

Crawl budget-ul (bugetul de crawling) e numărul de pagini pe care Google le vizitează pe site-ul tău într-o perioadă dată. Nu e infinit. Și pentru site-uri mari (magazine online, portaluri, directoare), e o resursă critică.

Robots.txt e instrumentul principal prin care controlezi cum se cheltuiește acest buget. Blochezi paginile neimportante (filtre, căutări interne, pagini admin, pagini de print, arhive de tag-uri) ca Google să se concentreze pe paginile care contează: produse, servicii, articole, pagini de categorie.

Un studiu Botify a arătat că 97% din crawl budget se pierde pe URL-uri neimportante la site-uri enterprise neoptimizate. Asta înseamnă că din 1.000 de vizite ale Googlebot-ului, doar 30 ajung la paginile care generează venituri. Restul de 970 se duc pe pagini de filtrare, căutări interne, variante de sortare, pagini paginate.

Cum robots.txt rezolvă problema:

  • Disallow: /cautare/ — blochează paginile de căutare internă
  • Disallow: /*?sort= — blochează variantele de sortare pe categorii
  • Disallow: /tag/ — blochează paginile de tag-uri (care de obicei duplică conținutul categoriilor)
  • Disallow: /print/ — blochează versiunile de printare ale paginilor

Mai multe despre cum funcționează procesul de indexare și de ce crawl budget-ul contează: am detaliat în articolul dedicat. Și nu uita: paginile cu imagini neoptimizate consumă și ele crawl budget prețios, pentru că se încarcă lent și forțează crawlerul să aștepte. Iar dacă ai probleme de conținut duplicat care risipește crawl budget, canonical tags rezolvă o parte importantă din ecuație.

Pentru site-uri mici: nu te stresa

Dacă site-ul tău are sub 500 de pagini, crawl budget-ul probabil nu e o problemă. Google are suficientă capacitate ca să le viziteze pe toate. Robots.txt contează mai mult pentru magazine online cu mii de produse și filtre. Dar chiar și pe site-uri mici, blocarea resurselor CSS/JS rămâne o greșeală gravă.

Robots.txt în WordPress: paznicul virtual cu instrucțiuni conflictuale

WordPress are o particularitate: generează un robots.txt virtual. Nu există fizic pe server; e generat dinamic de WordPress la fiecare cerere. Și asta creează probleme specifice:

  1. 1Fișier fizic suprascrie virtualul — dacă pui manual un fișier robots.txt în rădăcina site-ului (via FTP sau File Manager), acela suprascrie complet versiunea generată de WordPress. Orice setare din dashboard dispare
  2. 2Plugin-uri în conflict — Yoast SEO, Rank Math, All in One SEO: fiecare poate modifica robots.txt. Dacă ai două pluginuri SEO active simultan (se întâmplă mai des decât crezi), regulile se pot contrazice. Un plugin permite /wp-content/, celălalt îl blochează
  3. 3wp-admin/admin-ajax.php blocat — unele configurații blochează /wp-admin/ complet. Problema: admin-ajax.php e folosit de multe teme și pluginuri pentru funcționalități frontend (formulare, filtre, încărcare dinamică). Dacă-l blochezi, funcționalități vizibile pentru utilizatori se sparg
  4. 4Lipsa controlului asupra feed-urilor — WordPress generează automat feed-uri RSS pe mai multe URL-uri. Fără control explicit în robots.txt, crawlerele accesează aceleași articole pe mai multe căi, consumând crawl budget inutil

În Shopify, situația e diferită: robots.txt e parțial editabil (din iunie 2021 poți adăuga reguli custom), dar structura de bază rămâne controlată de platformă. Nu poți schimba totul.

Morala: cu cât platforma adaugă mai multe straturi de abstractizare (pluginuri, generare dinamică, setări din dashboard), cu atât cresc șansele de conflict. Un fișier robots.txt simplu, scris manual și versionat, e mai fiabil decât 3 pluginuri care "se ocupă" de el.

Roboții AI și robots.txt: 57,5% din trafic nu e uman

Până acum am vorbit despre Googlebot. Dar în 2026, peisajul s-a schimbat dramatic. Conform unui raport Cloudflare din 2025, 57,5% din tot traficul web e generat de boți (roboți automatizați). Din aceștia, aproximativ 20,3% sunt crawlere AI: GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, ByteSpider (TikTok) și altele.

Și iată problema: acești crawlere AI accesează site-uri masiv, dar trimit aproape zero trafic înapoi.

11.122:1
ratio crawl-to-refer al ClaudeBot: crawlează 11.122 pagini pentru fiecare vizitator trimis
1.255:1
ratio crawl-to-refer al GPTBot: ceva mai bun, dar tot masiv dezechilibrat
23% → 60%
publicații mari care blochează crawlere AI: creștere de la 23% la 60% în 18 luni (ACM, 2026)

Cum blochezi crawlerele AI specific în robots.txt:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

Dar atenție: vizibilitatea în AI search devine tot mai importantă. Dacă blochezi GPTBot, conținutul tău nu mai e inclus în antrenamentul ChatGPT. Dacă blochezi ClaudeBot, Claude nu mai poate cita pagina ta direct. E o decizie strategică, nu una tehnică.

Blocarea nu te scoate din AI search

Detaliu important: blocarea unui crawler AI prin robots.txt nu te scoate automat din rezultatele AI search ale acelui serviciu. ChatGPT Search, de exemplu, se bazează în proporție de 92% pe indexul Bing. Dacă ești indexat de Bing, poți apărea în răspunsurile ChatGPT chiar dacă ai blocat GPTBot. Robots.txt controlează crawling-ul direct, nu citarea indirectă.

Cum verifici robots.txt-ul site-ului tău (3 pași, gratuit)

  1. 1Deschide direct în browser — scrie site.ro/robots.txt în bara de adrese. Dacă vezi un fișier text cu reguli: ai robots.txt. Dacă vezi eroare 404: nu ai. Dacă vezi pagina principală a site-ului: ceva e configurat greșit
  2. 2Google Search Console → robots.txt TesterGoogle Search Console are un instrument care testează dacă un anumit URL e blocat sau permis de robots.txt-ul tău. Introdu orice URL și vezi instant dacă Googlebot-ul are acces
  3. 3Verifică dacă CSS/JS nu e blocat — în Search Console, folosește "Inspectare URL" → "Testare URL live" → "Resurse pagină." Dacă vezi resurse CSS sau JS marcate ca "blocate de robots.txt," ai problema #1 din lista de greșeli de mai sus

Testul de 10 secunde

Chiar acum: deschide un tab nou, scrie adresa site-ului tău urmată de /robots.txt. Dacă nu ai un fișier robots.txt valid, orice crawler AI (și sunt zeci) are acces liber la tot conținutul tău.

Ce facem noi la FLASH SHIP (și de ce nu ai nevoie de checklist-uri)

Fiecare site construit de noi are robots.txt configurat corect din prima zi. Nu pentru că e complicat; ci pentru că face parte dintr-un sistem integrat unde fiecare piesă e gândită să funcționeze împreună:

  • Robots.txt generat automat — nu e un fișier static pe care cineva îl uită pe server. E generat dinamic, sincronizat cu structura reală a site-ului
  • CSS/JS niciodată blocat — nu avem pluginuri care intră în conflict. Nu avem teme WordPress care adaugă reguli necunoscute. Fiecare resursă e accesibilă pentru crawlere
  • SSR nativ (Server-Side Rendering; randare pe server) — Google și crawlerii AI primesc HTML complet, nu JavaScript care trebuie executat. Robots.txt controlează accesul; SSR asigură că ce văd crawlerele e complet și corect
  • Canonical tags, noindex, sitemap — totul aliniat. Zero conflicte între instrumente, zero semnale contradictorii pentru Google
  • Zero dependență de pluginuri — un fișier robots.txt, un sitemap, un set de reguli. Fără 3 pluginuri SEO care se bat pe cine controlează ce

Poți verifica chiar acum. Deschide flashship.ro/robots.txt. Fișier curat, clar, fără conflicte. Apoi fă View Source (Ctrl+U) pe orice pagină și caută rel="canonical". Totul e acolo, din prima zi.

Paznicul tău are nevoie de instrucțiuni corecte

Robots.txt e unul din acele fișiere pe care le configurezi o dată și le uiți ani de zile. Și exact asta e pericolul: un fișier uitat, cu instrucțiuni greșite, care blochează fișiere CSS critice, care nu previne indexarea cum crezi, care risipește crawl budget pe pagini irelevante.

Rezumat rapid:

  • Robots.txt blochează crawl-ul; NU blochează indexarea
  • Nu bloca niciodată fișierele CSS și JavaScript
  • Pentru deindexare, folosește noindex, nu robots.txt
  • Pentru duplicat, folosește canonical tags
  • Verifică staging-ul înainte de lansare
  • Crawl-delay nu funcționează pentru Google
  • Decide strategic ce faci cu crawlerele AI

Sau poți ignora tot ce ai citit mai sus și să te întrebi peste 6 luni de ce Google nu îți accesează paginile importante. Paznicul tău stă la intrare oricum; întrebarea e dacă are instrucțiunile corecte.

Sau renunți la instrucțiuni manuale și lași pe cineva să construiască corect din start

Robots.txt, canonical tags, meta tags, Open Graph, date structurate, sitemap, redirecționări, HTTPS, SSR: fiecare e o piesă tehnică pe care cineva trebuie să o configureze corect. Și fiecare poate merge prost independent de celelalte.

Poți verifica fiecare piesă manual. Poți angaja pe cineva să le audite o dată pe an. Poți instala pluginuri care promit că "se ocupă de tot" și spera că nu se contrazic între ele.

Sau poți avea un site construit de la zero cu toate aceste piese deja incluse și integrate: robots.txt generat automat, canonical-uri self-referential pe fiecare pagină, SSR nativ, zero conflicte de pluginuri. Nu un audit; un site în care problemele din articolul ăsta pur și simplu nu apar.

Vrei un site în care robots.txt nu e o problemă?

Construim site-uri cu SEO tehnic complet integrat din prima zi: robots.txt, canonical tags, meta tags, date structurate, SSR, sitemap. Totul funcționează din start, fără pluginuri, fără conflicte, fără checklist-uri pe care să le uiți.

Hai să vorbim
F

Echipa FLASH SHIP

Specialiști în creștere organică, SEO și vizibilitate digitală.

Întrebări frecvente despre Site-ul tău are un paznic la intrare. Dar nimeni nu i-a dat instrucțiunile corecte.