Crawling-ul reprezintă etapa inițială a acțiunilor efectuate de motoarele de căutare și începe cu o listă de adrese web provenite din accesări anterioare și cu sitemap-uri furnizate de proprietarii site-urilor.
În această fază, fiecare site web este scanat în detaliu pentru a strânge informații relevante precum numărul de pagini, titluri, meta-descrieri, cuvinte cheie, imagini, videoclipuri, link-uri și altele.
Pe măsură ce navighează pe un site, crawler-ii caută legături către alte pagini, concentrându-se pe site-urile noi, identificând link-urile nevalide și observând modificările pe site-urile existente. Frecvența cu care sunt accesate site-urile, precum și numărul de pagini preluate de pe fiecare site, sunt stabilite de programe de calculator.
De regulă, majoritatea site-urilor sunt eligibile pentru a apărea în rezultatele căutării, dar există opțiuni pe care proprietarii de site-uri le pot utiliza pentru a facilita accesul crawler-ilor și indexarea conținutului lor.
Cu ajutorul instrumentelor Google pentru webmasteri și a unui fișier numit „robots.txt”, poți alege să restricționezi accesul site-ului tău la crawler-ul Googlebot sau să oferi instrucțiuni specifice privind prelucrarea paginilor de pe site.
Ai opțiunea de a permite indexarea întregului conținut pentru fiecare pagină în parte, sau doar a unor fragmente sau versiuni cache (înregistrări alternative stocate pe serverele Google pentru situații în care pagina live nu este disponibilă). În plus, poți integra funcționalitatea de căutare personalizată în propriile pagini.
Odată ce procesul de crawling este finalizat, toate link-urile identificate sunt adăugate într-o bază de date pentru a fi recrawl-uite periodic. Este un proces continuu care asigură actualizarea constantă a informațiilor disponibile online.
Pingback: Ce este un audit SEO - OptimizareSeo.Site