Spider & Crawler bots

Spider & Crawler bots

Web crawlers, spiders og crawler bots kaldes de, men Google kalder det en, spider. Det er Google’s mange spidere, som er starten på Googles søgemaskine. Den kaldes en spider, fordi den kravler rundt fra website til website, altså realt set vil de ”aldrig” stoppe, da der altid bliver oprettet nye links, domæner og websites.

Denne spider starter på et website og undersøger dette website for alle eksisterende hyper-links, både intern og eksternt. Alle disse links bliver herefter gemt i en database, med unikke id’er (Figur 2). Dette er primært spiderens opgave, altså at finde hyperlinks og fylde databasen med links, som er klar til at blive gennemløbet af crawling bots.

Crawler bots er modsat en spider langt mere intelligente, hvad angår undersøgelse af et website. Når en crawling bot er sat i gang, bliver der sendt en vilkårlig url adresse fra databasen, som spideren i forvejen har fyldt op med links.

Crawleren vil dernæst gå ind på det modtagne url og gennemløbe websiden igennem for at producere et dokument, som er klar til udarbejdelse senere af andre algoritmer. Det endelig dokument vil blive tildelt et unikt id og vil udelukkende være baseret på rent tekst og samtidig få tildelt en PageRank værdi. Dette dokument vil selvfølgelig blive gemt på Google’s databaser og servere. Det vil blive gemt på Google’s servere, da Google har Cached funktionalitet indbygget.

Figur 2: Viser hvordan en Google spider fungerer.

Google benytter herefter en masse algoritmer samtidigt og jonglere rundt med ordene i de enkelte dokumenter for at skabe en kæmpe oversigtsdatabase, for hvert dokument. De tager hvert ord i et dokument og gemmer dette i en database, og ud fra dette ord, gemmer de dokumentets unikke id, som ordet er blevet fundet i (Figur 2). Denne metode giver dem muligheden for ikke at søge igennem alle dokumenter, men i stedet nøjes med at søge i den aktuelle database, som indeholder ordene og dokumenternes unikke id (Figur 3).

Figur 3: Viser hvordan Google overordnet fungerer.

Disse beskrevne metoder som Google benytter er dog ikke nogen forklaringer på, hvordan det kan være at Google er en så hurtig og effektiv søgemaskine, til netop at finde det som man forespørger ud fra millioner af søgeresultater.

Denne høje performance skyldes dels smarte algoritmer, men samtidig også et smart valg af beregningsudstyr, som f.eks. et Cluster dvs. de udnytter effekten med ikke kun en, men flere sammenkoblede computere.

 

Kommenter:

Nulstil

Kategorier

Nyeste artikler

Google sætter fokus på OL
August 10. 2012 0
Vedligeholdelse af SEO
April 30. 2012 0
Hvad er Google +1?
December 10. 2011 1

Populære artikler

Hvad er Google +1?
December 10. 2011 1
Selvreparerende Computer?
Oktober 16. 2010 1
Tjen penge på Youtube!
Maj 20. 2011 0
© Copyright 2008-2015 Dahii