Datorer, Internet och sökning
en kurs av Tommy Maltell


Kapitel 7a - Introduktion gällande sökning på Internet

Allmänt om sökning

När man skall hitta data eller information på Internet så kan man gå tillväga på många olika sätt. Här följer en kort lista på olika tillvägagångssätt.

  1. Enklast är det om man redan har tagit reda på webbadressen (URL-adressen). Då skriver man helt enkelt in den överst i webbläsaren i verktygsfältet adress (adressdelen).
  2. Om man befinner sig på en sida med länkar till den plats dit man vill komma så klickar man på länken. En plats med många sorterade länkar kallas en ämneskatalog. Om en sådan plats erbjuder flertalet tjänster utöver själva ämneskatalogen så kallar man ofta platsen för en portal. En portal brukar vara en bra startsida i en webbläsare. Om man ska kunna använda en portal snabbt och från denna mestadels kunna gå vidare snabbt så måste man veta lite om hur platsen är uppbyggd. I den här kursen erbjuder jag Skolornas portal som en startplats för att gå vidare. I kapitel 9 berättar jag om hur denna portal är uppbyggd.
  3. Om man  inte tror sig snabbt kunna hitta en länk direkt från den portal som man använder så kan man gissa på en lämplig webbadress (URL-adress). Hur man kan göra kvalificerade sådana gissningar har du kanske redan läst om i kapitel 6.
  4. Om man inte tror att gissningsmetoden fungerar så kan man i de senaste versionerna av webbläsare helt enkelt skriva det man söker efter i verktygsfältet adress (adressdelen). Om man inte har gjort några andra inställningar så får man då iInternet Explorer 6 hjälp av MSN Search. Man kommer också till MSN Search i Internet Explorer genom  klicka på  Sök-knappen (Search-knappen).
  5. Om man själv vill ha mer inflytande över var man söker så väljer man istället en av de ämneskataloger eller sökmotorer som portalen erbjuder eller vars webbadress man känner till. I det här kapitlet kommer nedan en kort introduktion till sådana platser och länkar finns till lämpliga kapitel med mer information.
  6. Om man inte är nöjd med någon av de enskilda sökmotorerna så kan man välja en metasökplats som erbjuder sökning i flera sökmotorer samtidigt. I kapitel 14 kan man läsa om Metasökplatser.
  7. Om man inte heller är nöjd med dessa metasökplatser så kanske man har laddat ned och installerat något metasökprogram som erbjuder metasökningar.
  8. Ibland så finner man inte det man söker med hjälp av allmänna sökmotorer eller ämneskataloger. Man måste helt enkelt först gå till en särskild plats (ofta med en egen databas) för att söka därifrån. I kapitel 10a finns flertalet exempel på sådana platser. Om man särskilt vill leta efter betydelsen av en dataterm så kan man läsa om en del intressanta platser redan i kapitel 0.
  9. Det finns också sökmotorer som har specialiserat sig inom särskilda områden. I kapitel 16 finns en mer systematisk genomgång av olika typer av sökplatser inklusive speciella sådana.
  10. Det finns också sådana uppgifter som man bara finner i The Invisible Web dvs i databaser och dessa uppgifter kan ofta inte hittas av sökmotorer. Ibland måste man dessutom betala för att kunna söka i olika databaser. Ett exempel är olika tidningsdatabaser med artiklar från tidigare nummer. Skolor kan ofta prenumerera billigt och därmed få tillgång till tidningsdatabaser. Mer information om några sådan databaser finns i kapitel 11.
  11. En hel del information kan man få i någon av alla diskussionsgrupperna (Usenet News) på Internet. På Google Groups (f.d. Deja) kan man både leta efter gamla inlägg och göra egna inlägg och fråga själv. Mer information om Usenet News finns i kapitel 15.
  12. Om man inte hittar på Internet så kan man utövar att fråga i diskussionsgrupperna nämnda ovan ofta hitta andra webbaserade Forum eller så kan man helt enkelt skicka ett e-brev till lämplig person eller till den informationsansvarige för en webbplats och fråga.
  13. Om ingen information finns på Internet så kan man använda Internet för att söka efter böcker med mer information. Man går då t.ex. till Bibliotek.se, LIBRIS - Biblioteken i Sverige, Ling-on-line: Biblioteken i Jönköping eller Gymnet - Gymnasiebiblioteken i Jönköping.

Sökmotorer och ämneskataloger

Allmänna sökplatser (söktjänster) på Internet kan grovt indelas i  sökmotorer (search engines) och ämnes kataloger (directories).

Ämneskataloger skapas vanligtvis av människor som har delat in ett stort antal länkar i olika kategorier/kataloger. Hur noga man känner till de platser som man har delat in i kategorier/kataloger varierar naturligtvis. Yahoo är den mest kända ämneskatalogen. Open Directory och LookSmart är Yahoo största konkurrenter. Alla de här ämneskatalogerna innehåller ca 2 miljoner länkar eller mer.

Övning: Mer information om storleken på olika ämneskataloger finns på sidorna Directory Sizes och Comparing Internet Subject Directories. Gå dit och jämför med uppgifterna ovan. Hur många medarbetare (editors) har Open Directory, Look Smart och Yahoo?

De ovan nämnda tre ämneskatalogerna tillhandahåller ofta också sina kataloger till andra företag. På sidan Search Engine Alliances Chart kan man läsa om hur företagen samarbetar. Google Web Directory använder t.ex. Open Directory. Vi kommer tillbaka till detta fenomen längre ned på sidan.

About fungerar inte riktigt som en traditionell ämneskatalog men är en mycket intressant plats med mer än 600 medarbetare som erbjuder många intressanta länkar men samtidigt en hel del egen information.

Mer information om ämneskataloger över huvud taget finns i kapitel 8.

Att använda länkar för att komma vidare till en annan webbsida är ju fantastiskt smidigt och man kan ju samla länkar och dela in dem i kategorier. Dessutom kan man ju hjälpa varandra att hitta sidor som bör finnas med i länklistorna. Ett sådant förfarande leder i bästa fall fram till en bra ämneskatalog. Det skulle emellertid ta alldeles för lång tid att på detta sätt göra en katalog över alla sidor på Internet. Dessutom påstods det i KK-stiftelsens skrift 1998:3 Etik på Internet på sid. 16 att antalet synliga webbsidor på Internet ökar med 29 000 sidor/timma. Hur stor ökningen är idag är svårt att säga men redan inför siffrorna från 1998 så inser man hur omöjligt det skulle vara. Vi skall alltså vara väldigt tacksamma över att sökmotorerna finns. Och vi ska dessutom vara tacksamma för att Google finns idag med sin idé om att ordna träffarna efter länkar till de träffade sidorna. Mer om Google kommer nedan.

Sökmotorer  kallas också spindlar (spiders eller crawlers). De söker regelbundet igenom hela Internet. De startar med ett antal länkar som leder till många platser på Internet. Sedan besöker de alla de platser som alla länkarna leder till. På så sätt får dessa ett stort antal sidor indexerade i sin databas. Vem som helst kan också normalt registrera vilken webbsida som helst hos en sökmotor.

Hur stort är då Internet? 

Hur många webbsidor finns det då totalt på World Wide Web? Ingen kan väl säkert svara på detta och samtidigt ökar ju antalet hela tiden i en takt som inte heller någon med säkerhet kan svara på. Dessutom så måste man precisera vad man menar med webbsidor. Vanligen menar man sådana som är tillgängliga för alla om inte den organisation man tillhör har begränsat tillgången på något sätt. Det som komplicerar är att många sidor skapas i olika databaser när man frågar efter dem och ibland kan man göra länkar till sådana sidor i alla fall och ibland inte. Hos Search Engine Watch kan man hitta länkar till olika undersökningar. Tyvärr har jag inte hittat någon undersökning som är aktuell när den här sidan uppdateras i september 2003. Helt klart är dock att antalet synliga webbsidor måste vara minst så många som de sidor som finns indexerade hos de störtsa sökmotorerna. Den största när detta skrivs är Google med 3,3 miljarder filer indexerade. Nedan kommer mer information om de största sökmotorerna.

Utöver dessa normalt synliga sidor så finns det något som kallas "the invisible web" dvs sidor som inte kan finnas indexerade i sökmotorer eftersom sidorna skapas när de eftersöks. Data finns istället i olika databaser. Företaget BrightPlanet uppskattar att "the invisible web" är 500 gånger större än de synliga webbsidorna. Man då dra slutsatsen att det finns kanske totalt data motsvarande 2 biljoner sidor/filer om det finns ca 4 miljarder sidor/filer som kan nås av traditionella sökmotorer. Mer information om "the Invisible Web" finns hos About och Search Engine Watch

Övning: På sidan Top 4 Top Places to Search the Invisible Web visar About 4 olika sätt att nå information som finns i the Invisible Web. Gå dit och läs. Välj att gå vidare till någon av de omnämnda platserna t ex till Invisible Web-net och leta rätt på någon databas inom the Invisible Web och testa sedan denna. 

Det finns också på Internet information i FTP-arkiv och i Usenet News. I kapitel 10 och kapitel 15 får du mer information om sådan information och om en del databaser. 

Det finns också olika system för fildelning där informationen bara är tillgänglig ibland och då finns den hos de olika användare som för tillfället är uppkopplade och som för tillfället använder ett visst program.

Det finns naturligtvis också över Internet mängder av intranät med intern information hos olika företag och organisationer. Informationen kommer man åt om man kan logga in på organisationens intranät.

Sökmotorernas storlek

Search Engine Watch erbjuder en sida The Major Search Engines. På den sidan kan man hitta information om de vanligaste större sökmotorerna och ämnesordnade katalogerna. Längre ned på sidan finns länkar till andra platser med liknande information.

Sökmotorerna med mest antal sidor indexerade när just den här informationen uppdateras (i september 2003) huvudsakligen enligt Search Engine Watch redovisas nedan.

Sökmotor Miljarder (9 nollor) sidor enligt Search Engine Watch
2 september 2003
Google (9 mars 2004) 4,3
AllTheWeb 3,2
Inktomi (har ingen egen sökplats) 3,0
Teoma 1,5
AltaVista 1,0

 

Övning: Läs mer om sifforna ovan hos Search Engine Watch på sidan Search Engine Sizes och på sidan Search Engines Statistics hos Search Engine Showdown. Stämmer siffrorna ovan fortfarande? Vilka sökmotorerna har varit störst under olika perioder fr.o.m. 1996?

Google

Google har fått mest uppmärksamhet den senaste tiden som den bästa sökplatsen. Därför presenteras denna sökmotor lite extra och du får uppgifter som ska leda till att du lär dig använda Google.

Google använder en egen patentsökt PageRankTM-teknik. Google tolkar i huvudsak en länk från sida A till sida B som en röst från sida A, för sida B. Google uppskattar en sidas betydelse med ledning av hur många röster den får. I Googles egen information: Varför använda Google? kan man läsa mer om denna PageRankTM-teknik.

Googles ingångssida på svenska erbjuds fyra huvudrubriker.

Den första huvudrubriken gäller Nätet och 3,3 miljoner filer där. Det gäller i första hand html-filer men Google erbjuder också sökning efter pdf-filer och Micosoft Office-filer. Dessa filer har tidigare räknats att tillhöra "the Invisible Web". Googles sida för avancerad sökning kan man också välja att bara söka efter en viss fil t ex en Excelfil. Man kan också söka efter sidor som är länkade till en viss sida.

Den andra huvudrubriken leder till en stor plats för sökning bland 425 miljoner bilder.

Den treje huvudrubriken leder till Grupper. Där presenteras numera 800 miljoner diskussionsinlägg ända sedan den 12 maj 1981.

Den fjörde huvudrubriken leder till en ämneskatalog som är hämtad från Open Directory.

Google har också en ingångssida på engelska. Vid sökning härifrån så kan man få sidor översatta mellan olika europeiska språk, dock ej svenska. Härifrån kan man också nå Google News Search.

Övningar: 

a. Gå till Googles egen informationsplats på svenska. Läs där igenom Google-hjälp-sidan. Alla länkarna överst där går till samma sida. Läs också igenom sidan Varför använda Google.

b. Search Engine Showdown har gjort korta recensioner av de olika större sökmotorerna och ämneskatalogerna. Gå dit och läs recensionen om Google. 

c. About har gjort särskilda sidor med mycket information om de största sökmotorerna. Gå till sidan om Google och läs den information där som du tycker verkar intressant.

d. Jämför Googles ingångssida på svenska, Googles sida på svenska för avancerad sökning och Googles ingångssida på engelska. Lär dig vad man kan hitta på de olika sidorna. Numera hittar man det mesta från den svenska ingångssidan dvs söksidor när det gäller nätet (webben), bilder och diskussionsinläggen i Usenet News.

I kapitel 7b finns en genomgång med sökövningar gällande vad man kan göra med hjälp av Google.

e. Varifrån kommer namnet Google? Google är en lek med ordet "googol" som är namnet på ett tal som börjar med en etta och som sedan följs av 100 nollor. Läs lite om detta och om Googles historia.

De andra sökmotorerna

Om du vill läsa lite mer om de andra sökmotorerna så finns korta recensioner hos Search Engine Showdown. Fler platser med information om sökmotorer nämns nedan.

Portaler

Till viss förvirring för många användare så samarbetar en del företag med sökmotorer med andra som har ämnesordnade kataloger.

Varför sker då sådana samarbeten. Skälet är helt enkelt att varje företag vill skapa en startsida eller en startplats som man alltid kan utgå ifrån dvs. det som på senare tid populärt har kallats en portal. Dessutom skiljer sig databaserna åt på olika sätt och de har olika fördelar som kan kombineras på olika sätt. Ofta erbjuder man också från sin ingångssida ytterligare tjänster som ännu mera gör sökplatsen till en portal dvs till en lämplig startplats för webbläsaren.

Search Engine Watch är en webbplats om hur söktjänster fungerar. På sidan Search Engine Alliances Chart kan man läsa om hur företagen samarbetar för att skapa portaler.

Övning: Gå till Search Engine Alliances Chart och läs mer om vilka som samarbetar.

Metasökplatser

En lösning på problemet med att varje sökmotorer trots allt missar så många sidor har varit att använda en s.k. metacrawler dvs en sökplats som hjälper dig att söka med hjälp av flera olika sökmotorer. Ett exempel på en sådan plats är MetaCrawler. Mer information finns i kapitel 14.

Metasökprogram

Ibland går metasökning med hjälp av flera sökmotorer snabbare om man har hämtar ett särskilt program för sökning på Internet. Nackdelen är att man måste ha just det programmet installerat. Då är det en fördel om man enbart arbetar på sin egen dator. Ett sådan gratisprogram som fungerar bra är Copernic.

Platser med information om sökmotorer och portaler

Det finns tre bra platser som inte själva har någon sökmotor men som har specialiserat sig på att recensera och berätta om de sökmotorer som finns och hur de fungerar. Information finns där också om en hel del annat gällande sökning t.ex. vilken sökstrategi som är lämplig.

  1. Search Engine Watch
  2. About Web Search
  3. Search Engine Showdown

About erbjuder ett termlexikon för sökare:Glossary of Search Engine Terms.

Övning: Besök en kort stund var och en av de 3 webbplatserna nämnda ovan och försök orientera dig lite om hur de är uppbyggda.

Veckans sökmästare är en svensk plats med dels en del information om sökning och dels en söktävling varje vecka.

De bästa sökmotorerna

Vilka är då de bästa sökmotorerna? Det är svårt att svara på eftersom de bästa sökmotorerna inte är helt lika. Några krav eller önskemål som man kan ställa är:

  1. En sökmotor måste ha en stor databas så att det man söker efter går att hitta. Ovan i detta kapitel kan man läsa om de största databaserna. 
  2. Om man har gjort en förnuftig sökning efter något som finns så ska det som man söker efter komma högt upp på listan av träffar. Google har fått en del beröm för att kunna klara detta.
  3. En sökmotor måste vara snabb. Den kan vara snabb i sig själv eller snabb för att den är placerad i Sverige. Många sökmotorer är snabba och inte minst Google som också redovisar hur lång tid en sökning har tagit.
  4. En sökmotor bör ranka sina träffar såsom Google efter hur många som har gjort länkar till sidorna.
  5. En sökmotor måste vara tillgänglig när jag vill söka. Om den är populär eller av annan anledning ofta är långsam eller inte är tillgänglig, trots att den är mycket bra, så tröttnar jag på den.
  6. En sökmotor bör ha indexerat vilka som är de mest besökta sidorna för ett visst sökord.
  7. En sökmotor bör göra det lätt att begränsa sökningar. Därför bör det finnas möjlighet att söka på fraser vilket går bra i de flesta sökmotorer. Man sätter orden inom citationstecken t.ex.  "sjung om studentens lyckliga".
  8. Det bör också gå att begränsa sökningar genom att utesluta vissa ord. Det är ganska känt att man i AltaVista vid enkel sökning kan åstadkomma detta med ett minustecken (-) direkt framför ett ord. Minustecknet fungerar också i Google.
  9. Det bör också gå att begränsa sökningar till vissa världsdelar, vissa länder, vissa domäner och vissa språk.
  10. Det bör gå att söka med jokertecken dvs på engelska wildcard (*) dvs man ska kunna skriva början på ett ord och sökningarna skall träffa alla böjningar av detta ord. AltaVista erbjuder denna möjlighet.
  11. En sökmotor bör vara lätt att använda. 
  12. Det vore bra om sökmotoren kunde hjälpa mig att hitta dokument som jag är intresserad av även om exakt det ord som jag har sökt efter inte finns på just den sidan. Detta har länge varit en specialitet hos Excite.
  13. Det vore bra om sökmotoren kunde visa sidor som liknar en annan sida.  Flera sökmotorer erbjuder denna hjälp. På sidan Googles - Avancerad sökning är det enkelt att göra sådana sökningar.
  14. Det vore bra om en sökmotor enkelt kunde visa sidor som är länkade till en viss sida och som därför kanske innehåller liknande information. Flera sökmotorer erbjuder denna hjälp. På sidan Googles - Avancerad sökning är det enkelt att göra sådana sökningar.
  15. Det vore bra om en sökmotor kunde visa de webbplatser som har mest sidor med den information jag söker. Det vore också bra om få sidor eller t.o.m. enbart ingångssidan till varje webbplats redovisades och att inte mängder av träffar från samma webbplats blandas med sidor från andra webbplatser. På engelska kallas denna funktion site clustering och ofta kan man själv ändra så att denna funktion stängs av. WISEnut använder sig av detta system men också andra platser t.ex. AltaVista och Google. Läs mer om vilka sökmotorer som använder denna funktion med hos Search Engine Showdown. (Den finns om det under rubriken Sorting bl.a. står site).
  16. Det vore bra om sökmotoren kunde redovisa en cachefil med innehållet på den sida som man redovisar bland sina träffar. Ibland finns inte sidan kvar eller så är den väsentligt förändrad sedan sökmotorn var där. Google erbjuder denna service.
  17. Det vore bra för mig som nybörjare om sökmotoren erbjöd en bra dokumentation med enkla övningar. Särskild gäller ju detta om sökplatsen erbjuder relativt komplicerade möjligheter.
  18. Det vore bra om det i sökresultatet visades minst en textslinga från den hittade sidan som innehåller det ord som man sökte på. Det underlättar träffar på sidor med mycket information. Google erbjuder denna service.
  19. Det vore bra om sökmotorn erbjöd möjlighet till olika specialsökningar såsom sökning efter bildfiler och ljudfiler. Google och AltaVista erbuder sökning efter bilder.

Sidan Search Engine Features hos Search Engine Showdown ger en jämförelse av vad olika sökmotorer klarar.

Man kan där t.ex. se att flera sökmotorer inte klarar truncation dvs sökning på stammen av ett ord med jokertecken (wildcard).

En sökmotor har en standard för hur den redovisar resultaten om man skriver ett eller flera ord vid en sökning. Antingen redovisas bara de sidor som innehåller båda orden (AND) eller så redovisas alla sidor som innehåller ett av orden (OR). (Vanligtvis visas då förstås överst träffarna som innehåller båda orden.) 

Övning: Vilka sökmotorer klarar truncation. Vilka sökmotorer har AND som standard och vilka har OR?

Allmänna sökmotorer

Under rubriken B - Allmänna sökmotorer för hela världen på IT-enhetens portals ingångssida finner man länkar till de viktigaste sökmotorerna.

Under rubriken  C - Allmänna sökmotorer för (eller i) Sverige på IT-pedagogens ingångssida finner man länkar till några sökmotorer för eller i Sverige.

Mer information om de andra allmänna sökmotorerna finns i kapitel 12 och kapitel 16, om de svenska sökmotorerna i kapitel 13 och om ämneskataloger i kapitel 8.

Kapitel 7 har blivit lite för långt för en sida så kapitel 7 är nu uppdelat på 3 sidor. 

Gå nu vidare till kapitel 7b som innehåller några sökövningar framför allt med Google. Ibland jämförs Google med andra sökplatser såsom Evreka, AltaVista, Metacrawler samt med Copernic.

I kapitel 7c finns en checklista som man kan använda sig av vid sökning samt information om sökstrategier, söktaktik, olika sorters kunskap och källkritik.


Denna sida uppdaterades senast 2004-03-09 av
tommy.maltell@pb.edu.jonkoping.se

Länkar:
Kursens ingångssida
Kapitel:  0 1 2 3a 3b 3c 4 5a 5b 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20a 20b 21a 21b 21c 21d 21e 21f 21g 21h 22a 22b 22c 23 26 30 31 32 33 37   
Skolornas portal

© 1998, 1999, 2000, 2001, 2002, 2003 Tommy Maltell