tisdag, juli 30, 2002

Guldgrävare i pappersfloden

(Publicerad i Pressens Tidning hösten 2002)

Bob Huggins framför en kopia av The Globe.

Namnet Cold North Wind anspelar på att amerikanska meterologer gärna skyller kallfronter på Kanada, men CNW:s satsning på att överföra gamla tidningsarkiv till webben är högst seriöst och dessutom lönsamt.
-Detta är en källa till information om livet under de senaste 500 åren. Varför inte bygga en databas med både de tidningar som fortfarande ges ut och alla de som upphört, säger grundaren Bob Huggins.


(OTTAWA) Kartongerna med mikrofilm radar upp sig utanför Bob Huggins kontor i väntan på att köras igenom en liten svart maskin i andra hörnet av kontorslandskapet. Mikrofilmerna är det råmaterial som det tre år gamla företaget Cold North Wind (CNW) använder för att förverkliga sin slogan ”Nya inkomster från gamla nyheter.”

Drömmen om att vaska guld ur tidningarnas arkiv är vare sig ny eller unik, men medan många utgivare nöjer sig med att paketera redan digitala arkiv vill han och hans kollegor börja från början. Det förutsätter emellertid att arkiven finns på mikrofilm eftersom det skulle bli alltför dyrt om man gav sig på att försöka scanna in gamla papperstidningar.
Ett stort antal tidningslägg finns redan på mikrofilm, delvis tack vare stiftelser som Carnegie och Rockefeller. De finansierade på 40- och 50-talet en rad projekt för att rädda tidningsarkiv från att ruttna bort.

Den tekniska processen för att digitalisera ett mikrofilmarkiv är ganska enkel. Filmerna körs genom en ”scanner” som översätter de analoga bilderna av tidningssidorna till datorernas digitala språk. Sedan indexeras sidorna och ”tvättas” med hjälp av ett program (Archive Publisher) som CNW utvecklat. Mörka sidor görs ljusare och tydligare och illa beskurna bilder rätas upp och beskärs bättre. Kvaliteten på mikrofilmerna kan variera, både när det gäller hur nötta och repiga de är, liksom hur väl den ursprungliga mikrofilmaren gjorde sitt jobb. Huggins, som är företagets vd, berättar om ett fall där personen som mikrofilmade en tidning lyckats få med sin hand och en cigarett i bilderna! Sådant är svårt att reparera med programvara. Men det är inte hans bekymmer eftersom det är – beställaren – tidningarna, som ansvarar för ”råmaterialet.”

Både artiklar, rubriker och annonstexter analyseras av programvara för teckentolkning (OCR,) men avläsningen sker rad efter rad oavsett spalt och sida. Målet är inte att ta fram en ascii-text som man kan exportera andra program, utan bara att lokalisera den plats i tidningen där ett ord förekommer. En sökning efter Wayne Gretsky kommer att ge resultat vare sig namnet förekommer i ett sporteferat eller en annons.

De färdiga sidorna sparas i TIFF-format, men distribueras på webben i små ekonomiska filer som kan öppnas med en webbläsare som har ett ”plug-in” program från Adobe, ungefär som en vanlig PDF-fil.

Kanadas största dagstidning, Toronto Star (367.000 exemplar vardagar,) blev sommaren 2001 CNW:s första kund. Tidningens ägare TorStar äger en femtedel av CNW, som idag digitaliserat 2,3 miljoner sidor (fördelat på circa 30.000 utgåvor) som utkommit sedan starten 3 november 1892. Det tog enligt Huggins bara 14 månader för Toronto Star att tjäna tillbaks de 7,5 miljoner kr de betalade för jobbet.
CNW kom i maj överens med Bell Globemedia om att digitalisera arkivet till Toronto’s ledande morgontidning, The Globe and Mail, vars anor går tillbaks till 1844.

Den stora marknaden ligger naturligtvis hos jätten i söder och CNW för diskussioner med flera amerikanska företag, inklusive Knight Ridder, Media General och Washington Post. Samtalen med Washington Post gäller ett webbarkiv som ska innefatta andra tidningar som ges eller getts ut i huvudstaden. Huggins ser sådana lokal arkivportaler som en framtidsmodell, eftersom forskare då kan söka i flera tidningar på ett och samma ställe.

Det största projektet hittills gäller en spanskspråkig tidningsportal på uppdrag av UNAM-universitetet i Mexico City, som är värd för landets nationella tidningsarkiv.
-Vi ska digitalisera varenda tidning som getts ut från 1700-talet och fram till idag. Det rör sig om 490 titlar 20 miljoner tidningssidor, säger Huggins och tillägger att CNW kan hantera alla språk baserade på det romanska alfabetet.

De har idag 28 anställda som arbetar i skift dygnet runt. Kapaciteten ligger på en miljon sidor per månad, men kan lätt ökas till det dubbla eller femdubbla. Det är bara att anställa mer folk och skaffa fler maskiner.

CNW betjänar idag framför allt dagstidningar, men bygger också en global arkivportal under namnet ”Paper of Record.” Tanken är att skapa en portal dit forskare, studenter, amatörhistoriker och släktforskare ska kunna gå för att söka i både befintliga tidningars arkiv och arkiv från länge sedan nedlagda tidningar. Affärsmodellen baseras inte på annonser, utan prenumerationer och paketpriser för enstaka sökningar. Huggins säger att individer kommer att få betala strax under 200 kronor per månad, medan ett bibliotek i en mindre stad kan räkna med att få betala tiotusen kronor för en licens som ger 5 samtidiga användare access.

När Huggins ska förklara företagets övergripande strategi ritar han upp en tidslinje som börjar på 1500-talet. På sluttampen markerar han var radio, TV och Internet kommit in och noterar att de kom sent, sett i ett historiskt perspektiv.
-Tidningarna är en källa till information om livet under de senaste 500 åren. Varför inte bygga en databas med både de tidningar som fortfarande ges ut och alla de som upphört?
-Låt oss säga att du vill studera första världskriget. Du kommer då att kunna gå in och läsa inte bara det amerikanska perspektivet, utan det kanadensiska, det nordeuropeiska perspektivet och så vidare. Och du kan följa utvecklingen dag för dag. Ett av de populäraste forskningsområdena i USA är inbördeskriget 1860-1865. Föreställ dig att du kan gå in och studera tusentals tidningar från den tiden, säger han.

CNW startades med 40 miljoner kr i privat finansiering och de har enligt Huggins ett positivt kassaflöde. Inkomsterna kommer från de 3 kr per sida de tar för sina digitaliseringstjänster. Han säger också att de inte har någon konkurrens utöver ett litet företag i Israel. När det gäller Paper of Record skulle man kunna se databasföretaget ProQuest som en konkurrent, men de riktar sig till professionella forskningsbibliotek, medan CNW satsar på en bredare målgrupp, studenter och amatörer.
-Vår marknadsföring fokuserar sig på ett antal nischer. Den första är släktforskare. Den andra är skolor och högskolor. Den tredje är biblioteken, säger marknadschefen Robert Allum, som grundade till JetForm, ett företag som var noterat på New York-börsen innan det nyligen köptes av Adobe.
-Släktforskning är det vanligaste forskningsområdet i Nordamerika, inflikar Mark Caldbick, som sköter företagets PR.


Cold North Winds marknadschef Robert Allum.

En av de första sakerna CNW gjorde när de kommit igång var att skaffa sig exklusiv rätt (under 15 år) till mikrofilmer av 250 nedlagda tidningar. Säljare var den kanadensiska biblioteksföreningen Canadian Library Association.

Eftersom upphovsrätten i USA och Kanada normalt gäller i 75 år skulle företaget i och för sig kunna digitalisera alla äldre tidningar, men de aktar sig noga för att trampa utgivarna på tårna.
–Vi strävar efter att bli en partner till tidningarna, säger Huggins.

De tidningar som anlitat CNW bestämmer själva hur de ska använda resultatet, men företaget hoppas att de ska ansluta sig till Paper of Record. Sajten är inte tänkt som en destinationssajt, utan som en tilläggsprodukt till tidningarnas och andra partners portaler. Marknadschefen Allum säger att CNW vill bygga ett gemensamt varumärke tillsammans med tidningarna och sedan dela på inkomsterna.
-Vi ser oss som en B2B-företag (business to business.) Att kalla sig konsumentsajt är idag rena döden, säger Huggins, men det hindrar inte att han ser konsumtionsmarknaden som en potentiell tillväxtmarknad.

Hans Sandberg