torsdag, juni 07, 2001

Bill Gates hjärntrust i Kina

(Publicerad i Datateknik 3.0 våren 2001.)


-För tio år sedan drömde alla om att åka till USA, men idag är det annorlunda, för nu finns det en mycket starkare entreprenöranda och en känsla av att det är här möjligheterna finns. Det säger Hongjiang Zhang, en av cheferna på Microsoft Research China och ett framstående namn inom USA:s multimediaforskning.
Datateknik 3.0 träffade honom och fem av hans kollegor på labbet i Beijing.


(Beijing, Kina) Initiativet till Microsofts första forskningslabb i Asien kom från Bill Gates själv, om vi får tro dess förste chef, taiwanesen Kai-Fu Lee, som är en av världens ledande dataforskare inom talförståelse. Han sändes hösten 1998 till Beijing för att starta Microsoft Research China (MSRC) som formellt öppnades 5 november, men då i stort sett bestod av honom själv. Metodisk som den forskare han var började Kai-Fu Lee rekrytera unga kinesiska toppbegåvningar runt om i världen, varav ett tiotal lämnade toppjobb i USA.

Idag finns här ett hundratal heltidsforskare, dubbelt så många gästforskare och man är inne på tredje året av en sexårsbudget på 800 miljoner kr. Kai-Fu Lee organiserade labbet i linje med Microsofts långsiktiga inriktning på nya internettjänster, multimedia och mer mänskliga sätt att använda datorer och andra redskap för informationsbehandling och kommunikationer. Så här skisserar han framtiden i en broschyr:

”Om fem år .. kommer en kinesisk konsument för 10 000 kr kunna köpa en en dator med en 2 GHz processor, 1 Gb internminne och en hårddisk på 50 Gb. På jobbet kommer denna dator att kopplas upp mot Internet via en 1 gigabits linje, eller en 10 megabits trådlös länk. Hemma kommer användarna att nätsurfa via 1 megabits tele- eller kabelnät.”

Det är i detta perspektiv – som är lika giltigt i Beijing, New York och Stockholm - MSRC vill lämna ett bidrag och det genom att fokusera på följande områden:

  1. Nästa generations multimedia
  2. Nästa generations gränssnitt
  3. Nya teknologier för att bearbeta information, särskilt på asiatiska språk.

Microsoft Research China leds idag av Ya-Qin Zhang, som började plugga på universitet när han var tolv år, doktorerade 1989 i USA, varit ledande i utvecklingen av MPEG-standarden och satt som chef för Sarnoffs multimedialabb i Princeton innan han återvände hem i januari 1999. Förra sommaren tog han över Kai-Fu Lees jobb, sedan denne kallats till Redmond för att ingå i ett exklusivt team under Bill Gates.

New York Times dataskribent John Markoff skrev 25 mars att Gates sedan han lagt fram ”.net” strategin i juni förra året upptäckte att det inte fanns några forskare i Redmond som kunde bygga de nya gränssnitt som skulle kunna ersätta dagens tangentbord och datormöss. ”Var är Kai-Fu Lee?” utbrast Gates och det dröjde sedan inte länge förrän han var tillbaks vid Bills sida som chef för en forskningsgrupp med 600 anställda.

1) Kinesiska tecken: Vackra, men krångliga att skriva in

Egentligen är det bara naturligt att Microsoft vände sig till kinesiska forskare för att utveckla alternativ till dagens gränssnitt, eftersom datorerna länge haft svårt att hantera det kinesiska skriftspråket (liksom andra språk baserade på bilder snarare än alfabet.)
Man måste kunna minst 3.000 olika tecken för att kunna läsa en kinesisk dagstidning och för att räknas som någorlunda lärd bör man kunna läsa 20.000 olika tecken. Japanerna har i stort sett samma problem vilket förklarar varför skrivmaskiner, persondatorer och epost inte vait lika populära som i väst, medan telefaxen varit desto mer populär. Den som vill skriva ett brev på en kinesisk dator var länge tvungen att gå omvägen via det fonetiska alfabetet pinyin, som dock hade den olägenheten att ett ord på pinyin ofta motsvaras av flera olika tecken eller teckenkombinationer.

Den som skrivit in en stavelse med pinyin möttes ofta av ett fönster på skärmen som krävde att man preciserade vilket tecken man ville ha. Detta var inte bara bökigt och tidskrävande, utan ställde stora krav på processorns snabbhet, internminnet, hårddisken, kvaliteten på bildskärmen och printern. Idag är hårdvaran billig och det finns en mängd relativt bra system för att skriva in kinesiska tecken både med digitaliseringsbräden för kinesiska (som tolkar med hjälp av tecknens beståndsdelar) och tangentbord (vilka använder ”predictive input,” dvs program som listar ut vilka tecken som logiskt sett borde följa.)


Ming Zhou är expert på ”naturliga språk”.

Men även med dessa förbättringar anses frågan om kinesisk input fortfarande helt central om datorerna ska bli verkligt användarvänliga.
-Det finns över 200 olika system för att skriva in kinesiska tecken, säger Ming Zhou, som är expert på ”naturliga språk” (att kommunicera med datorer på mänskliga språk, i motsats till programspråk) och maskinöversättning. Hans grupp har utvecklat det integrerade pinyin-baserade system för input som ska ingår i nästa kinesiska version av Microsoft Word. Han visar hur snabbt han kan skriva in ett stycke med pinyin och det utan att systemet avbryter honom en enda gång för att be honom välja rätt tecken.
-Vi använder egenutvecklade statistiska modeller som ger en hög precision. Det är fem till tio gånger snabbare än andra system, säger Ming Zhou och tillägger att Microsoft Japan använt ett regelbaserat system för japanska Windows, men nu vill använda deras statistiska modell istället.

Forskarna har skapat modellen genom att studera vardagligt språkbruk utifrån en databas med över 400 miljoner kinesiska tecken såsom de används i dagligt tal. Modellen innehåller 6.370 unika tecken och kan individualiseras ungefär som man kan göra genom att lägga till egna uttryck i ett stavningsprogram.

Ming Zhou säger att en skillnad mellan det gamla systemet för pinyin-input i kinesiska Word och det nya är, att man nu kan växla mellan engelska och kinesiska ord utan att behöva växla program. Det kommer väl till pass inte minst i datasammanhang där många produktnamn används i sin engelska form mitt i den kinesiska texten.

Hans grupp arbetar också med andra språkliga hjälpmedel. Han ger oss en demonstration av en engelsk språk-”wizard” som hjälper engelskkunniga kineser att formulera sig bättre genom att presentera alternativa formuleringar. Kineser bjuder ju ofta på ofrivillig komik när de direktöversätter kinesiska uttryck utan att riktigt förstå engelskans nyanser. (Här är ett färskt exempel från ett polisvarning för ficktjuvar utanför ett varuhus: ”Try to get rid of strangers pestering.”)

2) Snacka går allt bättre

Eric Changs jobb är att få datorer att förstå det vi säger. Han doktorerade 1995 vid Massachussetts Institute of Technology, nobbade ett erbjudande från Microsoft Research i Redmond till förmån för röstpionjären Nuance Communications bara för att 1999 låta sig värvas till labbet i Beijing. Nu sysslar han med röstförståelse med fokus asiatiska språk, men en del av erfarenheterna gäller alla språk.
-Vi har jobbat åtta månader på att förbättra Microsofts “motor” för talförståelse (Speech Recognition Engine) och en del av vårt arbete kommer att finnas med i den kinesiska versionen av Office XP, säger han.


Eric Chang är expert på digital röstförståelse.

Det kinesiska språket erbjuder speciella utmaningar eftersom det lägger så stor tonvikt vid hur man betonar olika stavelser; ett fenomen vi i Sverige känner igen från ord som t ex ”anden.”
-Vid tolkning av kinesiskt tal tittar vi mer på tonhöjden, dvs frekvensen i stämbandens vibration, medan man vi engelsk talförståelse är mer intresserade av röstorganets form.
-Den engelska talförståelsen är ganska primitiv, eftersom man traditionellt fokuserat sig på diktering där vi har en stadig röst från en användare. Idag handlare det tolkning av instruktioner och kontroll, telefonsamtalt och på sikt saker som att summera möten genom att låta datorn skriva ut diskussionen. Det är en mycket mer krävande miljö.

Han föreslår att man skulle kunna tackla detta genom att kombinera röstsystemet med maskinseende och handstilstolkning. Om datorns kamera identifierar oss och av våra anteckningar ser vilket ämne vi diskuterar kan talförståelsen underlättas.

-Röstbaserade gränssnitt kommer att bli universiella i framtiden. Vi kommer att ha serverdatorer som fungerar som broar (gateways) till all information och alla tjänster på nätet. Folk kommer att nätsurfa med alla möjliga slags apparater, telefoner, handdatorer, webbpaneler, webbteve och persondatorer. Det gör att rösten blir en allt viktigare metod för input och output. Allt du behöver är ju en liten mikrofon.
-Jag tror att vi får en ”.net”-service som andra företag kan använda till att bygga tjänster som konsumenter oavsett apparat. Fördelen med en serverbaserad lösning är att vi kan samla in data om hur folk använder röstsystemet och använda denna information för att förbättra det. Om vi t ex har en person från södra Kina kanske systemet inte förstår dem så bra i början, men med tiden lär det sig.
-På så sätt kan man också utveckla språkmodellen, vilken kan uppdateras med nya ord och begrepp som kommer till. Det är viktigt eftersom språket hela tiden utvecklas.

Med en sådan modell kan man anpassa systemet efter olika typer av användare. Om du har en PC kan det mesta av arbetet göras på den lokala maskinen, men om du har en mobiltelefon kan servern dra det tunga lasset för rösttolkningen. Eric Chang säger att en annan fördel med att använda servern är att man slipper träna om sin telefon om man tappat sin gamla.

Just mobiltelefonerna är en särskilt lämplig kandidat för röstigenkänning. Det går att skriva in kinesiska tecken på en modern mobiltelefon som har ”predictive input,” men Eric Chang halar upp sin wap-telefon och säger att han tycker att det är krångligt.
-Det är svårt med kinesisk input på en wap-telefon, men om man använder röstigenkänning blir det mycket lättare, säger han och visar en demo av ett röstigenkänningsprogram för mobiltelefoner.

Först knappar han in en begäran om väderinformation och får en lista på hundratals städer att välja på vilket inte är det lättaste pga telefonens lilla bildskärm. Därefter visar han hur röstsystemet fungerar. Han säger ”vädret i Beijing” på kinesiska och får rätt svar med en gång.
-Det skulle ta mycket längre tid med telefonens tangentbord, säger han och summerar att det ideala en kombination av röst och tangentbord.

Hans grupp jobbar inte bara med input, utan också på att få en uppläst text att låta naturligt, genom att lägga in pauserna på rätt ställe. Han spelar upp ett avsnitt med dagens kinesiska TTS-modell (Text To Speech) som låter mekanisk och där kommer onaturligt. Sedan spelar han upp en prototyp till en ny TTS-modell som där talet känns mycket mer naturligt.
-Vi jobbar också på att lära systemet att morfa en persons röst till en annans, vilket skulle kunna användas om man vill att systemet ska kunna betona kursiva ord i t ex en tidningsartikel, eller läsa upp en teaterpjäs, fortsätter han.
-Vi kallar detta system för Mulan (efter den berömda kinesis som Disney gjort berömd i väst.) Man skulle kunna tänka sig att rösten anpassas efter personen, så att ett ebrev från Bill Gates läses upp med hans röst om vi t ex sitter i bilen. Man skulle också kunna licensera röster, som t ex Walter Cronkites röst, föreslår han.

Men då kanske någon lånar Bill Gates röst och sänder dig ett ebrev där han befodrar dig...
-Ja, men vi har också system för att verifiera en rösts äkthet, skrattar han.

3) Smarta system för multimedia över nätet

-Vi är intresserade av att kunna leverera multimedia över varje nät och till varje slags apparat, säger Shipeng Li, som doktorerade i USA och utvecklade viktiga delar MPEG 4-standarden, samt jobbade med digitalteve och multimedia vid Sarnoff Corporation, innan han kom till MSRC i may 1999.
-Det handlar inte bara om att sända multimedia till en PC, utan till handdatorer, mobiltelefoner och liknande apparater. Det kräver att man tar med hela systemet i beräkningen, från kompressionstekniken till kvaliteten på kommunikationerna i det läge man sänder.


Shipeng Li jobbade bl a på Sarnoff innan han
rekryterades till Microsofts labb i Beijing.


Shipeng Li demonstrerar labbets Smart Video Player där ”SMART” står för Smart Media Adaptation and Robust Transport. Det är ett system för att sända multimedia vilket anpassar sig efter mottagarens utrustning och preferenser, samt den aktuella bandvidden. Det är dynamiskt både nedåt och uppåt beroende på om bandvidden försämrats eller förbättrats.
-Vi kodade videoströmmen till ett enda flöde av bitar (bitstream) som vi löpande kan justera i enlighet med villkoren på nätet. Och det utan att behöva koda om videon.
-Om du har en PDA kan vi sända med lägre upplösning eftersom du bara har en liten skärm. Vi kan också ändra antalet bilder per sekund, eller sända en mindre bild.
-Om du använt Real Player från Real Networks eller Microsofts Media Player vet du att videon ibland fryses om bandvidden faller. I vårt fall kan du få en viss försämring av kvaliteten, men det blir ändå en smidig uppspelning av videon. Vår teknik för att reparera störningar pga avbrott i dataflödet har nu accepterats som en del av MPEG 4-standarden. Den tidigare avkodaren reagerade på sådana avbrott med att dumpa all information, istället för att använda det man hade.
-Vår SMART-teknik är emellertid mycket mer avancerad än MPEG 4-standarden som bara innehåller en liten del av vår teknik. Det är möjligt att vi kommer att föreslå att vår modell tas med i MPEG 21 (som av någon anledning kommer efter MPEG 7, som ska följa på MPEG 4.)

4) Sjung så svarar datorn

Det var Mingjing Li som utvecklade det system för tolkning av kinesisk handskrift som Microsoft licenserade från den kinesiska vetenskapsakademin 1998. Hans nuvarande forskning har emellertid inte mycket med handstil att göra, eftersom han anser att problemet i stort sett är löst. Han försöker istället bygga nya verktyg för att söka bland audio, digitala stillbilder och video.


Minjing Li utvecklade ett system för att få
datorer att arbeta med kinesiska tecken. Nu
bygger han ett söksystem för musik.

-Happy Birthday To You, sjunger han för sin dator, som efter någon sekund svarar med att spela upp en kinesisk inspelning av födelsedagssången.

Detta är Mingjing Lis söksystem för musik. Systemet analyserar vår röst och matchar sången med en indexerad musikdatabas och producerar sedan en lista över vilka som matchar den sång vi sjungit. När det väl lokaliserat namnet på vår sång kan det gå ut på Internet och söka rätt på sången via någon sökmotor. Det kommer kanske dröja ett tag till innan vi sjunga för Napster för att hitta våra MP3-filer, men steget är inte så långt eftersom Napster om jag inte minns fel tagit fram ett filter som jämför sångerna och inte bara filnamnen.

Som tänkbart användningsområde föreslår labbets PR-chef Sheila Zhang Karaoke-maskiner.
-Det är ofta väldigt svårt att hitta rätt sång, säger hon och får medhåll av Mingjing Li.
Man kan också tänka sig att privatpersoner vill använda systemet för att organisera sina personliga multimediaarkiv.

Gruppen arbetar också på videosöksystem, som bryter upp videofilmer i sekvenser vilka representeras som små bilder på skärmen. Varje bild representerar en sekvens. En mer sofistikerad variant analyserar TV-program genom att bryta upp sekvenser och sortera dem efter information i den text för hörselskadade som sänds via en subkanal. Tanken är att man med en interaktiv TV-tjänst ska kunna välja mellan t ex olika nyhetssnuttar och skippa de man inte är intresserad av.
-Vi bryter upp den paketeríng som kanalen serverat och låter användaren hoppa mellan segmenten, säger Mingjing Li.
-I framtiden skulle man kunna använda rösttolkning som underlag för att sortera sekvenserna, tillägger Sheila Zhang.

5) Virtuella Maggie i den Förbjudna Staden

Baining Guo kom till Microsoft Research från Intels labb i Silicon Valley och hade innan dess forskat i Paris, Kanada och USA. Hans är intresserad av geometriska modeller, datorgrafik och virtuella verkligheter (VR.)
-Vi försöker göra multimedia mer interaktiv, säger han och visar först en demo av en VR-miljö som han försäkrar oss är ett strå vassare än Apples Quicktime VR.
-I Quicktime VR har du ingen visuell parallax, säger han och förklarar att det betyder att man inte kan se bakom objekt när man förflyttar sig i rummet. Men det kan man med en ny teknik de utvecklat här och som kallas Concentric Mosaic.
-Från början krävdes det 1 Gb för att skapa en miljö som man verkligen upplevde att man sjönk in i, men vi kan nu göra samma sak med 700 Kb, vilket bara är något mer än med Quicktime VR, säger han.


Baining Guo jobbade för Intel i Silicon
Valley innan han kom till Microsoft i Beijing.


I nästa demo möter vi Maggie som är en avatar, dvs en artificiell person skapad i datorn.
-Det är en visuellt realistisk intelligent agent som kan konverserar med användaren, säger Baining Guo. Den är ofta expert på ett område, men kan lära sig av användaren och i framtiden kommer den att ha personlighet och känslor, fortsätter han och klickar på Maggie.
-Hi, I’m Maggie, your tour guide. Welcome to the Forbidden City. First I’ll give you a brief introduction of the Forbidden City, then the layout of the Forbidden City. After that I’ll go to the Forbidden City with you, säger hon.

-Vi försöker göra henne så realistisk som möjligt, säger Baining Guo, men jag protesterar att hennes ögon rör sig mekaniskt fram och tillbaks och att munrörelserna är överdrivna.

Man får en känsla av att hon tagit en överdos av valium.
-Vi har faktiskt använt ett riktigt subjekt, säger han syftande på munnen som videofilmats och sedan stoppats in i det virtuella ansiktet.
-Den tillhör en dam som är engelsklärarinna. Vi märkte att hon artikulerade för mycket och har försökt få henne att prata mer naturligt, säger han och förklarar att det skulle kostat för mycket att använda en skådespelare.

Kruxet med Maggi är nog att hon faktiskt ser ut som en riktig person på skärmen och att vi därför bedömer henne som en sådan och blir missnöjda. Det kanske hade varit lättare om hon varit en animerad karaktär.

Hans Sandberg
----------------

Microsoft Research Chinas forskningsgrupper:
  1. Naturliga språk
  2. Talförståelse och syntes
  3. Visuell databehandling
  4. Internetgrafik
  5. Internetmedia
  6. Media management
  7. Media & data (Media computing)
  8. Trådlös teknik och nätverk
  9. Multimodala användargränssnitt