Datorn som talar kinesiska
av Erik Meitz Forum 1986-12, sida 64-65, 28.08.1986
Dp X 7 JK
Rubriken är kinesiska, och de fyra orden betyder ”mitten” (= Kina), ”skrift”, ”elektricitet” och ”hjärna”
I översättning: ”Dator som använder kinesisk skrift”. Kinesisk skrift på dator, så som t ex engelska? Javisst, idag går det lika bra på kinesiska.
Och japanska. Och koreanska.
Det är skäl att notera detta, ty ännu för ett par år sedan var det allt annat än givet. Och det gäller ju ett språkområde med över en fjärdedel av jordklotets invånare — och med den snabbaste ekonomisk tillväxten i detta nu.
nte nog med att ”språkvallen” nu är bruten. Datoriseringen av den kinesiska skriften — som också den japanska och koreanska baserar sig på — tvingar fram nya lösningar för input-sidan som annars sannolikt skulle låta vänta på sig. En sådan är inmatning via en kamera som läser handskrift och klarar tusentals skrivtecken!
IBM utmanad Ännu för ett par år sedan stod de flesta datorexperter i Taiwan, Kina, Japan och Korea med fingret i mun, muttrade förbannelser över sina respektive skrivsätt, uppmanade alla att lära sig engelska så snabbt som möjligt, flyttade själva till Silicon Valley, eller tog på hemmaplan upp konkurrensen med /BM, Apple och andra om allt billigare och — ibland — bättre datorer. På engelska. Och inte minst med sikte på en potentiell massmarknad I deras eget språkområde.
Men medan dessa asiater profeterade om sina språks nedskrotning på datoriseringens altare, gick IBM — med hjälp av dem som flyttat till Silicon Valley — in för att dessa språk som sådana skulle inträda I datoråldern. Vilket också skedde, när IBM för ett par år sedan kom ut med den första kinesisk-japansk-engelska datorn. Då blev det fart också på alla de kinesiskajapanska-koreanska ingenjörer som sett sin livsuppgift i att studera, kopiera och — ibland — förbättra amerikanska datorer för engelskspråkig användning.
Hur många skrivtecken?
Tänk så enkelt vi har det med ordet ”dator” — fem bokstäver i det latinska standardalfabetet som har 26. Ingen konst att skriva, programmera, lagra i minnet, få fram på bildskärmen, mata ut I printern.
64
Det kinesiska uttrycket för “dator” består av de två orden “elektricitet” och “hjärna”. Det är de två sista skrivtecknen i rubriken ovan. Vad är ett skrivtecker?
Talad kinesiska (mandarin, riksspråket) består av 407 enstaviga ljud. Men ett fullständigt (2) kinesiskt lexikon upptar över 50 000 ord som kommit i standardbruk under de gångna fyratusen åren. Varje ord motsvarar ett enstavigt ljud, så det blir ganska många olika ord per ljud. Detta om talet; datorn hanterar ju skrift. Minst 50 000 ord, och varje ord har sitt eget skrivtecken.
Se t ex på ordet för ”elektricitet”. Det har ett sammansatt skrivtecken. Överst är ett streck för ”himmel". Nedanför klammer för “moln”. Inne i molnet har vi fyra små streck för ”regn”. Allt hålls ihop av ett extra vertikalt streck. Längre ned är en ruta med tvärstreck = “”sol”. Genom solen går en krökt pil = “blixt”.
För en kines är det helt klart att skrivtecknet betyder ”elektricitet”. Han kan läsa och skriva det tom i sömnen. En annan sak är hur många ord/skrivtecken en kines kan läsa/skriva. För ”allmänbildning” räknar man med ca 6 000 ord. I en dagstidning däremot står mindre än 3 000 ord för 99 procent av texten.
Hur många skrivtecken krävs det då att en dator skall kunna hantera? I princip hur många som helst, säger alla. Det är heller inget problem, så länge det gäller att lagra skrivtecken. Idag behöver inte heller bildrutorna skämmas ens för tätt packade, tillkrånglade skrivtecken — de syns bra. Vid omvandlingen av skrivtecken till elektronisk information är det dels fråga om en grafisk processor, dels om själva input-tekniken. Den grafiska processeringen är idag inget problem, problemet är den fas som operatören själv direkt kontrollerar,
IBMs Mullistation 5550 är en bordsdator som klarar av de kinesiska krumelurerna. Inmatningen sker med hjälp av pekpennan och tangentbordet här ovan. Själva anläggningen liknar vilken PC som helst och fås i tre olika utföranden. Det aktuella språket väljs med programvaran.
=
Hur mata in?
BM: första datorn, framfödd efter tio års mödor, drog gränsen vid ca 2000 skriv’ecken. Antalet dikterades av praktiska skäl, dvs tangentbordets dimensioner. Man unde tex ha ett bord med 168 tangenter med 12 skrivtecken var, plus en särskild tangentrad för sifferkoderna 1—12. Alltså 12x166=1 992 skrivtecken.
Det motsvarade en kinesisk/japansk mekanisk skrivmaskin av det slag som sedan gammalt står med huven på medan kontoristerna har fortsatt att skriva för hand som alltid förut. Men där inte ens den flinkaste maskinskrivare någonsin kom över 35 (rätt) skrivna ord per minut, visade det sig att IBM:s dator med sina 1 992 skrivtecken i ett elektroniskt minne i stället för på metallhamrar efter sex veckors operatörsskolning kunde nå en hastighet på 75 ord i minuten. Vilket ansågs vara vackert så. Problemet var att 1992 skrivtecken var för litet.
I väntan på nya idéer och genombrott tog man till gamla beprövade metoder att omskriva skrivtecken. De är av två slag 5 HF vr ADMIR KR Rn , 2DBOBLRHB AR IR HIRO O 12/1986 FÖRUNN antingen sifferkoder eller fonetiska transskriberingar.
Problernet med den allkinesiska telegrafkoden t ex är att den förutsätter oavbrutet sökande i kodboken och långvarig träning. Ingen metod för varmans personal computer.
Och alla försök till fonetisk transskribering — såsom den folkrepublikanska användningen av romerskt alfabet och de speciella 32 ljudsymbolerna som upptunnits I Taiwan — stupar på att kineser ännu har väldigt långt kvar till en standardisering av sitt tal. Det är skriften som bär upp språket, inte de 800 olika dialekterna. Så problemet förblev att hitta på en input-metod som utgår från själva skrivtecknen sådana som de är, mer eller mindre standardiserade och begripliga för alla kineser.
Första ”riktiga” kinesdatorn
Så kallar ingenjörer i Taiwan ett nytt sätt att mata in skrivtecken som kan läras in av varje skrivkunnig kines på ett par dagar. Öch nu är det för en gångs skull IBM som har fått ta efter.
Den nya metoden har inte ens något allmänt känt namn, men man kunde kalla den t ex ”anatomisk”. Den går ut på att operatören enligt ett schema delar upp det önskade skrivtecknet i delar, matar in ett antal delar (som motsvarar ett urval på 24 enkla ”garundskrivtecken”), får fram alla skrivtecken innehållande den aktuella kombinationen på bildskärmen, plockar ut det önskade tecknet och matar in det i texten.
Vill operatören skriva tex ordet för “elektricitet”, trycker han ned tangenterna M+B+W+HU (se teckning t v) som alla motsvarar var sitt enkla grundskrivtecken (besläktade med ”himmel", ”moln”, ”regn", ”sol”). | rutan syns då ca 30 skrivtecken
FÖRUN 12/198 som alla innehåller dessa, bland dem också ”elektricitet”. Att skriva In ”elektricitet” i en text tar ca fem sekunder för en van operatör.
Problemet för en ovan operatör är: vilka grundskrivtecken skall kombineras för att ge “elektricitet”? Skall man ta alla fem, räcker det med bara tre eller — vilket är rätt — skall man skriva in fyra delar? Det finns en handbok med regler och exempel och den gäller det att lära sig utantill.
En verkligt driven operatör kommer inte upp till mera än 40 skrivtecken per minut, vilket är långsammare än IBM:s gamla input-metod. Fördelen — att nu praktiskt taget alla skrivtecken är tillgängliga på ett tangentbord av standardformat — uppväger än så länge den låga hastigheten.
Innovatorn är Sertek, en division inom den taiwanesiska elektronikfirman Multitech. Datorn, som räknas ha inlett den ”fjärde generationen” av kinesiska datorer, har beteckningen DCS-570 och input-metoden kallas Dragon. | själva verket är DCS-570 försedd med alla tidigare input-metoder också, det är bara att välja. Den är också helt IBM-kompatibel, d v s den kan använda alla mjukvara framställd för IBM:s PC. En spak kopplar om från engelska till kinesiska och vice versa. Vad DCS-570 inte kan göra — ännu — är att översätta direkt mellan de två språken. Men den dagen lär komma också.
Femte generationen — handskrift
Kineserna själva utgår ifrån att kinesiska också i framtiden kommer att skrivas mest för hand, även om de byter ut penseln mot en laserpenna. Handskrift — kalligrafi — är en oskiljpbar del av kulturarbet. Varje skrivtecken har sin estetiska, historiska och filosofiska betydelse. Form och innehåll hör ihop. Enda sättet att alls behärska kinesisk skrift är att ständigt ”hålla den i nyporna”.
Målet är därför en dator som kan läsa handskrift. En sådan är redan i experimentstadiet. Denhär ”femte generationens” kinesdatorn sägs vara klar för marknaden om 2—3 år.
Tangentbordet kompletteras med en kamera framför vilken operatören skriver för hand eller visar upp färdigt nedskriven text. Idag kan experimentdatorn identifiera ett skrivtecken på 20 sekunder med 94,3 procent säkerhet. Målet är 50 skrivtecken per sekund, säger experimentledaren, professor Win-Hsing Hsu vid Ching Hua-universitet i Hsinchu i Taiwan.
Så snabbt kan givetvis ingen skriva, I själva verket är handskrift inte snabbare än Dragon-metoden. Vinningen är, att vem som helst kan kommunicera med datorn per handskrift, medan också Dragon i all sin enkelhet kräver träning och rutin.
Och, inte minst — världens äldsta | bruk varande skrift kommer att hållas vid liv och frodas som aldrig förr. Teknik i kulturens tjänst! Erik Meitz ln jelas lika I inredni a.
läget en år: I ör företage