Häromdan läste jag en lista på vitsiga frågor som ”Hur har man fått skylten ‘gå inte på gräsmattan’ ut till mitten av gräsmattan?” och ”Varför har byggnader som ska vara öppna dygnet runt överhuvudtaget lås?”. Bland vitsigheterna fanns frågan ”När ett ord är fel i ordboken, hur vet man det?”. Det är inte en obesvarbar fråga. Google har svaret, liksom korpusar som Språkbanken, BNC och många fler. Genom internet har språkbruk och -norm blivit så demokratiskt som det alltid borde ha varit.
Låt mig ge ett par exempel på ord med icke-konventionaliserad stavning: Anglicismen för e-brev – mail eller mejl? Båda får Words röda taggiga understrykning. Gå in på Språkbankens konkordanser, välj en modern korpus och sök: mail ger 166 träffar, medan mejl ger 177 träffar. Båda stavningarna verkar vara okej. Substantivet för något som reflekterats: reflektion eller reflexion? Båda accepteras av Words ordlista, men i GP 04 vinner reflektion med 72-14.
Men det är inte bara stavningsproblem som textkorpusar kan lösa. Säg att jag bloggar och vill beskriva den pärs jag går igenom varje gång jag ställs inför uppgiften att stänga badrumsskåpet. I min personliga vokabulär beskriver verbet bejdning denna verksamhet. Enligt SAOL finns det inte. En googling på bejda ger 29 000 träffar. Det ser lovande ut. Efter närmare undersökning inser jag dock att de första tio träffarna antingen handlar om en person som heter Bejda, eller citerar religiösa som manar ”Låt oss bejda”. De vill knappast att församlingen ska göra en gemensam ansträngning för att få igen en motstävig skåpdörr (min gissning är att det är en slarvstavning av bedja). Detta resultat betyder naturligtvis inte att jag inte får använda bejda. Däremot verkar inte ordet vara helt vedertaget, och därför kan användandet av det leda till att mina läsare inte alls förstår vad jag utsätter mitt badrumsskåp för.
Tillbaka till påståendet i inledningen: på vilket sätt har internet gjort språket demokratiskt? För det första är internet i sig väldigt tillgängligt. Du behöver inte köpa en egen dator för en nätt fyrsiffrig summa för att kunna använda det. På bibliotek, arbetsplatser, skolor och vissa caféer lånas datorer med internetuppkoppling ut gratis eller för någon tia i timmen. För det andra är många användbara verktyg, såsom textkorpusar, än så länge avgiftsfria. Men det demokratiska är inte framför allt att informationen är tillgänglig för den lilla människan, utan att informationen kan produceras och styras av den lilla människan. Alla får och alla kan. Det är enkelt och gratis. När jag publicerar det här inlägget kommer det att hittas bland bejdas 29 000 googleträffar.
På det sättet är google, mer än övriga nämnda korpusar, en folkets korpus. Vem som helst kan hamna bland söksresultaten – även den som slarvar med bokstavsordningen på bedja.
Kul med observationer om korpusar! Språkbanken är ett utmärkt verktyg. Det man får vara försiktig med om man använder Google är att inte tillmäta stora antal alltför betydelse om det inte är jämförande (som reflektion/reflexion). Du visar ju också på viktigheten att faktiskt kolla texter för att se vilken typ av träffar man fått.
Angående mail/mejl så har jag som en händelse ett exempel i ett bokkapitel jag håller på att jobba med: Om vi återvänder till vårt något långrandiga exempel med ord för datorpost kan det också vara intressant att se på frekvensen för ordet epost (med varianten e-post). Vi finner här 388 förekomster. Eftersom korpusar som sagt gärna lockar till utforskande prövar jag också att söka efter emejl och det visar sig att denna form förekommer 12 gånger i Svenska Dagbladet år 2000. Det innebär att epost är knappt fyra gånger så vanligt som mejl/emejl. Ordet datorpost förekommer inte alls. Genom att jämföra olika alternativ och se i vilka sammanhang orden förekommer kan man få en god bild av aktuellt språkbruk (som speglat i Svenska Dagbladet år 2000). Om vi ville utföra en mer representativ undersökning skulle vi relativt enkelt kunna inkludera andra typer av språkligt material – t.ex. andra tidningar eller andra textgenrer.
Google is definitely becoming a ‘folkets korpus’, but you also have to remember who is on google. It is still largely a representation of Western language. The digital divide is alive and well. Hopefully as computers become even cheaper, internet faster, and availability universal google will truly become an International corpus :-)