HOOFSTUK 3: METODOLOGIE
3.4 EMPIRIESE ONTWERP
3.4.1 KORPUSSE VAN HIERDIE STUDIE
65 1985 1 Verstaanbare Afrikaans: kolskoot-
Taaloplossings
L. de Wet Grammatika
(naslaangids) 1986 2 Taalleer vir onderwyser en student P.J. du Toit Handboek 1986 1 SARA: Sakboek van regte Afrikaans J. Combrink
J. Spies
Grammatika (naslaangids) 1987 3 Afrikaans vir die praktyk J.P. Botha
J.M.H. van Aardt
Grammatika 1989 1 Norme vir Afrikaans: enkele riglyne by
die gebruik van Afrikaans
W.A.M. Carstens Grammatika 1990 1 Afrikaans vir die Tweedetaalstudent J.A. Gous
J.P. Botha
T2 Grammatika 1991 7 Die korrekte woord: Afrikaanse
taalkwessies
H.J.J.M. van der Merwe
F.A. Ponelis
Grammatika (naslaangids) 1995 1 Afrikaans op sy beste: hulp met
moderne taalkwessies
A.F. Prinsloo F.F. Odendal
Grammarika (naslaangids) 2003 1 Skryf Afrikaans van A tot Z: die
essensiële gids vir taalgebruikers
D. Müller Grammatika
(naslaangids) 2003 4 Norme vir Afrikaans: enkele riglyne by
die gebruik van Afrikaans
W.A.M. Carstens Grammatika
66
met verloop van tyd. Anders as die korpusse van Mair (2006) en Leech et al. (2009) is daar 'n afdeling met manuskripdata (briewe en dagboekinskrywings) ingesluit, wat weliswaar 'n klein proporsie van die algehele korpus uitmaak, maar ten minste enigsins ongeredigeerde geskrewe taalgebruik verteenwoordig, op grond van Weerman et al. (2013:356) se aanbeveling. Daar is geen gesproke data by die korpus ingesluit nie, vernaam omdat daar geen gesproke Afrikaanse data beskikbaar is vir die eerste twee periodes nie, en besonder beperkte data vir die latere twee periodes. Die grootte van elke afdeling in die korpusse is in breë trekke bepaal op grond van algemene beskikbaarheid, wat geneem is as 'n aanduiding van die mate waartoe dit in die breë skryftaal teenwoordig is. Daar is in ag geneem dat fiksie 'n besonder stilisties heterogene kategorie is (Leech et al., 2009:59), asook die informatiewe kategorie, wat die besondere grootte van die afdelings regverdig. Die informatiewe kategorie is breedweg populêre nie-fiksie wat nie in een van die ander meer spesifieke kategorieë pas nie, soos artikels uit populêre tydskrifte, boeke oor sport of stokperdjies of politieke vraagstukke, ensovoorts. Die onderskeid tussen verslaggewing en byvoorbeeld tydskrifartikels in die informatiewe kategorie is getref op grond van die aard van die teks – verslaggewing fokus op bondige rapportering van sake, tipies in koerante, maar ook soms in tydskrifte, terwyl die bronne in die informatiewe kategorie gewoonlik langer en meer uitgebreide tekste is, minder saaklik as verslaggewing, met 'n fokus eerder op oordrag van verskeie tipes inligting as die rapportering van gebeure, besluite, ensovoorts. Die kategorieë, met die woordtellings, in elk van die korpusse is soos volg:
Fiksie (±60 000)
Populêre nie-fiksie:
o Biografiese tekste (±20 000) o Verslaggewing (±20 000) o Informatiewe tekste (±60 000) o Religieuse tekste (±20 000)
Akademiese tekste:
o Geesteswetenskaplike tekste (±30 000) o Natuurwetenskaplike tekste (±30 000)
Manuskripte (briewe en dagboeke) (±21 000)
Daar is 'n maksimum van ongeveer 2 000 woorde uit een teks geneem, wat beteken dat daar ten minste tien verskillende tekste van verskillende outeurs en uiteenlopende onderwerpe (tot die mate wat dit moontlik is) in elke kategorie ingesluit is, om die balans en verteenwoordigendheid volgens Koester (2010:70) se aanbeveling te bereik. Die teks is by die eerste sinvolle plek ná 2 000 woorde afgesny, wat 'n mate van variasie in die totaal gee (ook omdat die hoeveelheid tekste nie konsekwent is nie; daar is slegs met 'n maksimum
67
aantal woorde uit een teks en minimum aantal tekste gewerk). Verder is gedeeltes wat uit langer tekste geneem is, telkens uit verskillende dele van die tekste (in terme van begin en einde van 'n boek of hoofstuk) geneem. Daar is egter een gaping in een korpus wat bloot nie gevul kan word nie – in 1911-1920 het bitter min natuurwetenskaplikes al in Afrikaans geskryf en gepubliseer, en die meeste Suid-Afrikaanse natuurwetenskaplike tekste uit die tydperk is Nederlands of Engels. Na 'n uitgebreide soektog by verskeie biblioteke en argiewe is daar slegs twee Afrikaanse natuurwetenskaplike bronne gevind, en as 'n noodmaatreël is daar amper 5 000 woorde uit elk daarvan geneem. Die totale getalle van elk van die korpusse lyk soos volg:
1911-1920: 242 686 woorde
1941-1950: 263 838 woorde
1971-1980: 262 386 woorde
2001-2010: 263 270 woorde
Die totale grootte van al vier korpusse saamgevoeg is dus 1 032 180 woorde. Die grootte van elke korpus is weliswaar besonder klein, maar daar is genoeg gebruiksinstansies van die meeste relevante grammatikale items vir sinvolle analise. Om die uiteindelike verskille in die totale getalle te verreken, is die presiese totale getalle van die korpusse telkens gebruik in statistiese berekeninge. Wanneer gebruiksgetalle van die korpusse onderling met mekaar vergelyk is, is die getalle van die eerste periode genormaliseer in terme van die grootte van die ander korpusse (by benadering), en deurlopend voorgestel in daardie terme.
Verder is die verskeidenheid van onderwerpe in berekening gebring (Biber et al., 1998:248) – daar is reeds genoem dat die onderwerp van 'n spesifieke teks inaggeneem is, en dit kon die oorspronklik lukrake seleksie beïnvloed indien daar meer as twee of drie tekste in die betrokke periode is wat oor dieselfde onderwerp handel. In die eerste periode was dit tot 'n mate onvermydelik dat daar meer bronne oor dieselfde onderwerp is, want spesifiek die geesteswetenskaplike bronne uit die tyd wat in Afrikaans geskryf is, is geneig om oor onderwerpe rondom Afrikaans as taal te handel.
Laastens, "it is important to be realistic" (Biber et al., 1998:250). Elke korpus het beperkinge, maar 'n goed-ontwerpte korpus sal steeds bruikbaar wees vir 'n verskeidenheid taalkundige ondersoeke (Biber et al., 1998:250). Die grootte van die korpus is gekonseptualiseer as "groot genoeg, maar prakties haalbaar", aangesien 'n groot hoeveelheid van die tekste vanaf hardekopie elektronies verwerk moes word. As gevolg van praktiese oorwegings is die meeste gepubliseerde bronne uit verskillende NWU-biblioteke geneem, maar wanneer 'n kategorie nie bevredigend divers was nie, is daar verder vir
68
bronne gesoek. Bronne vir die laaste periode is ook geneem uit die Taalkommissie-korpus en die PUK-Protea-korpus, wat met 'n lisensie-ooreenkoms deur CTexT van die NWU Potchefstroomkampus aan die navorser beskikbaargestel is. Daar is vir die eerste periode se manuskrip-kategorie briewe geneem uit Deumert (2004) se Corpus of Cape Dutch Correspondence, en briewe vir die eerste drie periodes is uit verskillende beskikbare argiewe (onder andere die Nasionale Argiewe en die NWU-argief) aangevul. Die laaste periode se briewe is nog nie in publieke argiewe beskikbaar nie, maar die EPOG-argief het 'n hele aantal sakebriewe uit die periode aan die navorser beskikbaargestel. Verder is daar vir die laaste drie periodes 'n hele aantal persoonlike briewe en dagboekinskrywings uit privaatversamelings aan die navorser beskikbaargestel, wat geanonimiseer is tydens elektroniese verwerking om die identiteit en persoonlike inligting van die outeur en enige ander betrokke partye te beskerm.
In die versameling van diachroniese korpusse is die eerste stap dikwels om tekste van hardekopie na elektroniese formaat om te skakel. Die bronne is geskandeer en deur 'n teksherkenningsprogram, ABBY FineReader 10, verder verwerk. Aangesien rekenaars nie intelligensie bevat nie, moet korpusdata só verwerk word dat dit in die optimale formaat is vir die analisesagteware (Scott, 2010:142). Die beste formaat in hierdie opsig is txt.-lêers in Unicode-formaat, en nadat die tekste deur die teksherkenningsprogram gelees is, is dit in hierdie formaat gestoor. Veral ouer tekste is egter dikwels onduidelik gedruk, wat die teksherkenningsprogram laat foute maak; al die tekste wat van hardekopie verwerk is, is nagegaan en enige herkenningsfoute is met die hand reggestel. Handgeskrewe bronne is oorgetik, direk in die gepaste formaat. Die relevante metadata is in tekshoofde ("headers") in elke lêer gestoor – die titel van die teks, die outeur (indien beskikbaar en relevant), die datum van publikasie, die korpus-kategorie van die teks, en waarvandaan die bron verkry is.
Die korpus-kategorie, datum en titel is ook in die lêernaam gestoor, om verdere sortering tydens analise te vergemaklik.
Om seker te wees dat geen kopieregwette oortree word nie, word die korpus nie aan die publiek beskikbaargestel nie, maar wel aan individuele navorsers wat dit vir spesifieke navorsingsdoeleindes wil gebruik, en dit verantwoordelik sal hanteer.