ANALISEMETODES EN -HULPMIDDELS

HOOFSTUK 3: METODOLOGIE

3.4 EMPIRIESE ONTWERP

3.4.2 ANALISEMETODES EN -HULPMIDDELS

bronne gesoek. Bronne vir die laaste periode is ook geneem uit die Taalkommissie-korpus en die PUK-Protea-korpus, wat met 'n lisensie-ooreenkoms deur CTexT van die NWU Potchefstroomkampus aan die navorser beskikbaargestel is. Daar is vir die eerste periode se manuskrip-kategorie briewe geneem uit Deumert (2004) se Corpus of Cape Dutch Correspondence, en briewe vir die eerste drie periodes is uit verskillende beskikbare argiewe (onder andere die Nasionale Argiewe en die NWU-argief) aangevul. Die laaste periode se briewe is nog nie in publieke argiewe beskikbaar nie, maar die EPOG-argief het 'n hele aantal sakebriewe uit die periode aan die navorser beskikbaargestel. Verder is daar vir die laaste drie periodes 'n hele aantal persoonlike briewe en dagboekinskrywings uit privaatversamelings aan die navorser beskikbaargestel, wat geanonimiseer is tydens elektroniese verwerking om die identiteit en persoonlike inligting van die outeur en enige ander betrokke partye te beskerm.

In die versameling van diachroniese korpusse is die eerste stap dikwels om tekste van hardekopie na elektroniese formaat om te skakel. Die bronne is geskandeer en deur 'n teksherkenningsprogram, ABBY FineReader 10, verder verwerk. Aangesien rekenaars nie intelligensie bevat nie, moet korpusdata só verwerk word dat dit in die optimale formaat is vir die analisesagteware (Scott, 2010:142). Die beste formaat in hierdie opsig is txt.-lêers in Unicode-formaat, en nadat die tekste deur die teksherkenningsprogram gelees is, is dit in hierdie formaat gestoor. Veral ouer tekste is egter dikwels onduidelik gedruk, wat die teksherkenningsprogram laat foute maak; al die tekste wat van hardekopie verwerk is, is nagegaan en enige herkenningsfoute is met die hand reggestel. Handgeskrewe bronne is oorgetik, direk in die gepaste formaat. Die relevante metadata is in tekshoofde ("headers") in elke lêer gestoor – die titel van die teks, die outeur (indien beskikbaar en relevant), die datum van publikasie, die korpus-kategorie van die teks, en waarvandaan die bron verkry is.

Die korpus-kategorie, datum en titel is ook in die lêernaam gestoor, om verdere sortering tydens analise te vergemaklik.

Om seker te wees dat geen kopieregwette oortree word nie, word die korpus nie aan die publiek beskikbaargestel nie, maar wel aan individuele navorsers wat dit vir spesifieke navorsingsdoeleindes wil gebruik, en dit verantwoordelik sal hanteer.

rarely completely unfounded, but documentation is usually very patchy, impressionistic and coloured by prescriptive prejudice. This being so, state-of-the-art corpus-linguistic methodology is, we feel, precisely the strategy to use in order to flesh out, to refine and, where necessary, to correct the picture.

Aangesien die situasie vir Afrikaans op enkele uitsonderings na dieselfde is, is die uitsprake in die literatuur geneem as beginpunt vir die grammatikale kategorieë waarin verandering nagespeur is. Leech et al. (2009:79) wys daarop dat deur slegs te fokus op opvallende veranderinge in frekwensie, meer subtiele veranderinge (wat nie direk manifesteer in veranderinge in gebruiksfrekwensie nie) misgekyk kan word. Ter wille daarvan om hierdie slaggat te vermy, is daar in hierdie studie breë grammatikale kategorieë geïdentifiseer waarin moontlike veranderinge teenwoordig is, en hierdie kategorieë is dan so volledig as moontlik ondersoek. Terwyl daar as gevolg hiervan 'n aantal bevindinge is wat op stabiliteit wys eerder as verandering, is daar veranderinge opgetel wat nie in die blote frekwensie sigbaar is nie. Dit het egter ook tot gevolg dat daar nie dikwels in besondere diepte in 'n enkele verskynsel gedelf is nie, maar gefokus is op 'n oorsigtelike perspektief van sekere breër grammatikale kategorieë. Daar is in die proses ook gevind, soos wat met Leech et al.

(2009:268) die geval is, dat vorige kommentators soms reg was daaroor dat 'n verandering plaasvind, maar verkeerd oor die omvang en oorsaak van die verandering.

In die aanvoorwerk van die studie is daar twee tipes bronne ondersoek om vas te stel watter verskynsels en/of grammatikale kategorieë sinvol sou wees om verder te ondersoek.

Aan die een kant is daar ondersoek ingestel na bestaande navorsing oor onlangse veranderinge in Afrikaans, of oor verskynsels in Afrikaans wat variasie toon, wat meer oorsigtelik of in meer besonderhede ondersoek kan word. Daar is 'n hele aantal studies wat fokus op 'n spesifieke verskynsel of 'n spesifieke tekstipe – byvoorbeeld Conradie (1992, 1998) en Van Wyk (2009) se studies wys op moontlike veranderinge in die tempussisteem, Van der Merwe (1997) en Ponelis (1979:70, 585) gee teenstrydige uitsprake oor die verhouding tussen hy en dit, wat op verandering in die voornaamwoordsisteem kan wys, en Vink (1981) se hantering van die verhouding tussen van en se wys dat daar ook moontlike verandering aan die gang is in die Afrikaanse genitief.

Aan die ander kant is die uitsprake van normatiewe bronne in ag geneem. Soos in Leech et al. (2009) is daar aangeneem dat preskriptiewe uitsprake kan wys op 'n onderliggende grammatikale verandering, en is dit as rigtingaanduiders hanteer vir waar om te soek vir taalverandering. Uitsprake oor die gebruik van was in die passief (Carstens, 2011:365, Müller, 2003:699; Müller & Pistor, 2011:744; Scholtz, 1990:13, om enkeles te noem) of oor die gebruik van was gewees (Combrink & Spies, 1986:180; De Villiers, 1983:218; Müller, 2003:700; Van der Merwe & Ponelis, 1991:262; Van Schoor, 1983:144) wys op variasie en/of verandering in die Afrikaanse temporele sisteem. Die gebruik van

hierdie en daardie as selfstandige aanwysende voornaamwoorde (Basson et al., 1968:99;

Carstens, 2011:73; Müller, 2003:101-2), of die 'onnodige' gebruik van -self saam met wederkerende voornaamwoorde (Carstens, 2011:71; Van der Merwe & Ponelis, 1991:197;

Van Schoor, 1983:299) wys op moontlike variasie en/of verandering in Afrikaanse voornaamwoordgebruik.

Nadat die moontlike wegwysers uit die bogenoemde tipes bronne vasgestel is, is die genoemde verskynsels voorlopig in vroeg-twintigste-eeuse data ondersoek. In die drie bogenoemde grammatikale kategorieë – tydsaanduiding, voornaamwoorde, genitief – is daar telkens 'n mate van veranderlikheid en die potensiaal vir veranderinge sedertdien geïdentifiseer, op grond waarvan die drie kategorieë as fokuspunte vir die studie vasgestel is.

Wat die praktiese sy van korpusanalise betref, som McCarthy en O'Keeffe (2010:3) die ervaring van die linguis treffend en akkuraat op:

Corpus linguistics nowadays is perhaps most readily associated in the minds of linguists with searching through screen after screen of concordance lines and wordlists generated by computer software, in an attempt to make sense of phenomena in big texts or big collections of smaller texts.

Nadat die vier korpusse finaal verwerk is, is daar met die program WordSmith 6 woordelyste van elke korpus opgestel. Vir elk van die analises is daar telkens 'n woord of groep woorde geïdentifiseer waarvan konkordansies onttrek is – die meeste konstruksies of gebruike is deur een of enkele leksikale items uit die data onttrek, byvoorbeeld sal en gaan vir toekomsverwysing, hulle vir derde persoon meervoud, van en se vir die genitief. Die woordelyste is gebruik om, veral die vir eerste periode maar ook vir die ander, moontlike alternatiewe spellingwyses of vorme vir 'n spesifieke woord of konstruksie te identifiseer, byvoorbeeld sal en zal en zullen en zult, hij en hy, of het en 't, of gaan en gan.

Konkordansies van hierdie alternatiewe vorme is ook telkens onttrek. Die konkordansies is dan op 'n gepaste wyse gesorteer en met die hand geklassifiseer of geanaliseer. Daar is nie sagteware beskikbaar om Afrikaanse data, en veral historiese data, te annoteer in terme van byvoorbeeld woordsoortetikettering of sinsrolle nie. Daarom is alle klassifikasies en analises met die hand gedoen, en wanneer die hoeveelheid data onhanteerbaar groot was, is daar lukrake steekproewe ("random samples") onttrek – 'n beskikbare funksie van WordSmith 6.

Die besonderhede van die steekproewe word in die analisehoofstukke gegee.

Die resultate van die analises is telkens in Microsoft Excel aangeteken, wat ook gebruik is om grafieke saam te stel waar nodig. In die interpretasie van die resultate is die verspreiding van die verskynsel in ag geneem – 'n hele aantal bronne beklemtoon die belang van verskillende registers en tekstipes in variasie of die verspreiding van 'n

verandering (Biber et al., 1998:248; Koester, 2010:69; Leech et al., 2009:12, 239; Mair, 2006:2), so wanneer 'n veranderende verskynsel frekwent genoeg is om sin te maak van die verspreiding oor tekstipes heen, is dit in ag geneem. Wanneer 'n verskynsel kluster in een of enkele bronne, of een tekstipe (Koester, 2010:70), is dit ook in ag geneem. Alternatiewelik is die verskillende bronne in drie vlakke van formaliteit ingedeel, om vas te stel of 'n spesifieke verskynsel verskillend gebruik word in meer of minder formele taalgebruik, of om vas te stel of sekere veranderinge vinniger in meer of minder formele taalgebruik plaasvind. Die formele kategorie is die akademiese tekste, sowel as die formele briewe in die manuskripafdeling;

die informele kategorie is persoonlike briewe en dagboekinskrywings (telkens die kleinste kategorie); dan is daar die neutrale kategorie wat nie as besonder formeel of besonder informeel of intiem getipeer kan word nie. Wanneer verskynsels in hierdie terme geanaliseer is, is die presiese woordtellings van elk van die kategorieë in elk van die korpusse geneem, en die frekwensie per 10 000 woorde is bereken vir vergelyking.

Na aanleiding van die beperkte tydperk wat die data verteenwoordig en die omvang van die ondersoek is daar nie gereeld gefokus op die ontstaan van 'n verandering nie, maar op die verandering in frekwensie en moontlik die verspreiding daarvan, in navolging van Mair (2006:2).

Daar is reeds genoem dat die getalle van die eerste periode genormaliseer (Biber et al., 1998:263; Evison, 2010:126) is ten opsigte van die grootte van die ander drie korpusse, maar behalwe daarvoor word daar in beginsel met die rou getalle in die korpusse gewerk (Leech et al., 2009:71) tensy anders vermeld.

Wanneer daar verandering in frekwensie opgemerk is, is daar statistiese toetse vir beduidendheid aangewend (Biber et al., 1998:275). Die toets wat deurgaans gebruik is, is die log-waarskynlikheidstoets, en die log-likelihood calculator van Rayson (2015), wat spesifiek ontwikkel is vir korpusdata, is gebruik. Hierdie toets dui aan of die variasie in frekwensie tussen twee datastelle, of oor verskillende datastelle heen, aan toeval toegeskryf kan word, of beduidend is. 'n Resultaat van minder as 3.84 word as onbeduidend beskou (dan is p > 0.05), tussen 3.84 en 6.63 word as 'n lae vlak van beduidendheid beskou (dan is p tussen 0.01 en 0.05), en meer as 6.63 word as beduidend beskou (dan is p < 0.01) (Rayson, 2015). Wanneer daar gelyklopende verandering in twee of meer verwante veranderlikes was, is daar 'n aantal kere chi-kwadraat-toetse gedoen om beduidendheid vas te stel. Die interactive chi-square test van Preacher (2001) is gebruik, en die beduidendheid van die resultaat is bereken volgens die grade van vryheid ("degrees of freedom") (Preacher, 2001).

Dalam dokumen Grammatikale verandering in Afrikaans van 1911-2010 (Halaman 87-91)