1
Ewekansigheid se raakpunte met genetika en ander gedagtes Pieta van Deventer
Trefwoorde: pseudo-ewekansig, uniforme verdeling, eksponensiale verdeling,
gammaverdeling, chikwadraatverdeling, Mendel, p-waarde, geneties, lineêre kongruente generator, Wichmann-Hill-generator, Mersenne Twister-algoritme
Ewekansige getalle speel ’n groot rol in navorsing van watter aard ook al. Of dit nou fisika, finansies, medies, of watter rigting ook al is wat ’n mens jou mag voorstel, ewekansige getalle, en dan regtig ewekansig, is baie belangrik. Ongelukkig kan die ewekansige voorkoms van data ’n mens maklik uitboul. Dit is welbekend dat die mens die begrip ewekansigheid onderskat. Gebeurtenisse kom normaalweg oor ’n wyer spektrum voor as wat die meeste mense vermoed. Dit is baie belangrik vir wat hier volg. Ewekansige data is baie verder uitmekaar versprei as wat ’n mens jou sou kon voorstel. As jy data willekeurig moet skep om ewekansig voor te kom, maar wat darem rofweg een of ander gemiddelde moet gehoorsaam, kan jy baie maklik jou rieme styfloop. Dit gebeur feitlik sonder uitsondering dat
“ewekansige” syfers wat lukraak uit die duim gesuig word gemaklik as sodanig uitgeken kan word. Die rede daarvoor is dat dit onwaarskynlik is dat ewekansige data so na aan mekaar voorkom. Een so ’n vermoedelike mistasting het nogtans, ten spyte van sulke vermoedens oor die manipulasie van data, tot ’n belangrike ontdekking in genetika gelei. Die tweeledige vraag is dus: Wanneer is data ewekansig en kan dit daarvoor getoets word? Ons gaan ook na
’n toepassing van hierdie probleem kyk. Verder gaan ons net ’n effense blik werp op die skep van hierdie sg ewekansige getalle. Die skep van ewekansige getalle is ’n gespesialiseerde navorsingsgebied op sy eie, maar nietemin. Dus gaan ons net daaraan raak en geen uitvoerige uiteensetting gee nie. Aan die einde van hierdie essay gaan ons dus kyk na een of twee van die eenvoudigste metodes vir die skep van pseudo-ewekansige getalle. En hoekom word die voorvoegsel pseudo- gebruik? Hoe word “werklik” ewekansige getalle deesdae geskep?
Wat is ’n ewekansige getal? Ewe beteken tog gelyk. Dus is dit gelykkansige getalle. In watter opsig is hulle gelyk? Deur hierdie vrae te beantwoord, kom ons gou tot die besef dat
ewekansige getalle allesbehalwe getalle met ewe kanse is, met slegs een uitsondering, ’n besonder belangrike uitsondering, nl die geval van die getalle wat uniform verdeel is. Deur te sê die ewekansige getal moet tussen 0 en 100, beide ingesluit, wees, maak ek reëls. Dit beteken dus sonder meer dat ewekansige getalle aan reëls of voorwaardes onderhewig is.
Beskou dan ook die argumente in die volgende paragraaf.
Ons gee eers konkrete gestalte aan die begrip ewekansigheid. Skiet in u verbeelding ’n onsydige muntstuk 14 keer op. Skryf die aantal kere wat munt bo val neer. Herhaal hierdie prosedure 30 maal in u gedagtes. Al is die munt onsydig, ook genoem ’n eerlike (in Engels:
honest) muntstuk, weet ons dat die munt nie elke keer 7 uit die 14 opskiete bo sal val nie.
Voltooi hierdie 30 eksperimente deur elke keer u aantal munte (suksesse) uit die 14 opskiete aan te teken. Ons sal aanstons sien hoe ’n mens kan toets of die getalle, dws aantal suksesse per eksperiment, wel ewekansig is, wat natuurlik daarop sal dui dat die muntstuk wel onsydig is. Let op dat hierdie sg ewekansige getalle aan ’n onuitgesproke reël onderworpe is, nl. dat die waarskynlikheid dat munt bo sal val by elke individuele opskiet 0.5 is. Die
binomiaalwaarskynlikheidsverdeling, wat die som van die aantal suksesse in ’n aantal Bernoulli-herhalings beskryf, is dus hier ter sprake.
2
U sou ook kon vra wat die waarskynlikheid is om enige gegewe getal ewekansig uit die getalle 0 tot 100 te kies. Die reël vir enige so ’n getal om te verskyn, is tog 1/101 =
0.00990099…. Ons sien dus dat ewekansigheid in hierdie geval aan die reëls van die diskrete uniforme waarskynlikheidsverdeling moet voldoen om sg ewekansig te wees; dis nou volgens ons beskrywing van ’n ewekansige getal. Die begrip ewekansigheid is dus aan reëls
onderworpe. Ewekansigheid verwys dus na gelyke kanse of waarskynlikhede onderhewig aan of beperk tot sekere vasgestelde reëls. In die normale keuse van ’n ewekansige getal dink ’n mens sonder meer aan “enige” getal, en voer onbewustelik die reël in van ’n heelgetal uit ’n versameling van heelgetalle wat groter of gelyk aan 0 is tot so groot as wat prakties die geval vir die scenario mag wees, asook dat elkeen van die getalle in hierdie versameling ’n gelyke kans het om gekies te word – dus is die diskrete uniforme waarskynlikheidsverdeling ter sprake. Ons pleeg intuïtief hogere statistiek sonder dat ons dit besef. Statistiek is geensins so
’n monster soos baie studente wysgemaak word nie. Dis deel van ons daaglikse logiese denkpatrone.
Veronderstel ek dra nou kennis van al die reël(s) waaraan die ewekansige getal of getalle wat ons soek, of dit nou die binomiaalwaarskynlikheidsverdeling of die diskrete uniforme
waarskynlikheidsverdeling is of wat ook al. Kan ek toets of die versameling getalle wel ewekansig voorkom, dws streng gesproke volgens die voorgeskrewe reëls gekies is? Dis nou as die woord gekies die regte woord is. Daar is verskeie toetsingsmaatstawwe beskikbaar, maar een van die maklikstes om te gebruik, is die sg chikwadraatpassingstoets. Hiervoor moet ons net so ’n kort besoek aldaar aflê. Hoe lyk die chikwadraatverdeling en hoe word dit toegepas?
In vorige artikels het ek al na die gammaverdeling of meervoudige wagtydverdeling verwys.
Vir spesifieke kombinasies van waardes van die parameters van hierdie verdeling word die chikwadraatverdeling verkry. Daar is ander metodes ook om dit af te lei, maar dis nie nou ter sprake nie. Ons verfris die geheue deur die gammadigtheidsfunksie weer te toon.
Die gammadigtheidsverdeling kan gedefinieer word as die kontinue veranderlike X met funksie g x
(
; ;α λ)
met parameters α en λ (beide > 0) waar diewaarskynlikheidsdigtheidsfunksie vanXsoos volg lyk:
( ) ( ) ( )
1, 0; ;
0, vir enige ander waarde van
e x x x
g x
x
− −
>
= Γ
λ α
λ λ
α λ α
In die geval waar X heeltallig is, noem ons dit die Erlang-verdeling. Dan het ons natuurlik ’n waarskynlikheidsverdeling en nie ’n digtheid nie.1 Vervang die parameters soos volg:
1 2k
α = en 1
= 2
λ . Nou het ons dieχk2-verdelingmet k vryheidsgrade. Hier is dit nuttig om te onthou dat 1
2 Γ =
π .2
1 Dis nou om pedanties die korrekte benaming te gebruik.
2 Laasgenoemde resultaat kan baie maklik mbv integrasie van die gammafunksie bewys word.
3
Die vryheidsgrade hou oa met die aantal waarnemings en kategorieë van veranderlikes verband. Hierdie chikwadraatverdeling het k n= −1 vg (vryheidsgrade), waar n dui op die aantal tipes of selle wat data bevat en λ soos gewoonlik op die gemiddelde voorkomskoers per tydseenheid wys. Dit is die werklike agtergrond, maar dis ook nou erg teoreties en is nie hier van belang nie.
Definieer nou
( )
21
n i i
i i
Y O E E
=
=
∑
−Dit kan aangetoon word3 dat Y die chikwadraatverdeling met k vg het4, dws χk n2= −1. Verder is Oi die waargenome waarde van die iste sel en Ei die verwagte waarde van die iste sel.
Indien bostaande ietwat na Grieks klink, lees gerus nou oor ’n toepassing wat werklik plaasgevind het, sodat dit duideliker kan word.
Gregor Johann Mendel5 se teorie oor die natuurlike oordraging van genetiese eienskappe het op ’n vreemde manier sy inslag gevind.6,7 Aanvanklik is sy bevindings in twyfel getrek, maar metterjare is daar algemeen aanvaar dat hy reg was. Mendel het baie dinge gedoen, maar een daarvan was, in kort, dat hy twee tipes ertjies gekruis het, nl die suiwer geel ertjie met die suiwer groen ertjie.8 Hierdie ertjiepeule bevat geel sowel as groen sade, van nul tot almal, hoeveel sade daar ook al in die peul mag wees.9 Hy het voorspel dat van die
tweedegenerasiesaad 75% geel en 25% groen sal wees. Ervaring uit vorige eksperimente en bepeinsing het tot hierdie hipotese gelei. Sy hipotese kon dus soos volg geskryf word:
0: 1 0.75, en 2 0.25
H π = π = . Een van die eksperimente wat gebruik is om sy hipotese te toets, het 8023 sade opgelewer waarvan O1=6022 geel en O2 =2001 groen was. ’n Mens sou na regte verwag dat indien die hipotese korrek was, die uitslag naastenby soos volg moes lyk, met verwagte frekwensies: E1=8023 0.75 6017.25× = geel ertjies en
2 8023 0.25 2005.75
E = × = groen ertjies. Die resultate van die eksperiment en die voorspelde waardes is nogal baie na aan mekaar. ’n Mens wil dus graag aanvaar dat sy teorie heel waarskynlik korrek was. Hierdie resultate kan nou deur middel van ’n sg passingstoets met die hipotese vergelyk word. Gebruik nou
( )
21
n i i
i i
Y O E E
=
=
∑
− soos hierbo uiteengesit. Dis duidelik hoe groter die verskil tussen die hipotetiese en waargenome waardes is, hoe meer sal hierdie maatstaf toeneem. Hierdie gekwadreerde verskille word individueel gestandaardiseer3 In wiskunde en statistiek beteken “kan aangetoon word” gewoonlik dat dit nie noodwendig ’n eenvoudige proses is nie. Inteendeel, die persoon wat dit sê probeer dikwels, maar darem nie altyd nie, net om die lastige besonderhede te systap. In hierdie geval is dit wel nie te moeilik om aan te toon nie, maar dan kompliseer ons die doel van hierdie essay onnodiglik.
4 Die vryheidsgrade kan onder verskillende scenario’s op verskillende maniere bereken word. Wat hierdie voorbeeld betref, is die aangeduide waarde vir ons doeleindes voldoende, anders kan dinge ietwat lastig raak.
5 https://en.wikipedia.org/wiki/Gregor_Mendel
6 Agresti, A. 2002. Categorical data analysis, 2de uitgawe. Wiley Interscience, p 22.
7 https://en.wikipedia.org/wiki/Mendelian_inheritance
8 https://www.khanacademy.org/science/ap-biology/heredity/mendelian-genetics-ap/a/mendel-and-his-peas
9 https://www.khanacademy.org/science/ap-biology/heredity/mendelian-genetics-ap/a/mendel-and-his-peas
4
deur deling deur die standaardafwyking wat in hierdie geval gelyk is aan die verwagte waarde – ’n eienskap van die chikwadraatverdeling.
Pas dit nou toe op die data, dan is
( ) (
2) (
2)
21
6022 6017.25 2001 2005.75
6017.25 2005.75
0.014999
n i i
i i
Y O E E
=
− − −
= = +
=
∑
In hierdie geval het ons die χ2 12− =χ12-verdeling. Die ooreenstemmende p-waarde is soos volg mbv Excel bereken: = CHISQ.DIST(0.01499999,1,TRUE) wat tot die volgende waarskynlikheid of sg p-waarde lei, nl p=0.097477 0.0975. Dit is dus die
waarskynlikheid om ’n totale gesommeerde gestandaardiseerde afwyking van 0.014999 of swakker (dws groter) te kry, gegewe dat die hipotese korrek is. Hou nou in gedagte dat die p- waarde die waarskynlikheid is om die hipotese te verwerp, al is dit korrek. Om beter
perspektief te kry: Die 0.05-p-waarde se ooreenkomstige berekende waarde sou aan 3.84 gelyk wees teenoor die huidige berekende waarde van 0.014999. Dis duidelik dat
0.014999 3.84 , waar dui op geweldig baie, baie kleiner – in statistiese terme, oftewel in
’n ander ordeklas kleiner. Die gesamentlike verskille tussen Oi en Ei is agterdogwekkend klein om in totaal ’n berekende verskil van slegs 0.014999 te gee.
Hierdie waarde stem ooreen met ’n p-waarde van bykans 0.0975 dat die hipotese foutief is, maw die hipotese is heel moontlik met ’n waarskynlikheid van 0.9025 korrek. Over geset synde, die data pas met ’n berekende waarskynlikheid van 0.9025 by die hipotese. Is dit te goed om waar te wees? RA Fisher het die berekening in 1936 met ’n meer gevorderde uitbreiding van sy toetsingsmaatstaf herhaal. Die p-waarde was toe 0.00004, dws ’n
passingswaardewaarskynlikheid van 0.99996. Dit is net eenvoudig té goed om waar te wees.
Fisher se kommentaar daarop was, verbatim uit Agresti aangehaal10: “The general level of agreement between Mendel’s expectations and his reported results shows that it is closer than would be expected in the best of several thousand repetitions … I have no doubt that Mendel was deceived by a gardening assistant, who knew only too well what his principal expected from each trial made.” Hy skryf verder: “Now, when datas (sic) have been faked, I know very well how generally people underestimate the frequency of wide chance deviations, so that the tendency is always to make them to agree too well with expectations.” Of Fisher korrek was in sy bewering, sal ons natuurlik nooit weet nie.
Soos voorheen gesê, kyk ons ook net baie kortliks en baie oppervlakkig na die wetenskaplike skep van (pseudo-) ewekansige getalle, benewens die algemeen beskikbare tabelle van (uniforme) ewekansige getalle wat in feitlik enige boek oor statistiek gevind kan word. Daar is ’n groot aantal algoritmes waarmee pseudo-ewekansige getalle geskep kan word. Die voorvoegsel pseudo- is van toepassing omdat die waardes steeds kunsmatig geskep word en herhaalbaar is as dieselfde metode gebruik word. Dit is dus nie regtig volkome
onvoorspelbaar ewekansig nie. Menige hiervan is variasies van sekere ander algoritmes en sommige algoritmes is samevoegings om dit hopelik meer ewekansig te maak. Hierdie
onderwerp is egter werklik ingewikkeld en hier word geen poging aangewend om meer as net
10 Verbatim aangehaal uit Agresti, A. 2002. Categorical data analysis, 2de uitgawe. Wiley Interscience, p 23.
5
van die basiese beginsels weer te gee nie. Die voorbeeld wat hier onder uiteengesit word, word op minstens twee maniere gedefinieer. Ek gaan ’n voorbeeld toon wat slegs een van die variasies ten toon stel, nl een van die sg lineêre kongruente generators.
Veronderstel ons wil ewekansige getalle uit die uniforme
[
0,m−1]
-waarskynlikheidsmassaverdeling skep. Dan kan u soos volg van ’n rekursiewe algoritme gebruik maak:
Stel xi =
(
axi−1+c)
mod( )
m waar x ai, enc heelgetalle is wat 0 en m – 1 insluit, en( )
mod
k m is die reswaarde wanneer k deur m gedeel word. ’n Ander variasie is feitlik identies, maar sonder die hakies, nl x axi = i−1+cmod
( )
m . Die verlangde ry ewekansige getalle is dan die xim
-reswaardes. Die getalle a en c is willekeurig en staan as sg
saadgetalle (“seeding values”) bekend. Die keuse van die saadgetalle is arbitrêr/ewekansig of na goeddunke, maar dit speel ’n belangrike rol in die vlak van ewekansigheid van die reeks wat gegenereer word. Dit is ook geen eenvoudige taak om die “beste” saadgetalle te vind nie.
Let op dat diemod
( )
m -gedeelte in die formule tot gevolg het dat slegs waardes van0, , m−1 moontlik is. Een van die eienskappe van ’n “goeie” ewekansige reeks waardes is dan ook hoe lank dit neem voordat die reeks homself begin herhaal.
Beskou die geval waar a=71;x0 =79; c=263 en m=101 as voorbeeld. Dan volg dat
( ) ( )
( )
1 263 79 71 mod 100 20848mod 100
48
x = × +
=
=
( ) ( )
( )
2 263 48 71 mod 100 12695mod 100
95
x = × +
=
=
( ) ( )
( )
3 263 95 71 mod 100 25056mod 100
56
x = × +
=
=
( ) ( )
( )
4 263 56 71 mod 100 14799mod 100
99 ens
x = × +
=
=
In ’n poging om ewekansigheid te versterk, word verskillende reekse pseudo-ewekansige getalle op verskillende maniere bymekaargevoeg. Een so ’n voorbeeld is een van die Wichmann-Hill generators.11 Let op dat daar ’n verskeidenheid van Wichmann-Hill
11 https://en.wikipedia.org/wiki/Random_number_generation
6
generators bestaan. Dis ook wetenswaardig dat Excel van die sg Mersenne Twister-algoritme (MT19937) gebruik maak om ewekansige getalle te genereer.12
Bostaande geskepte ewekansige waardes sou beskou kon word as synde uit ’n uniforme verdeling afkomstig. ’n Meer spesifieke benadering wat as ’n Monte Carlo-benadering
bekend is, is soos volg om ewekansige waardes uit ander waarskynlikheidsverdelings te skep:
Beskou die veranderlike X ~ f xX
( )
met n vg met F xX( )
die kumulatiewe verdelingsfunksie (vf) en X kontinu. Dan lei ons die verdeling van Y F x= X( )
af. Ons weet dat vir Y F x= X( )
is dy f xX
( )
dx = . Verder beskou ons die sg determinant van die Jakobiaan, nl J = f xX1
( )
.13 Dus volg dat( ) ( ) ( )
1( )
1, 0 1,Y X X
X
f y f x J f x y
= ⋅ = ⋅ f x = < <
dws Y F x= X
( )
het ’n uniforme (0,1)-verdeling. Hierdie eienskap van alle vf’s is nuttig wanneer ’n ewekansige versameling van waardes (waarnemings) van ’n gegewe verdeling gegenereer moet word, soos ons weldra sal sien.14 Dit beantwoord die vraag oor die beheptheid met uniforme data. Die rede is dat deur van verskillende tegnieke gebruik te maak, ewekansige waardes uit ander verdelings geskep kan word deur van slegs die waardes uit ’n uniforme verdeling gebruik te maak. Hier volg ’n voorbeeld:In die geval van diskrete data kan ’n mens soos volg te werk gaan: As u ’n ewekansige getal x vanuit ’n diskrete veranderlike X ~ f xX
( )
wil skep, laat r enige ewekansige getal uit ’n uniforme (0;1)-verdeling wees. Laat x dan die kleinste getal wees sodanig dat( )
1 x i X
f i r
=
∑
≥ , dws F x( )
r.Die opdrag kan byvoorbeeld wees om 10 ewekansige getalle uit ’n binomiaal- (12;0.4) verdeling te skep. Begin deur 10 uniforme ewekansige getalle uit ’n tabel van ewekansige getalle te neem of op watter wyse ook al, of bv mbv Excel se funksie15 sodanig dat hierdie getalle uit die versameling van getalle van 0 tot 1 ingesluit kom, dws 10 uniforme [0,1]- waardes. Veronderstel die waardes is 0.30, 0.77, 0.19, 0.01, 0.45, 0.07, 0.57, 0.36, 0.67 en 0.95. Gebruik nou ’n tabel vir die waarskynlikhede van die binomiaalverdeling waar π =0.4 en n=12. Bepaal nou die kleinste waarde van x waarvoor die kumulatiewe waarskynlikhede
12 https://support.microsoft.com/en-us/office/rand-function-4cbfa695-8869-4788-8d90-021ea9f5be73
13 Dink hier itv transformasies as deel van integrasietegnieke. As u dit al gebruik het, het u met die Jakobiaan gewerk sonder dat u eens daarvan bewus was.
14
https://en.wikipedia.org/wiki/Jacobian_matrix_and_determinant#:~:text=Specializing%20further%2C%20whe n%20m%20%3D%20n,Jacobi%20(1804%E2%80%931851).
15 In Excel: =RANDARRAY(10,1,0,1,FALSE) lewer 10 rye van lengte een ELEMENT elk (aantal kolomme) met ’n minimumwaarde van 0 en ’n maksimumwaarde van 1, FALSE = desimale getalle ingesluit.
7
minstens soveel is as elk van die gekose waardes r. Hierdie x’e is nou my gesogte uniforme
(
0;12 ; 0.4)
-waardes.
’n Uittreksel uit die binomiaalverdeling se tabelle lyk soos volg met die ooreenstemmende oplossing daarna:
Kumulatiewe waarskynlikhede vir die binomiaalwaarskynlikheidsverdeling vir p = 0.4 met n = 12
x Kumulatiewe waarskynlikheid
0 0.0022
1 0.0196
2 0.0834
3 0.2253
4 0.4382
5 0.6652
6 0.8418
7 0.9427
8 0.9847
9 0.9972
10 0.9997
11 1.0000
12 1.0000
ewekansige [0;1]-waardes r
0.30 4 Vir die waarskynlikheid om groter as 0.30 te wees, moet x minstens = 4 of meer wees.
0.77 6 Vir die waarskynlikheid om groter as 0.77 te wees, moet x minstens = 6 of meer wees.
0.19 2 Vir die waarskynlikheid om groter as 0.19 te wees, moet x minstens = 2 of meer wees.
0.01 1 Ens
0.45 5 Ens
0.17 3
0.57 5
0.36 4
0.67 6
0.95 8
Die r-waardes in kolom 2 is dus my 10 ewekansige
(
0;12 ; 0.4)
- binomiaalverdelingwaardes. Effe later volg ’n meer algemene en uiters belangrike opmerking hieroor, nl die rol van ewekansige uniforme waardes in die simulasie van ewekansige waarnemings uit ander verdelings. Meer besonderhede oor die keuse en effek van saadwaardes kan baie nuttig wees en daarom voeg ek ’n nuttige verwysing by.16Die vraag wat natuurlik volg, is wat dan van ewekansige waardes uit kontinue verdelings?
Hier speel die normaal- en gammaverdelings, waarvan die eksponensiale verdeling ’n
16 https://www.eg.bucknell.edu/~xmeng/Course/CS6337/Note/master/node40.html
8
belangrike spesiale geval is, ’n sentrale rol. Gegewe ’n aantal eksponensiaal ewekansige waardes kan ’n magdom ewekansige waardes uit ander kontinue verdelings geskep word.
Veronderstel ons wil ’n ewekansige getal x uit ’n kontinue verdeling X ~ f xX
( )
skep. Laat y die ewekansige getal uit ’n uniforme [0;1] verdeling wees. Soos hier bo, laat F xX( )
= y. Maak x die onderwerp van die formule. Dan is x die ewekansige getal uit die betrokke verdeling. Indien X ~ exp( )
λ , is F xX( )
= −1 e−λx, x>0. Skryf nou 1−e−λx = y en maak x die onderwerp van die formule. Dan is die inverse funksie( )
1 log 1
x λ y
⇒ = − − , wat dan die gesogte ewekansige getal is.17
Voorbeeld: Skep 10 ewekansige eksponensiaal-(4)-waardes. Gebruik dieselfde 10 uniforme waardes van hierbo. Dan is die ewekansige eksponensiaalwaardes soos volg:
Ewekansige [0;1]-waardes Ewekansige eksp-(4)-waardes
0.30 1log 1
( )
1log 1 0.30( )
0.0892x= − −y = −4 − = λ
0.77 1log 1
( )
1log 1 0.77( )
0.175 0.3674x= − −y = −4 − = =
0.19 0.05268 λ
0.01 0.00251
0.45 0.14946
0.17 0.04658
0.57 0.21100
0.36 0.11157
0.67 0.27717
0.95 0.74893
Die uniforme verdeling saam met die eksponensiaalverdeling is kragtige generators van ewekansige waarnemings uit vele ander verdelings, omdat baie verdelings uit hierdie twee genoemde verdelings saamgestel kan word. ’n Paar voorbeelde word hier onder aangetoon.
Veronderstel u het reeds ewekansige waarnemings van 0 tot 1000 uit ’n [0;1000]- uniforme verdeling geskep, of uit ’n uniforme [0;1]-verdeling deur net eenvoudig die 1000 waardes deur 1000 te deel as u so sou wou vir desimalewaardedoeleindes
• Die sentrale limietstelling lei daartoe dat ’n mens kan aantoon dat die som van 12 uniforme ewekansige waarnemings uit ’n
[ ]
0,1 - uniforme verdeling ’n ewekansige waarneming uit ’n benaderde normaalverdeelde populasie met verwagte waarde van 6 en ’n variansie van 1 is. As ’n mens die bewering goed deurdink, is dit logies sonder ingewikkelde bewyse. Deur ’n eenvoudige transformasie lei dit direk tot ’n17 Dit is natuurlik nie altyd so maklik om die inverse funksie te vind nie. Daarvoor is ander tegnieke ontwikkel om ewekansige getalle uit spesifieke verdelings te genereer. Rekenaarsagteware is geredelik beskikbaar vir ’n verskeidenheid van hierdie generators. Verskeie van hierdie toepassings kan per hand gedoen word en ’n rekenaar is nie noodwendig altyd daarvoor nodig nie.
9
ewekansige waarneming uit ’n N
(
µ =6,σ2 =1)
-verdeling. Dus, as r ii(
=1, ,12)
12 ewekansig gegenereerde waardes uit ’n uniforme (0;1)-verdeling is, volg dit dat12 1
i 6
i
x σ r µ
=
= − +
∑
’n ewekansige waarde uit ’n N
(
µ σ; 2)
-verdeling is waar u self dan die waardes van µen σna verlange kan spesifiseer.• As Xi ~ exp
( )
λ , i=1, , , k onafhanklik vir i=1, , k, volg dit dat( )
~ ;
Xi gamma k λ
∑
. Dit beteken dat die som van 5 onafhanklike waardes wat vir die exp( )
λ -verdeling geskep is ’n enkele ewekansige waarde uit die gamma( )
5;λ - verdeling is.• As X gamma a b~
( )
; en ~Y gamma c b( )
; met X en Y onafhanklik, volg dit dat o U X ~be a c1( )
;= X Y
+ , nl die beta-1-verdeling en o V X ~be a c2
( )
;= Y , nl die beta-2-verdeling.
So is daar nog verskeie statistiese verbande beskikbaar om ewekansige getalle vir statistiese verdelings met die oog op simulasie te skep.
Hier bo is daar net geraak aan die begrip van ewekansige getalle. Dis duidelik dat die
onderlinge verbande tussen statistiese verdelings die wêreld oopmaak vir sulke waarnemings uit ’n verskeidenheid nuwe verdelings. Daarom is ’n studie van verdelingsleer in statistiek nie net fassinerend nie, maar ook uiters nuttig.
Net ’n opmerking oor ware ewekansige getalle. In hierdie geval word onder andere na atoomfrekwensies, asook die aantal elektrone of neutrone in vasgestelde tydsintervalle vrygestel, en sulke eksotiese benaderings gekyk. Daar is natuurlik nog heelwat ander sulke fenomene, maar dis duidelik dat hierdie gedagtes buite die gesigsveld van hierdie essay val.