hide random home http://medweb.uni-muenster.de/people/fischca/Stunde3.html (Einblicke ins Internet, 10/1995)

Deskriptive Statistik II Institut für Informatik und Biomathematik
Während einer nur Zahlen und Zeichen im Kopf hat, kann er nicht dem Kausalzusammenhang auf die Spur kommen. (Schopenhauer)

3. Deskriptive Statistik II


Die bisherigen Auswertungen beschränkten sich auf die Betrachtung eines Merkmals. Will man die Abhängigkeiten zwischen Merkmalen untersuchen, braucht man Auswertungsmethoden, die mehr als ein Merkmal einbeziehen.

3.1. Kontingenztafel

Die Kontingenztafel ist die geeignete tabellarische Darstellung für die Häufigkeitsverteilung zweier qualitativer oder quantitativer diskreter Merkmale. Stetige Merkmale müssen für diese Darstellung klassiert werden.

Tab. 3.1 enthält von 20 Patienten einer klinischen Studie die Daten zu den Merkmalen Therapie, Therapieergebnis, Geschlecht und Alter.

Tabelle 3.1: Therapie, Therapieergebnis, Geschlecht und Alter für 20 Patienten
ld.TherapieTherapieergebnis GeschlechtAlter
1TAD/TADPRWEIBLICH19
2TAD/HAMEDMÄNNL.55
3TAD/TADNRWEIBLICH48
4TAD/TADCRWEIBLICH49
5TAD/HAMPRMÄNNL.32
6TAD/HAMCRWEIBLICH22
7TAD/TADCRWEIBLICH43
8TAD/TADCRMÄNNL.44
9TAD/HAMCRWEIBLICH24
10TAD/TADCRWEIBLICH36
11TAD/HAMEDMÄNNL.38
12TAD/TADCRMÄNNL.55
13TAD/TADCRWEIBLICH28
14TAD/HAMCRMÄNNL.48
15TAD/HAMNRWEIBLICH35
16TAD/TADCRWEIBLICH43
17TAD/HAMCRWEIBLICH37
18TAD/HAMCRWEIBLICH49
19TAD/TADCRWEIBLICH36
20TAD/HAMEDWEIBLICH29

Stellen Sie in Tabelle 3.2 die Kontingenztafel für die beiden qualitativen Merkmale "Therapie" und "Therapieergebnis" auf.

Vergleichen Sie die Ergebnisse in den beiden Therapiearmen. Berechnen Sie hierzu die Zeilenprozente und tragen Sie sie in Tabelle 3.2 ein.

(a) Welche Häufigkeitsverteilung würde man erwarten, wenn beide Therapien gleich gut wären?

Tabelle 3.2: Therapie und Therapieerfolg
TherapieErgebnis Zeilensumme
CRPRNRED
TAD/TAD
Zeilenprozent
... ..
TAD/HAM
Zeilenprozent
... ..
Spaltensumme
Zeilenprozent
... ..

Tabelle 3.3 enthält die Daten für die Merkmale "Therapie" und "Therapieerfolg" von allen 140 Patienten.

(b) Wie beurteilen Sie danach die beiden Therapien?

Tabelle 3.3: Therapie und Therapieerfolg bei 140 Patienten einer klinischen Studie

TherapieTherapieergebnis Total
CRPRNRED
TAD/TAD48
65.75
5
6.85
13
17.81
7
9.59
73
TAD/HAM47
70.15
3
4.48
12
17.91
5
7.46
67
Total9582512 120


3.2. Regression und Korrelation

Den Zusammenhang zweier stetiger Merkmale veranschaulicht man sich mit Hilfe einer Punktwolke. Tabelle 3.4 enthält von 15 Patienten die Angaben zum diastolischen und zum systolischen Blutdruck, die in Abbildung 3.1 als Punktwolke dargestellt sind. Der diastolische Blutdruck ist an der x-Achse, der systolische an der y-Achse abgetragen.

Zeichnen Sie in Abbildung 3.1 die beiden Regressionsgeraden ein.

Die erforderlichen Hilfsrechnungen sind in Tabelle 3.5 bereits ausgeführt.

Interpretieren Sie die beiden empirischen Regressionskoeffizienten b1 und a1 (8) und den empirischen Korrelationskoeffizienten r (14).

Welcher Zusammenhang besteht zwischen a1, b1 und r?

Tabelle 3.4: Diastolischer und systolischer Blutdruck von 15 Patienten

Lfd. Nr.RRdiasRRsys
180120
270115
380125
470110
570115
680130
785140
875120
975125
1090150
1180140
1270135
1395140
1475130
1590145

Abb. 3.1: Punktwolke für die Merkmale "systolischer" und "diastolischer Blutdruck"

Tabelle 3.5: Regressions- und Korrelationsrechnung


       RRdias                                  RRsys                         

(1)                   1185             (1)                    1940           
SUM x SUB i                            SUM y SUB i                           

(2)                   79.00            (2)                    129.33         
OVERLINE x = SUM x                     OVERLINE y = SUM y                    
SUB i ~/ n                             SUB i~/n                              

(3)                   94525            (3)                    252950         
SUM {x_i^2}                            SUM {y_i^2}                           

(4)                   93615            (4)                    250907         
LEFT(~ SUM x_i                         LEFT(~ SUM y_i                        
~RIGHT)^2~/n                           ~RIGHT)^2~/n                          

(5)                   910              (5)                    2043           
S_{xx} ~= ~(3)~ -~                     S_{yy}~ = ~ (3)~ -~                   
(4)                                    (4)                                   

(6)                   65.00            (6)                    145.93         
{s_x^2}~=~S_{xx}~/~(n                  {s_y^2}~=~S_{yy}~/~(n~                
~-~1)                                  -~1)                                  

(7)                   8.0623           (7)                    12.0811        
s_x~=~SQRT{s_x^2}                      s_y~=~SQRT{s_y^2}                     

(8)                   1.1703           (8)                    0.5212         
b_1 ` = `                              a_1 ` = `                             
S_{xy}~/S_{xx} ` = `                   S_{xy}/S_{yy}~=~(13)/(                
(13)/(5)                               5)                                    

(9)                   36.8773          (9)                    11.5905        
b_0~=~ OVERLINE                        a_0~=~ OVERLINE                       
y~-~b_1 CDOT                           x~-~a_1 CDOT OVERLINE                 
OVERLINE x                             y                                     

(10)                  y=1.17x+36.88    (10)                   x=0.52y+11.59  
y~=~b_0~+~b_1 CDOT x                   x~=~a_0~+~a_1 CDOT y                  

(11)                                   154325                                
SUM x_i CDOT y_i                                                             

(12)                                   153260                                
LEFT( ` SUM x_i `                                                            
RIGHT ) ~CDOT~ LEFT(                                                         
` SUM y_i RIGHT) ~/n                                                         

(13)                                   1065                                  
S_{xy}~=~(11)~-~(12)                                                         

(14)                                   0.781                                 
r~=~S_{xy}~/                                                                 
SQRT{S_{xx} CDOT                                                             
S_{yy}}                                                                      



3.3. Schätzung der Überlebensraten nach KaplanMeier


Abb. 3.2: Kaplan-Meier-Schätzung der Überlebenszeiten

Tabelle 3.6 enthält aus einem Tierversuch 20 Überlebenszeiten in Tagen. Die Zeiten sind bereits aufsteigend sortiert. An den mit ( + ) gekennzeichneten Zeitpunkten endet die Beobachtungszeit, ohne daß das betrachtete Ereignis (hier Tod des Versuchstiers) eingetreten ist. Solche am Stichtag der Auswertung noch anhaltenden Überlebenszeiten nennt man zensiert.

Geben Sie weitere Beispiele für zensierte Überlebenzeiten an.

Berechnen Sie die Überlebensraten nach KaplanMeier, indem Sie Tabelle 3.6 ergänzen.

Zeichnen Sie die resultierende Schätzung als Treppenfunktion in Abbildung 3.2 ein. Markieren Sie die zensierten Überlebenszeiten im Diagramm durch kleine Ticks.

Geben Sie in der Abbildung auch den Stichprobenumfang und die Anzahl der zensierten Beobachtungen an.

Geben Sie den empirischen Median

x TILDE

der Überlebenszeiten an. Sie erhalten

x TILDE

aus dem Diagramm als x-Koordinate des Schnittpunkts der Treppenfunktion mit der 0.5Horizontalen.

Tabelle 3.6: Rechenschema zum Kaplan-Meier-Schätzer


i    Tage     im        Ereignisse  Anteil Überlebender  kumulative              
              Risiko                                     Überlebensrate          

                                                                                 
     t SUB i  n SUB i   d SUB i     (n SUB i~-~d SUB i)  (n_1~-~d_1 ` )~/n_1     
                                    n SUB i              CDOT DOTSLOW  CDOT      
                                                         (n_i~-~d_i ` )~/n_i     

0    0        20        0           20/20= 1             1                       

1    30       20        1           19/20= 0.9500        0.9500                  

2    40       19        1           18/19= 0.9474        0.9000                  

3    43   +   18        0           18/18= 1             0.9000                  

4    50       17        1           16/17= 0.9412        0.8471                  

5    65   +   16        0           16/16= 1             0.8471                  

6    70                                                                          

7    70       15        2           13/15= 0.8667        0.7341                  

8    85       13        1           12/13= 0.9231        0.6776                  

9    90                                                                          

10   120                                                                         

11   125  +                                                                      

12   135  +                                                                      

13   140  +                                                                      

14   150                                                                         

15   160                                                                         

16   175  +                                                                      

17   220  +                                                                      

18   225  +                                                                      

19   235  +                                                                      

20   250  +                                                                      



Empirischer Median:

x TILDE

= Tage