Inhalt |
---|
Einfache, lineare Regression |
Tabelle der Signifikanzschranken der F-Verteilung für P=0,05 |
Tabelle der Signifikanzschranken der F-Verteilung für P=0,01 |
einfachste funktionale Beziehung zwischen 2 Merkmalen
= einfache, lineare Regression
yi = + ß xi
und ß sind
Populationsparameter
Gleichung = Gleichung für Gerade
= Schnittpunkt der Linie mit Y-Achse
ß = Steigung der Geraden
Die Beziehung wird durch eine Linie beschreiben.
Frage: Wie
findet man die Linie, die die Daten am besten "ausgleicht"?
Lösung: Durch die Methode der
kleinsten Quadrate.
jeder Wert x hat entsprechenden Wert y auf der Geraden
y = beobachteter Wert
= Wert auf der Geraden (geschätzt)
=> beobachteter Datenpunkt (xi, yi)
Punkt auf Regressionslinie = (xi,)
Kriterium der kleinsten Quadrate betrachtet die Abweichung jedes
Punktes von der Linie, i.e. yi -
beste Anpassung: kleinster Wert der
Summe der Abweichungen für alle Punkte yi
und
n = Anzahl Datenpunkte
und ß der Population nur dann zu berechnen, wenn
alle Populationswerte vorliegen
=> und ß der Population auf Basis der n Beobachtungen
schätzen
wird zuerst berechnet
unendliche Anzahl Geraden mit identischer Steigung
spezielle Gerade bestimmt durch Steigung und ein Punktepaar x / y
auf der Geraden
per Konvention der Punkt gewählt, an dem die Y-Achse
durchschnitten wird
=> dort, wo x = 0
= Y - Achsendurchgang
es kann mathematisch gezeigt werden, daß der Punkt immer auf der Ausgleichsgeraden liegt, falls
in Geradengleichung substituiert wird, folgt
damit folgt
falls a und b bekannt, kann für jeden x -Wert der
entsprechende y -Wert bestimmt werden
falls Gerade gezeichnet werden soll: 2 Extreme nehmen
Schätzung von y nur für Bereich zulässig, für den Daten
vorhanden sind
können Regressionsgerade herleiten und b bestimmen
b0
folgt daraus ß0 ?
Hypothese bilden
H0: ß = 0
HA: ß0
falls Schluß, das angemessene Wahrscheinlichkeit, daß
kalkuliertes b aus Population mit ß = 0 kommt, wird H0
nicht verworfen
zuerst gesamte Variabilität der abhängigen Variablen kalkulieren
dann Variabilität, die daher stammt, daß Regressionsbeziehung existiert:
= SQ Regression
SQreg = SQges nur, falls alle Punkte auf der Regressionsgeraden
liegen
falls Abweichungen von Regressionsgeraden (= wahrscheinlicher
Fall)
=> Reststreuung/ Fehlerstreuung
Art | SQ | FG | MQ | F |
---|---|---|---|---|
Gesamt | ![]() |
n-1 | ||
Regression | ![]() |
1* | SQ/1 | |
Residual | ![]() |
n-2 | SQ/(n-2) | ![]() |
* Anzahl Parameter, die geschätzt werden, -1, hier a und ß = 2 1 = 1
F wird mit verglichen
falls F >
=> H0: ß = 0 verwerfen
=> d.h. Regressionsbeziehung gerechtfertigt
MQres wird oft auch als Standardfehler der Regression oder Standardfehler der Schätzung mit s2y,x bezeichnet => Varianz von y nachdem die Abhängig von y von x in Betracht gezogen wurde
der Anteil der Gesamtstreuung von y, der durch die Beziehung von y und x definiert wird, = Bestimtheitsmaß r2
r2 = SQreg / SQges
Letzte Änderung: 20.09.1999
Kontakt: Wolfgang Stümer