www.vorhilfe.de
Vorhilfe

Kostenlose Kommunikationsplattform für gegenseitige Hilfestellungen.
Hallo Gast!einloggen | registrieren ]
Startseite · Forum · Wissen · Kurse · Mitglieder · Team · Impressum
Navigation
 Startseite...
 Neuerdings beta neu
 Forum...
 vorwissen
   Einstieg
   
   Index aller Artikel
   
   Hilfe / Dokumentation
   Richtlinien
   Textgestaltung
 vorkurse...
 Werkzeuge...
 Nachhilfevermittlung beta...
 Online-Spiele beta
 Suchen
 Verein...
 Impressum
Das Projekt
Server und Internetanbindung werden durch Spenden finanziert.
Organisiert wird das Projekt von unserem Koordinatorenteam.
Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.
Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".
Partnerseiten
Weitere Fächer:

Open Source FunktionenplotterFunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme
Regressionsgerade
Mach mit! und verbessere/erweitere diesen Artikel!
Artikel • Seite bearbeiten • Versionen/Autoren

Regressionsgerade

Einleitung:

In vielen Zusammenhängen ist es sinnvoll, experimentelle oder statistische Daten durch einfache mathematische Modelle zu approximieren. Besonders wichtig - weil besonders einfach - sind dabei lineare Approximationen. Viele naturwissenschaftliche Gesetze beruhen auf Entdeckungen linearer oder doch wenigstens ungefähr linearer Zusammenhänge zwischen Messgrößen.

Deshalb ist die Aufgabe, zu einer Reihe von Datenpunkten eine möglichst gut passende Gerade zu finden, eine Standardaufgabe der Statistik.  


Herleitung der Gleichung der Regressions- oder Ausgleichsgeraden:

Gegeben seien die Punkte  

$ P_1(x_1|y_1), P_2(x_2|y_2), P_3(x_3|y_3),\ldots\, , P_n(x_n|y_n) $

welche in der x-y-Ebene ungefähr geradlinig angeordnet sind.

Gesucht ist jene Gerade  g , welche den linearen Zusammenhang bestmöglich approximiert. Das Kriterium dazu ergibt sich aus der Methode der kleinsten  Fehlerquadrat-Summe von Carl Friedrich Gauß.

Die gesuchte Gerade  g  hat eine Gleichung der Form  y=m*x+b .

Der Punkt  $ P_i(x_i/y_i) $  hat in y-Richtung den Abstand  $ \Delta y_i=|y_i-(m\cdot{}x_i+b)| $ von der Geraden g. Nun soll die Summe der Quadrate dieser "Residuen" minimiert werden:

$ S=\summe_{i=1}^{n}(\Delta{y_i})^2=\summe_{i=1}^{n}(y_i-(m\cdot{}x_i+b))^2\ \to \ \text{Min}\quad ! $

Ausmultipliziert ergibt dies:

$ S=\summe_{i=1}^{n}(m^2{x_i}^2-2\,m\,{x_i}\,{y_i}+{y_i}^2+2\,m\,b\,{x_i}-2\,b\,{y_i}+b^2) $

$ =\ m^2\,\underbrace{\summe_{i=1}^{n}{x_i}^2}_{SXX}-\ 2\,m\,\underbrace{\summe_{i=1}^{n}{x_i}\,{y_i}}_{SXY}\ +\ \underbrace{\summe_{i=1}^{n}{y_i}^2}_{SYY}+\ 2\,m\,b\,\underbrace{\summe_{i=1}^{n}{x_i}}_{SX}\ -\ 2\,b\,\underbrace{\summe_{i=1}^{n}{y_i}}_{SY}+\ n\,b^2 $

$ =m^2\,SXX-2\,m\,SXY+SYY+2\,m\,b\,SX-2\,b\,SY+n\,b^2 $

Diese Funktion  $ \ S(m,b) $  hat  ( ausser im Fall $ \ x_1=x_2= ..... =x_n $ )  genau ein Extremum, und zwar ein Minimum, an der Stelle, wo die beiden partiellen Ableitungen verschwinden:

$ \bruch{\partial{S}}{\partial{m}}=2\,SXX\,m-2\,SXY+2\,SX\,b=0 $

$ \bruch{\partial{S}}{\partial{b}}=2\,SX\,m-2\,SY+2\,n\,b=0 $

Das entstandene Gleichungssystem kann man auch in dieser Form schreiben:

$ SXX\cdot{}m+SX\cdot{}b\ =\ SXY $

$ SX\ \cdot{}m+\ \ \ n\cdot{}b\ =\ SY $

Auflösung nach der Cramerschen Regel:

$ m=\bruch{\vmat{ SXY & SX \\ SY & n }}{\vmat{ SXX & SX \\ SX & n }}=\bruch{n\cdot{}SXY-SX\cdot{}SY}{n\cdot{}SXX-(SX)^2} $

$ b=\bruch{\vmat{ SXX & SXY \\ SX & SY }}{\vmat{ SXX & SX \\ SX & n }}=\bruch{SY\cdot{}SXX-SX\cdot{}SXY}{n\cdot{}SXX-(SX)^2} $


Für die Praxis gibt es auch andere Berechnungsmethoden, bei welchen man z.B. von einer provisorisch gewählten Geraden ausgeht. Die Berechnung der Regressionsgeraden ist standardmässig in vielen graphischen Taschenrechnern eingebaut, und im Internet findet man viele Applets, die dies durchführen, zum Beispiel bei mathe-online.at.


Ein Rechenbeispiel:

Ausgleichsgerade durch  n=5  Punkte

   $ \ i $              $ \ x $                $ \ y $                  $ x^2 $                $ \ xy $                 $ y^2 $

   1             3                8                    9                24                 64
   2             6                7                  36                42                 49
   3             9                3                  81                27                   9
   4           13                4                169                52                 16
   5           15                2                225                30                   4

        SX= 46     SY= 24      SXX= 520   SXY= 175   SYY= 142


Gleichung der Ausgleichsgeraden:      y = m x + b


$ m=\bruch{5\cdot{}175-46\cdot{}24}{5\cdot{}520-46^2}\ =\  -\ 0.473 $

$ b=\bruch{24\cdot{}520-46\cdot{}175}{5\cdot{}520-46^2}\ =\ \  9.15 $


Also       g:   y = - 0.473 x + 9.15


Alternative Berechnungsmethode:

Aus den oben hergeleiteten Formeln kann man einen anderen Formelsatz herleiten, bei welchem man zuerst die Mittelwerte  $ \bar{x} $  und  $ \bar{y} $  bestimmt:


  1. $ \bar{x}\ =\ \bruch{1}{n}\cdot{}\summe_{i=1}^{n}x_i\qquad\qquad\bar{y}\ =\ \bruch{1}{n}\cdot{}\summe_{i=1}^{n}y_i $
  2. $ \ m\ =\ \ \bruch{\,\summe_{i=1}^{n}(x_i-\bar{x})\cdot{}(y_i-\bar{y})}{\summe_{i=1}^{n}(x_i-\bar{x})^2} $
  3. $ \ b\ =\ \bar{y}-m\cdot{}\bar{x} $

Vorteile dieser Methode:

Der gesamte Rechenaufwand ist zwar nur geringfügig kleiner als nach der anderen Methode, ein Vorteil besteht aber darin, dass die zu berechnenden Produkte im Allgemeinen deutlich kleiner sind.


Einschränkung:

Die oben dargestellte Methode der kleinsten Quadratsumme der in y-Richtung gemessenen Residuen  $ \Delta{y}_i\ =\ |y_i-(m\,x_i+b)| $  ist besonders dann geeignet, falls sich die Datenpunkte  $ \ P_1\,,\, P_2\,, .....\, ,\, P_n $  ungefähr entlang einer Geraden mit einer kleinen Steigung  |m|  verteilen. Ist dies aufgrund der Sichtung des Datenmaterials nicht der Fall, ist es angezeigt, nach besseren Methoden Ausschau zu halten, um die Gerade zu bestimmen, welche die "Punktwolke" am besten approximiert bzw. linearisiert. Siehe dazu beispielsweise die folgende Forumsdiskussion: 469873
Bemerkung: die dort beschriebene Methode der sukzessiven Approximation ist noch nicht das "Gelbe vom Ei". Eine exakte Methode benützt die Methode der Eigenvektoren.

Erstellt: Mi 07.01.2009 von Al-Chwarizmi
Letzte Änderung: Do 19.11.2009 um 04:42 von Al-Chwarizmi
Weitere Autoren: Marc
Artikel • Seite bearbeiten • Versionen/Autoren • Titel ändern • Artikel löschen • Quelltext

^ Seitenanfang ^
www.mathebank.de
[ Startseite | Forum | Wissen | Kurse | Mitglieder | Team | Impressum ]