Lineare vs logistische Regression
Bei der statistischen Analyse ist es wichtig, die Beziehungen zwischen den betroffenen Variablen für die Studie zu identifizieren. Manchmal kann dies der einzige Zweck der Analyse selbst sein. Ein starkes Instrument, um die Existenz einer Beziehung festzustellen und die Beziehung zu identifizieren, ist die Regressionsanalyse.
Die einfachste Form der Regressionsanalyse ist die lineare Regression, bei der die Beziehung zwischen den Variablen eine lineare Beziehung ist. In statistischer Hinsicht wird die Beziehung zwischen der erklärenden Variablen und der Antwortvariablen hervorgehoben. Mithilfe der Regression können wir beispielsweise die Beziehung zwischen dem Rohstoffpreis und dem Verbrauch anhand von Daten ermitteln, die aus einer Zufallsstichprobe stammen. Die Regressionsanalyse erzeugt eine Regressionsfunktion des Datensatzes, bei der es sich um ein mathematisches Modell handelt, das am besten zu den verfügbaren Daten passt. Dies kann leicht durch ein Streudiagramm dargestellt werden. Die grafische Regression entspricht dem Finden der am besten passenden Kurve für den angegebenen Datensatz. Die Funktion der Kurve ist die Regressionsfunktion. Unter Verwendung des mathematischen Modells kann die Verwendung einer Ware für einen bestimmten Preis vorhergesagt werden.
Daher wird die Regressionsanalyse häufig zur Vorhersage und Prognose verwendet. Es wird auch verwendet, um die Beziehungen in experimentellen Daten, in den Bereichen Physik, Chemie und in vielen naturwissenschaftlichen und technischen Disziplinen herzustellen. Wenn die Beziehung oder die Regressionsfunktion eine lineare Funktion ist, wird der Prozess als lineare Regression bezeichnet. Im Streudiagramm kann es als gerade Linie dargestellt werden. Wenn die Funktion keine lineare Kombination der Parameter ist, ist die Regression nicht linear.
Die logistische Regression ist mit der multivariaten Regression vergleichbar und erstellt ein Modell, um die Auswirkungen mehrerer Prädiktoren auf eine Antwortvariable zu erklären. Bei der logistischen Regression sollte die Endergebnisvariable jedoch kategorisch sein (normalerweise geteilt, dh ein Paar erreichbarer Ergebnisse wie Tod oder Überleben, obwohl spezielle Techniken die Modellierung kategorisierterer Informationen ermöglichen). Eine kontinuierliche Ergebnisvariable kann in eine kategoriale Variable umgewandelt werden, die für die logistische Regression verwendet wird. Es wird jedoch meistens davon abgeraten, kontinuierliche Variablen auf diese Weise zu reduzieren, da dies die Genauigkeit verringert.
Anders als bei der linearen Regression müssen die Prädiktorvariablen bei der logistischen Regression zum Mittelwert hin nicht gezwungen sein, linear verbunden, gemeinsam verteilt zu sein oder innerhalb jedes Clusters die gleiche Varianz zu haben. Infolgedessen ist die Beziehung zwischen dem Prädiktor und den Ergebnisvariablen wahrscheinlich keine lineare Funktion.
Was ist der Unterschied zwischen logistischer und linearer Regression?
• Bei der linearen Regression wird eine lineare Beziehung zwischen der erklärenden Variablen und der Antwortvariablen angenommen, und Parameter, die das Modell erfüllen, werden durch Analyse ermittelt, um die genaue Beziehung zu erhalten.
• Für quantitative Variablen wird eine lineare Regression durchgeführt, und die resultierende Funktion ist eine quantitative.
• In der logistischen Regression können die verwendeten Daten entweder kategorisch oder quantitativ sein, das Ergebnis ist jedoch immer kategorisch.