HINWEIS: Die IDRE Statistische Beratungsgruppe wird die Website im Februar auf das WordPress CMS migrieren, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht mehr gepflegt werden. Wir werden versuchen, Umleitungen zu pflegen, damit die alten URLs weiterhin so gut funktionieren wie möglich. Willkommen beim Institut für digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata Annotated Output Regressionsanalyse Diese Seite zeigt eine Beispiel-Regressionsanalyse mit Fußnoten, die die Ausgabe erklären. Diese Daten wurden auf 200 Schülerinnen und Schülern gesammelt und sind Partituren zu verschiedenen Tests, darunter Wissenschaft, Mathematik, Lesen und Sozialwissenschaften (socst). Die Variable weiblich ist eine dichotome Variable codiert 1, wenn der Schüler war weiblich und 0 wenn männlich. Anova Tisch a. Quelle - Betrachtet man den Abbau der Varianz in der Ergebnisvariable, das sind die Kategorien, die wir untersuchen werden: Modell, Residual und Total. Die Gesamtvarianz ist in die Varianz partitioniert, die durch die unabhängigen Variablen (Modell) und die Varianz erklärt werden kann, die nicht durch die unabhängigen Variablen (Residual, manchmal auch Error) erklärt wird. B. SS - Dies sind die Summe der Quadrate, die mit den drei Variantenquellen, Total, Model und Residual verbunden sind. C. Df - Das sind die Freiheitsgrade, die mit den Quellen der Abweichung verbunden sind. Die Gesamtvarianz hat N-1 Freiheitsgrade. Die Modellfreiheitsgrade entsprechen der Anzahl der geschätzten Koeffizienten minus 1. Inklusive des Abschnitts gibt es 5 Koeffizienten, so dass das Modell 5-14 Freiheitsgrade hat. Die restlichen Freiheitsgrade sind die DF-Summe minus dem DF-Modell, 199 - 4 195. d. MS - das sind die mittleren Quadrate, die Summe der Quadrate, dividiert durch ihre jeweilige DF. Gesamtmodell Fit e. Anzahl der obs - Dies ist die Anzahl der Beobachtungen, die in der Regressionsanalyse verwendet werden. F. F (4, 195) - Dies ist die F-Statistik ist das Mean Square Model (2385.93019) geteilt durch den Mean Square Residual (51.0963039), was F46.69 ergibt. Die Zahlen in Klammern sind das Modell und Residual Freiheitsgrade sind aus der ANOVA Tabelle oben. G. Prob gt F - Dies ist der p-Wert, der mit der obigen F-Statistik verbunden ist. Es wird beim Testen der Nullhypothese verwendet, dass alle Modellkoeffizienten 0. h sind. R-squared - R-Squared ist der Anteil der Varianz in der abhängigen Variablen (Wissenschaft), die durch die unabhängigen Variablen (Mathematik, weiblich, socst und read) erklärt werden kann. Dies ist ein Gesamtmaß für die Stärke der Assoziation und spiegelt nicht das Ausmaß, in dem eine bestimmte unabhängige Variable mit der abhängigen Variablen assoziiert ist. ich. Adj R-squared - Dies ist eine Anpassung der R-squared, die die Hinzufügung von Fremdprädiktoren zum Modell bestraft. Adjusted R-squared wird unter Verwendung der Formel 1 - ((1 - Rsq) ((N - 1) (N - k - 1)) berechnet, wobei k die Anzahl der Prädiktoren ist. J. Root MSE - Root MSE ist die Standardabweichung Des Fehlerbegriffs und ist die Quadratwurzel des Mean Square Residual (oder Error) Parameter Schätzungen k. Wissenschaft - Diese Spalte zeigt die abhängige Variable an der Spitze (Wissenschaft) mit den darunter liegenden Prädiktorvariablen (Mathematik, weiblich Es gibt die Werte für die Regressionsgleichung zur Vorhersage der abhängigen Variablen aus der unabhängigen Variablen Die Regressionsgleichung wird auf vielfältige Weise dargestellt , Zum Beispiel: Ypredicted b0 b1x1 b2x2 b3x3 b4x4 Die Spalte der Schätzungen liefert die Werte für b0, b1, b2, b3 und b4 für diese Gleichung. Mathematik - Der Koeffizient ist .3893102. Also für jede Einheitszunahme in Mathematik a .3893102 Einheitssteigerung in der Wissenschaft wird vorhergesagt, alle anderen Variablen konstant gehalten. Weiblich - Für jede Einheitszunahme in weiblich. Wir erwarten eine 2.009765 Einheit Abnahme in der Wissenschaft Punktzahl, halten alle anderen Variablen konstant. Da weiblich codiert ist, ist die Interpretation einfacher: Für Frauen ist die vorhergesagte Science-Score 2 Punkte niedriger als bei Männern. Socst - Der Koeffizient für socst ist .0498443. Also für jede Einheitssteigerung in der Gesellschaft. Wir erwarten eine etwa 0,08-Punkte-Zunahme der wissenschaftlichen Punktzahl und halten alle anderen Variablen konstant. Lesen - Der Koeffizient für das Lesen ist .3352998. Also für jede Einheit erhöhen in lesen. Wir erwarten, dass ein .34 Punkt Anstieg der Wissenschaft Punktzahl. M. Std. Err. - Dies sind die Standardfehler, die mit den Koeffizienten verbunden sind. N. T - Dies sind die t-Statistiken, die beim Testen verwendet werden, ob ein gegebener Koeffizient signifikant von Null verschieden ist. O. Pgtt - Diese Spalte zeigt die 2-tailed p-Werte, die beim Testen der Nullhypothese verwendet werden, dass der Koeffizient (Parameter) 0 ist. Mit einem Alpha von 0,05: Der Koeffizient für Mathematik unterscheidet sich deutlich von 0, weil sein p-Wert 0.000 ist, Die kleiner als 0,05 ist. Der Koeffizient für weiblich (-2.01) ist auf dem 0,05-Niveau nicht statisch signifikant, da der p-Wert größer als 0,05 ist. Der Koeffizient für socst (.0498443) unterscheidet sich nicht statistisch signifikant von 0, weil sein p-Wert definitiv größer als 0,05 ist. Der Lesekoeffizient (.3352998) ist statistisch signifikant, weil sein p-Wert von 0,000 kleiner als 0,05 ist. Die Konstante (Nachteile) unterscheidet sich deutlich von 0 auf dem 0,05 Alpha-Niveau. P. 95 Konf. Intervall - das sind die 95 Konfidenzintervalle für die Koeffizienten. Die Konfidenzintervalle beziehen sich auf die p-Werte, so dass der Koeffizient bei alpha 00 nicht statistisch signifikant ist, wenn das 95-Konfidenzintervall Null enthält. Diese Konfidenzintervalle können Ihnen helfen, die Schätzung aus dem Koeffizienten in die Perspektive zu bringen, indem sie sehen, wie viel der Wert variieren könnte. Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden. Für schnelle Fragen E-Mail dataprinceton. edu. Keine appts Notwendig während der begehbaren Stunden. Hinweis: Das DSS-Labor ist geöffnet, solange Firestone offen ist, keine Termine, die für die Verwendung der Laborcomputer für Ihre eigene Analyse erforderlich sind. Interpretation von Regression Output Einleitung Diese Anleitung setzt voraus, dass Sie zumindest ein wenig Vertrautheit mit den Konzepten der linearen multiplen Regression haben und in der Lage sind, eine Regression in einem Softwarepaket wie Stata, SPSS oder Excel durchzuführen. Vielleicht möchten Sie unsere Begleitseite Einführung in die Regression zuerst lesen. Für die Unterstützung bei der Durchführung von Regression in bestimmten Softwarepaketen gibt es einige Ressourcen im UCLA Statistical Computing Portal. Kurze Überprüfung der Regression Denken Sie daran, dass Regressionsanalyse verwendet wird, um eine Gleichung zu erzeugen, die eine abhängige Variable mit einer oder mehreren unabhängigen Variablen vorhersagen wird. Diese Gleichung hat die Form, in der Y die abhängige Variable ist, die du vorhersagen willst, X1. X2 und so weiter sind die unabhängigen Variablen, die Sie verwenden, um es vorherzusagen, b1. B2 und so weiter sind die Koeffizienten oder Multiplikatoren, die die Größe des Effektes beschreiben, den die unabhängigen Variablen auf deiner abhängigen Variablen Y haben. Und A ist der Wert Y vorausgesagt, wenn alle unabhängigen Variablen gleich Null sind. In der Stata-Regression, die unten gezeigt wird, ist die Vorhersagegleichung Preis -294.1955 (mpg) 1767.292 (fremd) 11905.42 - Sie sagen, dass der Preis vorausgesagt wird, um 1767.292 zu erhöhen, wenn die Fremdvariable um eins steigt, um 294.1955 abnehmen, wenn mpg um eins geht , Und wird vorausgesagt, 11905.42 zu sein, wenn sowohl mpg als auch fremd null sind. Kommen mit einer Vorhersage Gleichung wie diese ist nur eine nützliche Übung, wenn die unabhängigen Variablen in Ihrem Datensatz haben einige Korrelation mit Ihrer abhängigen Variable. Also zusätzlich zu den Vorhersagekomponenten deiner Gleichung - den Koeffizienten auf deinen unabhängigen Variablen (Betas) und der Konstanten (Alpha) - musst du etwas Maßstab erzählen, wie stark jede unabhängige Variable mit deiner abhängigen Variablen verknüpft ist. Wenn du deine Regression betreibst, versuchst du zu entdecken, ob die Koeffizienten auf deinen unabhängigen Variablen wirklich von 0 abweichen (also haben die unabhängigen Variablen einen echten Effekt auf deine abhängige Variable) oder wenn auch irgendwelche offensichtlichen Unterschiede von 0 nur zufällig sind Chance. Die Null (Standard) Hypothese ist immer, dass jede unabhängige Variable absolut keine Wirkung hat (hat einen Koeffizienten von 0) und du suchst einen Grund, diese Theorie abzulehnen. P, t und Standardfehler Die t-Statistik ist der Koeffizient dividiert durch den Standardfehler. Der Standardfehler ist eine Schätzung der Standardabweichung des Koeffizienten, der Betrag, den er über die Fälle hinweg variiert. Es kann als ein Maß für die Präzision gedacht werden, mit der der Regressionskoeffizient gemessen wird. Wenn ein Koeffizient im Vergleich zu seinem Standardfehler groß ist, dann ist er wahrscheinlich von 0 verschieden. Wie groß ist groß Deine Regressions-Software vergleicht die t-Statistik auf deiner Variablen mit Werten in der Studenten-t-Verteilung, um den P-Wert zu bestimmen, was die Nummer ist Dass du dich wirklich anschauen musst. Die Studentenverteilung beschreibt, wie sich der Mittelwert einer Probe mit einer bestimmten Anzahl von Beobachtungen (Ihr n) voraussichtlich verhalten wird. Wenn 95 der t-Verteilung näher an dem Mittelwert liegt als der t-Wert auf dem Koeffizienten, den Sie betrachten, dann haben Sie einen P-Wert von 5. Dies ist auch auf ein Signifikanzniveau von 5 zurückzuführen. Der P-Wert ist die Wahrscheinlichkeit Ein Ergebnis zu sehen, das so extrem ist wie das, was du bekommst (bei einem Wert so groß wie deinem) in einer Sammlung von zufälligen Daten, in denen die Variable keine Wirkung hatte. Ein P von 5 oder weniger ist der allgemein akzeptierte Punkt, an dem die Nullhypothese zurückgewiesen werden kann. Mit einem P-Wert von 5 (oder .05) gibt es nur eine Chance, dass die Ergebnisse, die Sie sehen, in einer zufälligen Verteilung kommen würden, also können Sie mit einer Wahrscheinlichkeit von 95 sagen, dass die Variable etwas Effekt hat, Vorausgesetzt, Ihr Modell ist korrekt angegeben. Das 95 Konfidenzintervall für Ihre Koeffizienten, die von vielen Regressionspaketen gezeigt werden, gibt Ihnen die gleichen Informationen. Sie können 95 zuversichtlich sein, dass der reale, zugrunde liegende Wert des Koeffizienten, den Sie schätzen, irgendwo in diesem 95 Konfidenzintervall fällt. Wenn also das Intervall nicht 0 enthält, wird Ihr P-Wert 0,05 oder weniger sein. Beachten Sie, dass die Größe des P-Wertes für einen Koeffizienten nichts über die Größe des Effekts sagt, den die Variable auf Ihrer abhängigen Variablen hat - es ist möglich, ein sehr signifikantes Ergebnis (sehr kleiner P-Wert) für einen winzigen Effekt zu haben. Koeffizienten Bei der einfachen oder multiplen linearen Regression gibt die Größe des Koeffizienten für jede unabhängige Variable die Größe des Effekts, den die Variable auf deiner abhängigen Variablen hat, und das Zeichen auf dem Koeffizienten (positiv oder negativ) gibt dir die Richtung der bewirken. Bei der Regression mit einer einzigen unabhängigen Variablen gibt der Koeffizient an, wieviel die abhängige Variable erwartet wird (wenn der Koeffizient positiv ist) oder abnehmen (wenn der Koeffizient negativ ist), wenn diese unabhängige Variable um eins erhöht wird. Bei der Regression mit mehreren unabhängigen Variablen zeigt der Koeffizient an, wieviel die abhängige Variable erwartet wird, wenn diese unabhängige Variable um eins erhöht wird, wobei alle anderen unabhängigen Variablen konstant gehalten werden. Denken Sie daran, die Einheiten zu beachten, die Ihre Variablen gemessen werden. Hinweis: In Formen der Regression, die keine lineare Regression sind, wie Logistik oder Probit, haben die Koeffizienten nicht diese einfache Interpretation. Die Erläuterung, wie man damit umgeht, geht über den Einführungsleitfaden hinaus. R-Squared und allgemeine Bedeutung der Regression Die R-Quadrate der Regression ist der Bruchteil der Variation in deiner abhängigen Variablen, die von deinen unabhängigen Variablen berücksichtigt oder vorhergesagt wird. (In der Regression mit einer einzigen unabhängigen Variablen ist es das gleiche wie das Quadrat der Korrelation zwischen deiner abhängigen und unabhängigen Variablen.) Das R-Quadrat ist in der Regel von untergeordneter Bedeutung, es sei denn, Ihr Hauptanliegen ist die Verwendung der Regressionsgleichung, um genaue Vorhersagen zu machen . Der P-Wert sagt Ihnen, wie sicher Sie sein können, dass jede einzelne Variable eine Korrelation mit der abhängigen Variablen hat, was das Wichtigste ist. Eine andere Nummer, die bewusst sein soll, ist der P-Wert für die Regression als Ganzes. Weil Ihre unabhängigen Variablen korreliert werden können, eine Bedingung, die als Multikollinearität bekannt ist, können die Koeffizienten auf einzelnen Variablen unwesentlich sein, wenn die Regression als Ganzes signifikant ist. Intuitiv liegt das daran, dass hochkorrelierte unabhängige Variablen denselben Teil der Variation in der abhängigen Variablen erklären, so dass ihre Erklärungskraft und die Bedeutung ihrer Koeffizienten zwischen ihnen aufgeteilt werden. Weiterlesen Kopie 2007 Die Treuhänder der Princeton University. Alle Rechte vorbehalten. Dataprinceton. edu ANMERKUNG: Information ist für Princeton Universität. Fühlen Sie sich frei, die Dokumentation zu verwenden, aber wir können keine Fragen außerhalb von Princeton beantworten Diese Seite wurde zuletzt aktualisiert am:
Comments
Post a Comment