Tobit Regression In Stata Forex

Willkommen am Institut für Digitale Forschung und Bildung Stata Annotierte Ausgabe-Tobit-Regression Diese Seite zeigt ein Beispiel der TB-Regressionsanalyse mit Fußnoten, die die Ausgabe erklären. Die Daten in diesem Beispiel wurden auf Studenten, die für Graduiertenschule und umfasst Undergraduate-GPAs, den Ruf der Schule des Undergraduates (ein topnotch Indikator), die Schüler GRE-Score gesammelt, und ob der Schüler zum Abschluss der Schule zugelassen wurde. Die Bandbreite der möglichen GRE-Werte liegt bei 200 bis 800. Dies bedeutet, dass unsere Ergebnisvariable sowohl zensiert als auch rechtszensiert ist. Mit anderen Worten, wenn zwei Schüler eine Punktzahl von 800 erreichen, sind sie nach unserer Skala gleichwertig, könnten aber in der Eignung nicht wirklich gleich sein. (Mit anderen Worten, wir haben eine Deckeneffekt.) Das gleiche gilt für zwei Schüler mit einem Wert von 200 (ein Bodeneffekt). Tobit-Regression generiert ein Modell, das die Ergebnisvariable als innerhalb des angegebenen Bereichs voraussagt. Wenn wir daran interessiert sind, eine Schüler-GRE-Punktzahl mit ihrem Undergraduate-GPA und dem Ruf ihrer Undergraduate-Institution zu prognostizieren, sollten wir zunächst GRE als Ergebnisvariable betrachten. Um ein Targetmodell in Stata zu generieren, listen Sie die Ergebnisvariable auf, gefolgt von den Prädiktoren und geben Sie dann die untere Grenze und / oder die obere Grenze der Ergebnisvariablen an. Die untere Grenze ist in Klammern nach ll angegeben und die obere Grenze in Klammern nach ul angegeben. Ein Zielmodell kann verwendet werden, um ein Ergebnis vorherzusagen, das von oben, von unten oder von beiden zensiert wird. Tobit-Regression Ausgabe a. Log likelihood - Dies ist die Log-Wahrscheinlichkeit des eingebauten Modells. Es wird in dem Likelihood Ratio Chi-Quadrat Test verwendet, ob alle Prädiktoren Regressionskoeffizienten im Modell gleichzeitig Null sind. B. Anzahl obs - Dies ist die Anzahl der Beobachtungen im Datenbestand, für die alle Antwort - und Prädiktorvariablen nicht fehlen. C. LR chi2 (2) - Dies ist der LR-Chi-Quadrat-Test, bei dem mindestens einer der Prädiktor-Regressionskoeffizienten ungleich Null ist. Die Zahl in den Klammern gibt die Freiheitsgrade der Chi-Quadrat-Verteilung an, die zum Testen der LR Chi-Quadrat-Statistik verwendet wird und wird durch die Anzahl der Prädiktoren im Modell (2) definiert. D. Prob gt chi2 - Dies ist die Wahrscheinlichkeit des Erhaltens einer LR-Teststatistik so extrem wie oder mehr als die beobachtete Statistik unter der Nullhypothese die Nullhypothese ist, dass alle Regressionskoeffizienten gleichzeitig gleich Null sind. Mit anderen Worten, dies ist die Wahrscheinlichkeit, diese Chi-Quadrat-Statistik (70.93) oder ein weiteres Extrem zu erhalten, wenn es tatsächlich keine Wirkung der Prädiktorvariablen gibt. Dieser p-Wert wird mit einer spezifizierten Alpha-Ebene verglichen, unsere Bereitschaft, einen Typ-I-Fehler zu akzeptieren, der typischerweise auf 0,05 oder 0,01 eingestellt ist. Der kleine p-Wert aus dem LR-Test lt0,0001 würde dazu führen, dass zumindest einer der Regressionskoeffizienten im Modell ungleich Null ist. Der Parameter der Chi-Quadrat-Verteilung, die verwendet wird, um die Nullhypothese zu testen, wird durch die Freiheitsgrade in der vorherigen Zeile, chi2 (2) definiert. Pseudo R2 - Dies ist McFaddens pseudo R-squared. Tobit-Regression hat nicht ein Äquivalent zum R-Quadrat, die in OLS-Regression gefunden wird, aber viele Leute haben versucht, kommen mit einem. Es gibt eine Vielzahl von Pseudo-R-Quadrat-Statistiken. Weil diese Statistik nicht bedeutet, was R-Quadrat bedeutet in OLS-Regression (der Anteil der Varianz der Antwortvariable erklärt durch die Prädiktoren), empfehlen wir diese Interpretation dieser Statistik mit großer Vorsicht. Weitere Informationen zu Pseudo-R-Quadraten finden Sie unter Was sind Pseudo-R-Quadrate. F. Gre - Dies ist die Antwortgröße, die vom Modell vorhergesagt wird. Wir verwenden ein tobit-Modell, da diese Antwortvariable zensiert wird: Die GRE-Werte werden von 200 auf 800 skaliert und können nicht außerhalb dieses Bereichs liegen. G. Coef. - Dies sind die Regressionskoeffizienten. Tobit-Regressionskoeffizienten werden in ähnlicher Weise wie OLS-Regressionskoeffizienten interpretiert, der lineare Effekt jedoch auf der unzensierten latenten Variablen, nicht auf dem beobachteten Ergebnis. Das erwartete GRE-Ergebnis ändert sich durch Coef. Für jede Einheitszunahme in dem entsprechenden Prädiktor. Gpa - Wenn ein Subjekt seinen gpa um einen Punkt zu erhöhen, würde seine erwartete GRE-Punktzahl um 111.3085 Punkte erhöhen, während alle anderen Variablen in der Modellkonstante gehalten werden. So, je höher ein Schüler gpa. Desto höher die vorhergesagte GRE-Punktzahl. Topnotch - Wenn ein Thema besuchte eine topnotch Institution für ihre Undergraduate-Ausbildung, würde ihre erwartete GRE Punktzahl 46.65774 Punkte höher als ein Thema mit dem gleichen Notendurchschnitt, die an einer nicht-topnotch Institution. So, Themen aus topnotch undergraduate Institutionen haben höhere vorhergesagte GRE Scores als Themen aus nicht-topnotch undergraduate Institutionen, wenn Grad Punktdurchschnitte konstant gehalten werden. - Wenn alle Vorhersagevariablen im Modell bei Null ausgewertet werden, wäre die vorhergesagte GRE-Punktzahl 205.8515. Für Themen aus nicht-topnotch undergraduate Institutionen (topnotch bewertet bei Null) mit null gpa. Die vorhergesagte GRE-Punktzahl wäre 205.8515. Dies mag sehr niedrig sein, wenn man bedenkt, dass die mittlere GRE-Punktzahl 587,7 beträgt, doch ist zu beachten, dass die Bewertung von gpa bei Null außerhalb des Bereichs der plausiblen Werte für gpa liegt. H. Std. Err. - Dies sind die Standardfehler der einzelnen Regressionskoeffizienten. Sie werden sowohl in der Berechnung der t Teststatistik, Hochscript i als auch im Konfidenzintervall des Regressionskoeffizienten superscript k verwendet. ich. T - Die Teststatistik t ist das Verhältnis des Coef. Zu den Std. Err. Des jeweiligen Prädiktors. Der t-Wert wird verwendet, um gegen eine zweiseitige alternative Hypothese zu testen, dass das Coef. Nicht gleich Null ist. J Pgtt - Dies ist die Wahrscheinlichkeit, dass die t Teststatistik (oder eine extremere Teststatistik) unter der Nullhypothese beobachtet werden würde, dass ein bestimmter Prädiktor-Regressionskoeffizient null ist, da der Rest der Prädiktoren im Modell vorliegt. Für eine gegebene Alpha-Ebene bestimmt Pgtt, ob die Nullhypothese zurückgewiesen werden kann oder nicht. Wenn Pgtt kleiner als alpha ist, kann die Nullhypothese verworfen und die Parameterabschätzung als statistisch signifikant auf dieser Alpha-Ebene betrachtet werden. Gpa - Die t-Teststatistik für den Prädiktor gpa ist (111.308515.19665) 7.32 mit einem zugehörigen p-Wert von lt0.001. Wenn wir unseren Alpha-Pegel auf 0,05 setzen, würden wir die Nullhypothese zurückweisen und darauf schließen, dass der Regressionskoeffizient für gpa statistisch von Null verschieden ist, wenn topnotch im Modell vorliegt. Topnotch - Die t Teststatistik für den Prädiktor topnot ist (46.6577415.75356) 2.96 mit einem zugehörigen p-Wert von 0,003. Wenn wir unsere Alpha-Ebene auf 0,05 setzen, würden wir die Nullhypothese zurückweisen und folgern, dass der Regressionskoeffizient für topnotch festgestellt wurde, dass er statistisch von Null verschieden ist, wenn gpa im Modell vorliegt. - Die t Teststatistik für den Intercept, cons, ist (205.851551.24073) 4.02 mit einem zugehörigen p-Wert von lt 0.001. Wenn wir unseren Alpha-Pegel auf 0,05 setzen, würden wir die Nullhypothese zurückweisen und folgern, dass Nachteile festgestellt wurden, dass sie sich statistisch von Null unterscheiden, wenn gpa und topnotch im Modell vorliegen und bei Null ausgewertet werden. K. 95 Konf. Interval - Dies ist das Vertrauensintervall (CI) für einen individuellen Koeffizienten, wenn die anderen Prädiktoren im Modell sind. Für einen gegebenen Prädiktor mit einem Niveau von 95 Vertrauen, sagen wir, dass wir 95 zuversichtlich, dass der Quottruequot-Koeffizient zwischen der unteren und oberen Grenze des Intervalls liegt. Der CI ist äquivalent zu der t-Teststatistik: Wenn die CI Null enthält, kann wed die Nullhypothese nicht zurückweisen, dass ein bestimmter Regressionskoeffizient null ist, wenn die anderen Prädiktoren im Modell mit dem Alpha-Pegel von Null liegen. Ein Vorteil eines CI ist, dass es illustrativ ist es bietet einen Bereich, wo der Quottruequot-Parameter liegen kann. L. Sigma - Dies ist der geschätzte Standardfehler der Regression. Dieser Wert, 111.4882, ist vergleichbar mit dem mittleren quadratischen Fehler, der in einer OLS-Regression erhalten werden würde. M Obs. Zusammenfassung - Zeigt an, wie viele der Beobachtungen im Datensatz zensiert werden. Hier sehen wir, dass keiner der Datensätze zensiert (alle sind größer als 200) und 25 der Datensätze rechtszensiert (größer oder gleich 800) sind. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden. Willkommen für das Institut für digitale Forschung und Bildung Stata Datenanalyse Beispiele Probit Regression Version info: Code for Wurde diese Seite in Stata 12 getestet. Die Probit-Regression, auch als probit-Modell bezeichnet, wird verwendet, um dichotome oder binäre Ergebnisvariablen zu modellieren. Im Probit-Modell wird die inverse Standard-Normalverteilung der Wahrscheinlichkeit als Linearkombination der Prädiktoren modelliert. Bitte beachten Sie: Der Zweck dieser Seite ist, wie Sie verschiedene Datenanalyse-Befehle verwenden. Es deckt nicht alle Aspekte des Forschungsprozesses, die Forscher erwartet werden, zu tun. Sie umfasst insbesondere die Datenreinigung und - prüfung, die Überprüfung der Annahmen, die Modelldiagnose und die möglichen Folgeanalysen nicht. Beispiele für die Probit-Regression Beispiel 1: Angenommen, wir interessieren uns für die Faktoren, die beeinflussen, ob ein politischer Kandidat eine Wahl gewinnt. Das Ergebnis (Antwort) Variable ist binär (01) gewinnen oder verlieren. Die Prädiktor-Variablen von Interesse sind die Menge an Geld für die Kampagne verbracht, die Höhe der Zeit verbracht Kampagne negativ und ob der Kandidat ist ein etablierter. Beispiel 2: Ein Forscher ist daran interessiert, wie Variablen, wie GRE (Graduate Record Exam Scores), GPA (Grade Punkt Durchschnitt) und Prestige der Undergraduate-Institution, Wirkung Eintritt in Graduate School. Die Antwortgröße, admitdont zugeben, ist eine binäre Variable. Beschreibung der Daten Für unsere Datenanalyse unten werden wir auf Beispiel 2 erweitern, um in die Graduiertenschule zu gelangen. Wir haben hypothetische Daten erstellt, die auf unserer Website abgerufen werden können. Dieser Datensatz hat eine binäre Antwort (Ergebnis, abhängige) Variable namens admit. Es gibt drei Vorhersagevariablen: gre. Gpa und Rang. Wir werden die Variablen gre und gpa als stetig behandeln. Der variable Rang ist ordinal, er nimmt die Werte 1 bis 4 an. Institutionen mit dem Rang 1 haben das höchste Prestige, die mit dem Rang 4 haben den niedrigsten Wert. Wir werden Rang als kategorisch behandeln. Analysemethoden, die Sie berücksichtigen könnten Im Folgenden finden Sie einige Analysemethoden, die Sie möglicherweise vorgefunden haben. Einige der aufgeführten Methoden sind recht vernünftig, während andere entweder aus der Gunst gefallen oder haben Einschränkungen. Probit-Regression, der Schwerpunkt dieser Seite. Logistische Regression. Ein Logitmodell führt zu Ergebnissen mit ähnlicher Probit-Regression. Die Wahl von probit gegen logit hängt weitgehend von individuellen Vorlieben ab. OLS-Regression. Bei Verwendung mit einer binären Antwortvariable wird dieses Modell als lineares Wahrscheinlichkeitsmodell bezeichnet und kann als eine Möglichkeit zur Beschreibung bedingter Wahrscheinlichkeiten verwendet werden. Jedoch verletzen die Fehler (d. h. Residuen) aus dem linearen Wahrscheinlichkeitsmodell die Homoskedastizität und die Normalität von Fehlerannahmen der OLS-Regression, was zu ungültigen Standardfehlern und Hypothesentests führt. Für eine genauere Erörterung dieser und anderer Probleme mit dem linearen Wahrscheinlichkeitsmodell siehe Long (1997, S. 38-40). Zweigruppendiskriminante Funktionsanalyse. Eine multivariate Methode für dichotome Ergebnisgrößen. Hotellings T 2. Das Ergebnis 01 wird in die Gruppierungsvariable umgewandelt, und die früheren Prädiktoren werden zu Ergebnisvariablen. Dies erzeugt einen Gesamttest der Signifikanz, gibt aber keine individuellen Koeffizienten für jede Variable, und es ist unklar, inwieweit jedes quadratische Quotient für die Auswirkung der anderen Quotienten angepasst wird. Probit-Regression Nachfolgend verwenden wir den probit-Befehl, um a zu schätzen Probit-Regressionsmodell. Das i. Bevor der Rang angibt, dass Rang eine Faktorvariable ist (d. H. Kategorische Variable), und dass sie als eine Reihe von Indikatorvariablen in das Modell aufgenommen werden sollte. Beachten Sie, dass diese Syntax in Stata 11 eingeführt wurde. In der obigen Ausgabe sehen wir zuerst das Iterationsprotokoll, das angibt, wie schnell das Modell konvergiert. Die Log-Likelihood (-229.20658) kann in Vergleichen von verschachtelten Modellen verwendet werden, aber wir zeigen hier kein Beispiel. Auch an der Spitze der Ausgabe sehen wir, dass alle 400 Beobachtungen in unserem Datensatz in der Analyse verwendet wurden (weniger Beobachtungen würden verwendet worden sein, wenn irgendeine unserer Variablen fehlende Werte hatte). Das Wahrscheinlichkeitsverhältnis chi-Quadrat von 41,56 mit einem p-Wert von 0,0001 sagt uns, dass unser Modell als Ganzes statistisch signifikant ist, das heißt, es passt deutlich besser als ein Modell ohne Prädiktoren. In der Tabelle sehen wir die Koeffizienten, ihre Standardfehler, die z-Statistik, die zugehörigen p-Werte und das Konfidenzintervall der Koeffizienten. Beide gre. Gpa. Und die drei Indikatorvariablen für Rang sind statistisch signifikant. Die Probit-Regressionskoeffizienten geben die Änderung im z-Score - oder Probit-Index für eine Ein-Einheiten-Änderung im Prädiktor an. Für eine Einheitserhöhung in g. Die z-Kerbe steigt um 0,001 an. Für jede Einheit Erhöhung in gpa. Die z-Kerbe steigt um 0,478. Die Indikatorvariablen für Rang haben eine etwas andere Interpretation. Zum Beispiel, nach einem Studentenwerk von Rang 2, im Vergleich zu einer Institution mit einem Rang von 1 (die Referenzgruppe), sinkt die z-Punktzahl um 0,415. Mit dem Testbefehl können wir einen Gesamteffekt des Ranges testen. Unten sehen wir, dass der Gesamteffekt des Ranges statistisch signifikant ist. Wir können auch zusätzliche Hypothesen über die Unterschiede in den Koeffizienten für verschiedene Rangniveaus testen. Im Folgenden testen wir, dass der Koeffizient für Rang 2 gleich dem Koeffizienten für Rang 3 ist. Sie können auch vorhergesagte Wahrscheinlichkeiten verwenden, um das Modell zu verstehen. Sie können vorhergesagte Wahrscheinlichkeiten mit dem Ränderbefehl berechnen, der in Stata 11 eingeführt wurde. Im folgenden verwenden wir den Ränderbefehl, um die vorhergesagte Eintrittswahrscheinlichkeit auf jeder Rangstufe zu berechnen. Wobei alle anderen Variablen in dem Modell an ihren Mitteln gehalten werden. Weitere Informationen zur Verwendung des Ränderbefehls zur Berechnung der vorhergesagten Wahrscheinlichkeiten finden Sie auf unserer Seite Verwenden von Rändern für vorhergesagte Wahrscheinlichkeiten. In der obigen Ausgabe sehen wir, dass die vorausgesagte Wahrscheinlichkeit, in ein Graduiertenprogramm aufgenommen zu werden, 0,52 für die höchsten Prestigeuniversitäten (Rang 1) und 0,19 für die untergeordneten Institutionen (Rang 4) ist, wobei gre und gpa an ihren Mitteln gehalten werden. Im folgenden erzeugen wir die prognostizierten Wahrscheinlichkeiten für Werte von gre von 200 bis 800 in Schritten von 100. Da wir weder atmeans angegeben haben oder in (.) Angegeben wurden, um Werte anzugeben, bei denen die anderen Prädiktorvariablen gehalten werden, sind die Werte in der Tabelle Die unter Verwendung der Abtastwerte der anderen Prädiktorvariablen berechnet werden. Um zum Beispiel die durchschnittliche vorhergesagte Wahrscheinlichkeit zu berechnen, wenn gre 200, wurde die vorhergesagte Wahrscheinlichkeit für jeden Fall unter Verwendung dieser Fälle als Wert von Rang und gpa berechnet. Und die Einstellung von gre bis 200. In der obigen Tabelle können wir sehen, dass die mittlere prognostizierte Wahrscheinlichkeit, akzeptiert zu werden, nur 0,16 beträgt, wenn die GRE-Punktzahl 200 ist und auf 0,42 steigt, wenn die GRE-Punktzahl 800 ist (Mittelung über die Abtastwerte von gpa und Rang ). Es kann auch hilfreich sein, Graphen von vorhergesagten Wahrscheinlichkeiten zu verwenden und das Modell darzustellen. Wir mögen auch sehen, wie gut unser Modell passt. Dies kann insbesondere beim Vergleich konkurrierender Modelle nützlich sein. Der benutzerdefinierte Befehl "fitstat" erzeugt eine Vielzahl von Anpassungsstatistiken. Sie finden weitere Informationen über Fitstat, indem Sie findit fitstat eingeben (siehe Wie kann ich den findit-Befehl verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten). Dinge zu beachten Leere Zellen oder kleine Zellen: Sie sollten für leere oder kleine Zellen zu überprüfen, indem Sie eine Kreuztabelle zwischen kategorischen Prädiktoren und die Ergebnisvariable. Wenn eine Zelle sehr wenige Fälle (eine kleine Zelle) hat, kann das Modell instabil werden oder es läuft überhaupt nicht. Trennung oder Quasientrennung (auch als perfekte Vorhersage bezeichnet), eine Bedingung, bei der das Ergebnis bei einigen Ebenen der unabhängigen Variablen nicht variiert. Siehe unsere Seite FAQ: Was ist vollständige oder quasi vollständige Trennung in logisticprobit Regression und wie gehen wir mit ihnen für Informationen über Modelle mit perfekter Vorhersage. Beispiel-Größe: Sowohl probit - als auch logit-Modelle erfordern mehr Fälle als OLS-Regression, da sie Maximum-Likelihood-Schätzverfahren verwenden. Es ist manchmal möglich, Modelle für binäre Ergebnisse in Datensätzen mit nur einer kleinen Anzahl von Fällen mit exakter logistischer Regression (mit dem exlogistischen Befehl) abzuschätzen. Weitere Informationen finden Sie in unserem Datenanalysebeispiel für eine exakte logistische Regression. Es ist auch wichtig zu beachten, dass, wenn das Ergebnis selten ist, auch wenn die gesamte Datenmenge groß ist, kann es schwierig sein, ein Probit-Modell zu schätzen. Pseudo-R-Quadrat: Es gibt viele verschiedene Psuedo-R-Quadrate. Sie alle versuchen, Informationen ähnlich wie die von R-squared in OLS-Regression zur Verfügung gestellt, aber keiner von ihnen kann genau so interpretiert werden, wie R-Quadrat in OLS-Regression interpretiert wird. Für eine Diskussion über verschiedene Pseudo-R-Quadrate siehe Long und Freese (2006) oder unsere FAQ-Seite Was sind Pseudo-R-Quadrate In Stata werden Werte von 0 als eine Ebene der Ergebnisvariablen und alle anderen nicht fehlenden Werte behandelt Werden als die zweite Ebene des Ergebnisses behandelt. Diagnostik: Die Diagnose für die Probit-Regression unterscheidet sich von denen für die OLS-Regression. Die Diagnosen für Probit-Modelle ähneln denen von Logit-Modellen. Zur Diskussion der Modelldiagnostik für logistische Regression siehe Hosmer und Lemeshow (2000, Kapitel 5). Literaturverzeichnis Hosmer, D. Lemeshow, S. (2000). Angewandte Logistische Regression (Second Edition). New York: John Wiley Sons, Inc. Long, J. Scott (1997). Regressionsmodelle für kategoriale und begrenzte abhängige Variablen. Thousand Oaks, CA: Sage Veröffentlichungen. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.


Comments

Popular Posts