Klick hier, um die Lösungen anzuzeigen.
Erstellt ein neues Übungsskript und beschriftet es entsprechend.
Installiert das Package tidyverse und aktiviert es. Ladet den ESS-Datensatz ein.
1. Wir interessieren uns für den Zusammenhang zwischen Bildung und Migrationswertschätzung. Formuliere dazu eine empirisch prüfbare Hypothese. Wir haben uns bereits in der letzten Übung zum Thema Linearität und Ausreisser mit diesen Variablen für die Schweiz auseinandergesetzt. In der folgenden Übung werden wir dies nochmals tun, allerdings nun mit den Merkmalsträgern aus Deutschland.
2. Formuliere die Nullhypothese.
3. Erstelle einen Teildatensatz mit den Variablen cntry, eduyrs und imbgeco. Reduziere dann den Datensatz auf Merkmalsträger aus Deutschland. Filtere zum Schluss die NAs heraus.
4. Berechne ein lineares Regressionsmodel und speichere dessen Output.
5. Interpretiere den Regressionskoeffizienten und seinen Standardfehler sowohl technisch als auch inhaltlich.
6. Interpretiere im Deutschland-Modell den p-Wert inhaltlich und in Bezug auf seine Signifikanz.
7. Bewerte nun die, unter Aufgabe 2 aufgestellte Nullhypothese.
8. Welches Konfidenzintervall des Koeffizienten ist am grössten? Das 95%, das 99% oder das 99.9% Intervall? Warum?
9. Berechne das 95% und das 99% Konfidenzintervall des Koeffizienten aus dem Deutschland-Modell.
10. Erstelle mittels ggplot() eine Visualisierung der Regressionsgeraden und des Konfidenzbandes der Vorhersagewerte. Was wird durch diesen Bereich markiert?
11. Berechne das 95% Konfidenzband für eine Person mit obligatorischem Schulabschluss und anschliessender Berufslehre (12 Bildungsjahre). Interpretiere die Werte.
12. Berechne nun das 95% Vorhersageband für eine Person mit 12 Bildungsjahren. Interpretiere die Werte.
13. Lasst euch zum Schluss das 50% Vorhersageband auf eurem Plot anzeigen.
14. Was ist der Unterschied zwischen einem Konfidenz- und Vorhersageband und einem Konfidenz- und Vorhersageintervall?