invisible header

Dies ist das Dokument ohne Lösungen

Klicke hier, um die Musterlösungen einzublenden.

 

Zur Vorbereitung

Lade die ESS-Daten der Welle 8 (2016) und setze deine working directory:

# Working directory setzen (z.B. "c:\daten" oder "~/daten")
setwd("mein_laufwerk/mein_datenverzeichnis")
# Daten einlesen
library(haven)
ess <- read_dta("ESS8e02_2.dta")
# oder
ess <- read_sav("ESS8e02_2.sav")

Erstelle ein neues Übungsskript:

# Statistik 1: R Tutorat
# Übungsskript zur univariaten Statistik
# Datum: 03.11.2023
# AutorIn: XXX

Installiere und aktiviere die für die univariate Datenanalyse relevanten Packages tidyverse, summarytools, stargazer und ggplot2:

#install.packages("tidyverse")
library(tidyverse)
#install.packages("summarytools")
library(summarytools)
#install.packages("stargazer")
library(stargazer)
#install.packages("ggplot2")
library(ggplot2)

 

I. Univariate Statistik

1. Erstelle in einen Teildatensatz “ess_familie”, in den einige familiensoziologisch relevante Variablen einbezogen sind: hhmmb (Haushaltsgrösse), agea (Alter), gndr (Gender), rshpsts (Rechtlicher Status der bestehenden Partnerschaft) und wkhct (Arbeitsstunden pro Woche).

2. Analysiere die Verteilung der Variable Geschlecht. Starte mit einer Inspektion der Variablen und erstelle anschliessend eine übersichtliche Häufigkeitsauszählung.

3. Inspiziere die Variable wkhct und bereinige sie gegebenenfalls. Stell anschliessend die Verteilung der Variable tabellarisch dar. Achte insbesondere auf (a) sinnvolle Kategoriebildung und Kategorienamen, sowie (b) eine sinnvolle Kategoriereihenfolge innerhalb der Tabelle.

4. Inspiziere die Variable rshpsts und bereinige sie gegebenenfalls. Was misst die Variable? Stellt die Verteilung der Variable tabellarisch dar.

5. Erstelle eine Übersichtsstatistik mit allen metrischen Variablen des Teildatensatzes “ess_familie”. Berechne für alle metrischen Variablen das 95%-Konfidenzintervall.

II. Visualsierung von metrischen Variablen

6. Erstellt für die Variable hhmmb (Haushaltsgrösse) ein Balkendiagram. Achtet insb. auf eine sinnvolle Taktung der Wertelabel auf der x-achse. So sollte z.B der inexistente Wert ‘0’ nicht auftauchen. Weshalb bietet sich für dieses Merkmal eher ein Balken- als Histogramm zur Visualisierung der Verteilung an - obgleich es metrisch ist? Welche Erkenntnisse ergeben sich aus der Visualisierung der Verteilung?

8. Erstellt für die Variable wkhct ein Histogramm. Beschriftet die Achsen, setzt einen Titel und ergänzt die Quelle und die Anzahl Fälle in der Caption. Wählt eine Farbe für die Füllung und den Rahmen der Säulen. Wählt eine für euch sinnvoll erscheinende Anzahl an Säulen. Welche Aussagen lassen sich bezüglich der Verteilung der Arbeitsstunden pro Woche der Befragungspersonen treffen?

9. Erstellt für die Variable agea einen Boxplot. Beschriftet die y-Achse und den Plot und setzt eine Caption. Wählt eine Farbe für die Füllung und den Rahmen. Was könnt ihr bezüglich der Verteilung des Alters aus dem Boxplot ablesen?

III. Visualisierung von kategorialen Variablen

10. Erstellt für rshpsts (Rechtlicher Status der Partnerschaft) einen Barplot. Beschriftet die Achsen, setzt einen Titel und ergänzt die Quelle und die Anzahl Fälle in der Caption. Wählt eine Farbe für die Füllung und den Rahmen der Säulen. Was können wir über den rechtlichen Beziehungsstatus für Partnerschaften im ESS aussagen?

IV. p-Wert und Hypothesentest

Wir wollen wissen, wie viele Personen in der Schweiz im mittlerem Alterssegment und höherer akademischer Bildung (=Population) einem EU-Beitritt der Schweiz zustimmen würden.

12. Grenze zunächst den ESS auf alle Personen in der Schweiz (cntry==“CH”) mit höherer tertiärer Bildung (eisced==7) ein, die älter als 30 und jünger als 40 sind.

13. Inspiziere die Variable vteubcmb, setzte andere Werte als “Zustimmung” oder “Ablehnung” auf “NA”

14. Wie viele SchweizerInnen mit höherer akademischer Bildung unterstützen einen EU-Beitritt der Schweiz?

15. Ermittle zur Annahme, dass der Anteil an Befürwortenden und Oppositionierenden sich in der Population die Wage hält, den p-Wert. Interpretiere diesen und den entsprechenden Output in R.

16. Binde den p-Wert in einen Test der Hypothese, dass sich die Anteile an Pro-/Contra-Stimmen in der Population unterscheiden, ein.

17. Binde den p-Wert in einen Test der Hypothese, dass der Anteil an Contra-Stimmen in der Population überwiegt, ein.

 

logo.knit

Conforti, E., Siefart, F., De Min, N., Dürr, R., Moos, M., Senn, S., Strassmann-Rocha, D., Giesselmann, M. (2022): “R für das Soziologiestudium an der UZH”