library(tidyverse) # Aufgabe 1 marvel_dc_data = read_csv('https://github.com/NikoStein/dma_data/raw/main/marvel_dc.csv') # a) Ein Bekannter von Ihnen behauptet, dass Superheldenfilme im Durchschnitt ein IMDB Ranking von 7.2 haben. # Formulieren Sie einen Hypothesentest zur Kontrolle der Aussage und führen Sie diesen durch. marvel_dc_data %>% ggplot(aes(x=IMDB_Score)) + geom_histogram(position = 'identity', bins = 10) + geom_vline(xintercept = 7.2, color='red') + theme_bw() t.test(marvel_dc_data$IMDB_Score, alternative = 'less', mu = 7.2) # b) Derselbe Bekannte ist davon überzeugt, dass der durchschnittliche US-Umsatz von Superheldenfilmen # höchstens $220.000.000 beträgt. Er bietet Ihnen eine entsprechende Wette um 50€ an. # Sollten Sie, als risikoneutraler Entscheider, diese Wette annehmen? marvel_dc_data %>% ggplot(aes(x=USA_Umsatz)) + geom_histogram(position = 'identity', bins = 10) + geom_vline(xintercept = 220000000, color='red') + theme_bw() + scale_x_continuous(labels = scales::unit_format(unit = "M", scale = 1e-6)) t.test(marvel_dc_data$USA_Umsatz, alternative = 'greater', mu=220000000) # c) Ihr Gefühl sagt Ihnen, dass Marvel Filme besser beim Publikum ankommen und entsprechend höhere # IMBD Scores erhalten. Überprüfen Sie diese Annahme. marvel_dc_data %>% ggplot(aes(x=IMDB_Score, fill = Studio)) + geom_histogram(position = 'identity', bins = 10, alpha=0.5) + theme_bw() dc_data = marvel_dc_data %>% filter(Studio == 'DC') marvel_data = marvel_dc_data %>% filter(Studio == 'Marvel') t.test(marvel_data$IMDB_Score, dc_data$IMDB_Score, alternative = 'greater') # d) Sie vermuten, dass Filme der Iron Man Trilogie einen höheren Umsatz haben als andere Filme. # Prüfen Sie die Hypothese. marvel_dc_data %>% filter(str_detect(Movie, 'Iron Man')) -> iron_man_data marvel_dc_data %>% filter(!str_detect(Movie, 'Iron Man')) -> no_iron_man_data t.test(no_iron_man_data$USA_Umsatz, alternative = 'less', mu=mean(iron_man_data$USA_Umsatz)) # e) Untersuchen Sie ob es einen Zusammenhang zwischen der Dauer eines Films und dem eingespielten Umsatz gibt. marvel_dc_data %>% ggplot(aes(x=RunTime, y=USA_Umsatz)) + geom_point() + theme_bw() reg <- lm(USA_Umsatz ~ RunTime, data = marvel_dc_data) summary(reg) # Aufgabe 2 loan_data = read_csv('https://raw.githubusercontent.com/NikoStein/dma_data/main/loan_data.csv') # a) Die Bank wirbt damit besonders verbraucherfreundlich zu sein und behauptet einen durchschnittlichen # Zinssatz von maximal 10% zu verlangen. Prüfen Sie die Behauptung. loan_data %>% ggplot(aes(x=int.rate)) + geom_histogram() + theme_bw() t.test(loan_data$int.rate, alternative = 'greater', mu=0.10) # b) Prüfen Sie ob sich die Zinsen von Kreditkartenschulden und Studienkrediten signifikant unterscheiden. loan_data %>% filter(purpose == 'credit_card') -> credit_card_loans loan_data %>% filter(purpose == 'educational') -> educational_loans t.test(credit_card_loans$int.rate, educational_loans$int.rate, alternative = 'two.sided') # c) Untersuchen und quantifizieren Sie den Zusammenhang zwischen Kredi-Score und Zinssatz. loan_data %>% ggplot(aes(x=fico, y=int.rate)) + geom_point() + theme_bw() reg <- lm(int.rate ~ fico, data=loan_data) summary(reg) # Aufgabe 3 wm_data = read_csv('https://raw.githubusercontent.com/NikoStein/dma_data/main/wm_data.csv') # a) Ein Bekannter erzählt Ihnen, dass er vermutet, dass durchschnittlich in WM-Spielen höchstens 3 # Tore fallen und bittet Sie die Vermutung kritisch zu prüfen. wm_data %>% ggplot(aes(x=goals)) + geom_histogram() + theme_bw() t.test(wm_data$goals, alternative = 'greater', mu=3) # b) Untersuchen Sie, ob die Anzahl der Tore der Heimmannschaft und die Anzahl der Tore der # Auswärtsmannschaft signifikant unterschiedlich ist. wm_data %>% ggplot() + geom_histogram(aes(x=`Home Team Goals`), fill='red', alpha=0.5) + geom_histogram(aes(x=`Away Team Goals`), fill='blue', alpha = 0.5) + theme_bw() t.test(wm_data$`Home Team Goals`, wm_data$`Away Team Goals`, alternative = 'two.sided') # c) Untersuchen Sie, ob die Anzahl der Tore in der ersten Halbzeit und die Anzahl der Tore # in der zweiten Halbzeit signifikant unterschiedlich ist. t.test(wm_data$first_half_goals, wm_data$second_half_goals, alternative = 'two.sided') # d) Sie vermuten, dass sich die Spielweise über die Jahre geändert hat. # Untersuchen Sie ob es einen Zusammenhang zwischen dem Jahr des Turniers und der Anzahl der Tore gibt. wm_data %>% ggplot(aes(x=Year, y = goals)) + geom_jitter() + theme_bw() reg <- lm(goals ~ Year, data=wm_data) summary(reg)