library(tidyverse) # Aufgabe 1 marvel_dc_data = read_csv('https://github.com/NikoStein/dma_data/raw/main/marvel_dc.csv') # a) Ein Bekannter von Ihnen behauptet, dass Superheldenfilme im Durchschnitt ein IMDB Ranking von 7.2 haben. # Formulieren Sie einen Hypothesentest zur Kontrolle der Aussage und führen Sie diesen durch. # H0: mu = 7.2 # H1: mu != 7.2 marvel_dc_data %>% ggplot(aes(x=IMDB_Score)) + geom_histogram(bins=10) + geom_vline(xintercept = 7.2, color='red') + geom_vline(xintercept = mean(marvel_dc_data$IMDB_Score), color='blue') + theme_bw() t.test(marvel_dc_data$IMDB_Score, alternative = 'two.sided', mu= 7.2) # b) Derselbe Bekannte ist davon überzeugt, dass der durchschnittliche US-Umsatz von Superheldenfilmen # höchstens $220.000.000 beträgt. Er bietet Ihnen eine entsprechende Wette um 50€ an. # Sollten Sie, als risikoneutraler Entscheider, diese Wette annehmen? marvel_dc_data %>% ggplot(aes(x=USA_Umsatz)) + geom_histogram(bins=10) + geom_vline(xintercept = 220000000, color='red')+ theme_bw() # H0: mu <= 220.000.000 # H1: mu > 220.000.000 t.test(marvel_dc_data$USA_Umsatz, alternative = 'greater', mu=220000000) # c) Ihr Gefühl sagt Ihnen, dass Marvel Filme besser beim Publikum ankommen und entsprechend höhere # IMBD Scores erhalten. Überprüfen Sie diese Annahme. marvel_dc_data %>% ggplot(aes(x=IMDB_Score, fill=Studio)) + geom_histogram(position = 'identity', bins=15, alpha=0.5) + theme_bw() marvel_dc_data %>% filter(Studio == 'Marvel') -> marvel_data marvel_dc_data %>% filter(Studio == 'DC') -> dc_data # H0: mu_marvel <= mu_dc # H1: mu_marvel > mu_dc t.test(marvel_data$IMDB_Score, dc_data$IMDB_Score, alternative = 'greater') # d) Sie vermuten, dass Filme der Iron Man Trilogie einen höheren Umsatz haben als andere Filme. # Prüfen Sie die Hypothese. marvel_dc_data %>% filter(str_detect(Movie, 'Iron Man')) -> iron_man_data marvel_dc_data %>% filter(!str_detect(Movie, 'Iron Man')) -> no_iron_man_data mean(iron_man_data$USA_Umsatz) # H0: mu_no_iron_man_data >= 346.616.667 # H1: mu_no_iron_man_data < 346.616.667 t.test(no_iron_man_data$USA_Umsatz, alternative = 'less', mu=mean(iron_man_data$USA_Umsatz)) # e) Untersuchen Sie ob es einen Zusammenhang zwischen der Dauer eines Films und dem eingespielten Umsatz gibt. marvel_dc_data %>% ggplot(aes(x=RunTime, y=USA_Umsatz)) + geom_point() + theme_bw() reg <- lm(USA_Umsatz ~ RunTime, data = marvel_dc_data) summary(reg) marvel_dc_data %>% ggplot(aes(x=RunTime, y=USA_Umsatz)) + geom_point() + geom_abline(intercept = reg$coefficients[1], slope = reg$coefficients[2]) + theme_bw() + xlim(c(0, 600)) + ylim(c(-500000000, 9000000000)) predict(reg, newdata = data.frame(RunTime = c(5, 50, 600))) max(marvel_dc_data$RunTime) # Aufgabe 2 loan_data = read_csv('https://raw.githubusercontent.com/NikoStein/dma_data/main/loan_data.csv') # a) Die Bank wirbt damit besonders verbraucherfreundlich zu sein und behauptet einen durchschnittlichen # Zinssatz von maximal 10% zu verlangen. Prüfen Sie die Behauptung. # b) Prüfen Sie ob sich die Zinsen von Kreditkartenschulden und Studienkrediten signifikant unterscheiden. # c) Untersuchen und quantifizieren Sie den Zusammenhang zwischen Kredi-Score und Zinssatz. # Aufgabe 3 wm_data = read_csv('https://raw.githubusercontent.com/NikoStein/dma_data/main/wm_data.csv') # a) Ein Bekannter erzählt Ihnen, dass er vermutet, dass durchschnittlich in WM-Spielen höchstens 3 # Tore fallen und bittet Sie die Vermutung kritisch zu prüfen. # b) Untersuchen Sie, ob die Anzahl der Tore der Heimmannschaft und die Anzahl der Tore der # Auswärtsmannschaft signifikant unterschiedlich ist. # c) Untersuchen Sie, ob die Anzahl der Tore in der ersten Halbzeit und die Anzahl der Tore # in der zweiten Halbzeit signifikant unterschiedlich ist. # d) Sie vermuten, dass sich die Spielweise über die Jahre geändert hat. # Untersuchen Sie ob es einen Zusammenhang zwischen dem Jahr des Turniers und der Anzahl der Tore gibt.