library(tidyverse)


# Aufgabe 1
marvel_dc_data = read_csv('https://github.com/NikoStein/dma_data/raw/main/marvel_dc.csv')

# a) Ein Bekannter von Ihnen behauptet, dass Superheldenfilme im Durchschnitt ein IMDB Ranking von 7.2 haben. 
# Formulieren Sie einen Hypothesentest zur Kontrolle der Aussage und führen Sie diesen durch.

# H0: mu = 7.2
# H1: mu != 7.2

marvel_dc_data %>%
  ggplot(aes(x=IMDB_Score)) + 
  geom_histogram(bins=10) + 
  geom_vline(xintercept = 7.2, color='red') +
  geom_vline(xintercept = mean(marvel_dc_data$IMDB_Score), color='blue') +
  theme_bw()

t.test(marvel_dc_data$IMDB_Score, alternative = 'two.sided', mu= 7.2)


# b)	Derselbe Bekannte ist davon überzeugt, dass der durchschnittliche US-Umsatz von Superheldenfilmen 
# höchstens $220.000.000 beträgt. Er bietet Ihnen eine entsprechende Wette um 50€ an. 
# Sollten Sie, als risikoneutraler Entscheider, diese Wette annehmen?

marvel_dc_data %>%
  ggplot(aes(x=USA_Umsatz)) + 
  geom_histogram(bins=10) +
  geom_vline(xintercept = 220000000, color='red')+
  theme_bw()

# H0: mu <= 220.000.000
# H1: mu > 220.000.000

t.test(marvel_dc_data$USA_Umsatz, alternative = 'greater', mu=220000000)


# c) Ihr Gefühl sagt Ihnen, dass Marvel Filme besser beim Publikum ankommen und entsprechend höhere 
# IMBD Scores erhalten. Überprüfen Sie diese Annahme. 

marvel_dc_data %>%
  ggplot(aes(x=IMDB_Score, fill=Studio)) +
  geom_histogram(position = 'identity', bins=15, alpha=0.5) +
  theme_bw()

marvel_dc_data %>%
  filter(Studio == 'Marvel') -> marvel_data

marvel_dc_data %>%
  filter(Studio == 'DC') -> dc_data

# H0: mu_marvel <= mu_dc
# H1: mu_marvel > mu_dc

t.test(marvel_data$IMDB_Score, dc_data$IMDB_Score, alternative = 'greater')

# d) Sie vermuten, dass Filme der Iron Man Trilogie einen höheren Umsatz haben als andere Filme. 
# Prüfen Sie die Hypothese.

marvel_dc_data %>%
  filter(str_detect(Movie, 'Iron Man')) -> iron_man_data
marvel_dc_data %>%
  filter(!str_detect(Movie, 'Iron Man')) -> no_iron_man_data

mean(iron_man_data$USA_Umsatz)

# H0: mu_no_iron_man_data >= 346.616.667
# H1: mu_no_iron_man_data < 346.616.667

t.test(no_iron_man_data$USA_Umsatz, alternative = 'less', mu=mean(iron_man_data$USA_Umsatz))


# e) Untersuchen Sie ob es einen Zusammenhang zwischen der Dauer eines Films und dem eingespielten Umsatz gibt. 
marvel_dc_data %>%
  ggplot(aes(x=RunTime, y=USA_Umsatz)) + 
  geom_point() + 
  theme_bw()

reg <- lm(USA_Umsatz ~ RunTime, data = marvel_dc_data)
summary(reg)

marvel_dc_data %>%
  ggplot(aes(x=RunTime, y=USA_Umsatz)) + 
  geom_point() + 
  geom_abline(intercept = reg$coefficients[1], 
              slope = reg$coefficients[2]) +
  theme_bw() +
  xlim(c(0, 600)) + ylim(c(-500000000, 9000000000))

predict(reg, newdata = data.frame(RunTime = c(5, 50, 600)))
max(marvel_dc_data$RunTime)

# Aufgabe 2
loan_data = read_csv('https://raw.githubusercontent.com/NikoStein/dma_data/main/loan_data.csv')

# a) Die Bank wirbt damit besonders verbraucherfreundlich zu sein und behauptet einen durchschnittlichen 
# Zinssatz von maximal 10% zu verlangen. Prüfen Sie die Behauptung. 

# b) Prüfen Sie ob sich die Zinsen von Kreditkartenschulden und Studienkrediten signifikant unterscheiden.

# c) Untersuchen und quantifizieren Sie den Zusammenhang zwischen Kredi-Score und Zinssatz.

# Aufgabe 3
wm_data = read_csv('https://raw.githubusercontent.com/NikoStein/dma_data/main/wm_data.csv')

# a) Ein Bekannter erzählt Ihnen, dass er vermutet, dass durchschnittlich in WM-Spielen höchstens 3 
# Tore fallen und bittet Sie die Vermutung kritisch zu prüfen.

# b) Untersuchen Sie, ob die Anzahl der Tore der Heimmannschaft und die Anzahl der Tore der 
# Auswärtsmannschaft signifikant unterschiedlich ist.

# c)	Untersuchen Sie, ob die Anzahl der Tore in der ersten Halbzeit und die Anzahl der Tore 
# in der zweiten Halbzeit signifikant unterschiedlich ist.

# d) Sie vermuten, dass sich die Spielweise über die Jahre geändert hat. 
# Untersuchen Sie ob es einen Zusammenhang zwischen dem Jahr des Turniers und der Anzahl der Tore gibt.