import pandas as pd
import numpy as np

contingency_table = pd.DataFrame(
    data=[
        [10, 10, 0],
        [5, 45, 10],
        [1, 4, 15]
    ],
    index=[f"A1_C{c}" for c in range(1, 4)],
    columns=[f"A2_C{c}" for c in range(1, 4)],
)
contingency_table


def expected_agreement(contingency_table: pd.DataFrame, verbose: bool = True) -> float:
      a1_c_counts = contingency_table.sum(axis=1)
      if verbose: print(f"A1 class frequencies:\n{a1_c_counts}")
      a2_c_counts = contingency_table.sum(axis=0)
      if verbose: print(f"A2 class frequencies:\n{a2_c_counts}")
      
      n_instances = contingency_table.values.sum()
      a_e = (1 / n_instances**2) * (a1_c_counts.values * a2_c_counts.values).sum()
      if verbose: print(f"Expected agreement is {a_e}")
      return a_e

def observed_agreement(contingency_table, verbose: bool = True):
        a_o = np.diag(contingency_table).sum() / contingency_table.values.sum()
        if verbose: print(f"Observed agreement is {a_o}")
        return a_o

def cohens_kappa(contingency_table: pd.DataFrame, verbose: bool = True) -> float:
    a_o = observed_agreement(contingency_table=contingency_table, verbose=verbose)
    a_e = expected_agreement(contingency_table=contingency_table, verbose=verbose)
    agreement = (a_o - a_e) / (1 - a_e)
    return agreement


cohens_kappa(contingency_table)

Observed agreement is 0.7
A1 class frequencies:
A1_C1    20
A1_C2    60
A1_C3    20
dtype: int64
A2 class frequencies:
A2_C1    16
A2_C2    59
A2_C3    25
dtype: int64
Expected agreement is 0.436

0.4680851063829786


import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

np.random.seed(42)

# Generate some mock data (we actually don't need those features)
X = np.random.randn(10_000, 100)

# 0 => No Cancer, 1 => Cancer
y = np.random.choice(2, p=(0.99, 0.01), size=(10_000))
print(np.unique(y, return_counts=True))

# Generate train-test-split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

(array([0, 1]), array([9894,  106]))


# Build a "classifier" and use it to predict our data.
from sklearn.base import BaseEstimator

class LazyClassifier(BaseEstimator):
    def fit(self, X, y):
        unique_labels, counts = np.unique(y, return_counts=True)
        self.most_common_label_ = unique_labels[np.argmax(counts)]
        return self
    def predict(self, X, y=None):
        return np.full(X.shape[0], fill_value=self.most_common_label_)

clf = LazyClassifier().fit(X_train, y_test)
y_pred = clf.predict(X_test)


# Compute the accuracy 
def accuracy(y_true: np.ndarray, y_pred: np.ndarray) -> float:
    return (y_true == y_pred).astype("int").mean().item()


print(f"The classifier obtained an accuracy of {accuracy(y_test, y_pred)}")

The classifier obtained an accuracy of 0.9873333333333333


from sklearn.metrics import classification_report
from sklearn.datasets import fetch_20newsgroups_vectorized
from sklearn.linear_model import LogisticRegression

train_data = fetch_20newsgroups_vectorized(subset="train")
test_data = fetch_20newsgroups_vectorized(subset="test")

train_target_names = np.array(train_data.target_names)
X_train, y_train = train_data.data, train_target_names[train_data.target]

test_target_names = np.array(test_data.target_names)
X_test, y_test = test_data.data, test_target_names[test_data.target]


clf = LogisticRegression(max_iter=200, n_jobs=-1)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print(classification_report(y_true=y_test, y_pred=y_pred))

                          precision    recall  f1-score   support

             alt.atheism       0.63      0.61      0.62       319
           comp.graphics       0.62      0.69      0.66       389
 comp.os.ms-windows.misc       0.72      0.65      0.68       394
comp.sys.ibm.pc.hardware       0.68      0.63      0.66       392
   comp.sys.mac.hardware       0.72      0.71      0.71       385
          comp.windows.x       0.72      0.68      0.70       395
            misc.forsale       0.74      0.85      0.79       390
               rec.autos       0.80      0.79      0.79       396
         rec.motorcycles       0.80      0.87      0.83       398
      rec.sport.baseball       0.70      0.82      0.75       397
        rec.sport.hockey       0.88      0.87      0.87       399
               sci.crypt       0.87      0.79      0.83       396
         sci.electronics       0.63      0.63      0.63       393
                 sci.med       0.67      0.63      0.65       396
               sci.space       0.86      0.84      0.85       394
  soc.religion.christian       0.69      0.89      0.78       398
      talk.politics.guns       0.62      0.79      0.69       364
   talk.politics.mideast       0.83      0.77      0.80       376
      talk.politics.misc       0.66      0.47      0.55       310
      talk.religion.misc       0.68      0.31      0.43       251

                accuracy                           0.73      7532
               macro avg       0.73      0.72      0.71      7532
            weighted avg       0.73      0.73      0.72      7532


from sklearn.metrics import confusion_matrix

conf_mat = pd.DataFrame(data=confusion_matrix(y_true=y_test, y_pred=y_pred), index=test_target_names, columns=test_target_names)

fig, ax = plt.subplots(figsize=(10, 10))
sns.heatmap(conf_mat, annot=True, annot_kws={'size': 5}, ax=ax)

<Axes: >


def generate_data(n_samples=100):

    sample_baseline = np.random.normal(loc=0.70, scale=0.01, size=n_samples)
    sample_new_a = np.random.normal(loc=0.702, scale=0.01, size=n_samples)
    sample_new_b = np.random.normal(loc=0.71, scale=0.01, size=n_samples)

    df = pd.DataFrame({
        "seed": list(range(n_samples)),
        "score_baseline": sample_baseline,
        "score_new_model_a": sample_new_a,
        "score_new_model_b": sample_new_b,
    })
    return df

df = generate_data(100)
df.head()


# Lets plot the score distribution, 
sns.histplot(x="score", hue="model", data=df.melt(id_vars="seed", var_name="model", value_name="score"))

<Axes: xlabel='score', ylabel='Count'>


from scipy.stats import ttest_ind

print(f"Baseline->NewModelA (Two-sided) {ttest_ind(df['score_baseline'], df['score_new_model_a'])}")
print(f"Baseline->NewModelA (One-sided: Left mean is less) {ttest_ind(df['score_baseline'], df['score_new_model_a'], alternative='less')}")
print()
print(f"Baseline->NewModelB (Two-sided) {ttest_ind(df['score_baseline'], df['score_new_model_b'])}")
print(f"Baseline->NewModelB (One-sided: Left mean is less) {ttest_ind(df['score_baseline'], df['score_new_model_b'], alternative='less')}")

Baseline->NewModelA (Two-sided) Ttest_indResult(statistic=-1.1836442539095615, pvalue=0.23797301780102723)
Baseline->NewModelA (One-sided: Left mean is less) Ttest_indResult(statistic=-1.1836442539095615, pvalue=0.11898650890051361)

Baseline->NewModelB (Two-sided) Ttest_indResult(statistic=-5.663557586242623, pvalue=5.164301672175342e-08)
Baseline->NewModelB (One-sided: Left mean is less) Ttest_indResult(statistic=-5.663557586242623, pvalue=2.582150836087671e-08)


df_large = generate_data(10_000)
sns.histplot(x="score", hue="model", data=df_large.melt(id_vars="seed", var_name="model", value_name="score"))

<Axes: xlabel='score', ylabel='Count'>


print(f"Baseline->NewModelA (Two-sided) {ttest_ind(df_large['score_baseline'], df_large['score_new_model_a'])}")
print(f"Baseline->NewModelA (One-sided: Left mean is less) {ttest_ind(df_large['score_baseline'], df_large['score_new_model_a'], alternative='less')}")
print()
print(f"Baseline->NewModelB (Two-sided) {ttest_ind(df_large['score_baseline'], df_large['score_new_model_b'])}")
print(f"Baseline->NewModelB (One-sided: Left mean is less) {ttest_ind(df_large['score_baseline'], df_large['score_new_model_b'], alternative='less')}")

Baseline->NewModelA (Two-sided) Ttest_indResult(statistic=-14.47541201495311, pvalue=3.004281497267246e-47)
Baseline->NewModelA (One-sided: Left mean is less) Ttest_indResult(statistic=-14.47541201495311, pvalue=1.502140748633623e-47)

Baseline->NewModelB (Two-sided) Ttest_indResult(statistic=-69.75427850602864, pvalue=0.0)
Baseline->NewModelB (One-sided: Left mean is less) Ttest_indResult(statistic=-69.75427850602864, pvalue=0.0)


from scipy.stats import wilcoxon

print(f"Baseline->NewModelA (Two-sided) {wilcoxon(df_large['score_baseline'], df_large['score_new_model_a'])}")
print(f"Baseline->NewModelA (One-sided: Left mean is less) {ttest_ind(df_large['score_baseline'], df_large['score_new_model_a'], alternative='less')}")
print()
print(f"Baseline->NewModelB (Two-sided) {wilcoxon(df_large['score_baseline'], df_large['score_new_model_b'])}")
print(f"Baseline->NewModelB (One-sided: Left mean is less) {ttest_ind(df_large['score_baseline'], df_large['score_new_model_b'], alternative='less')}")

Baseline->NewModelA (Two-sided) WilcoxonResult(statistic=20836232.0, pvalue=3.2885594110579395e-47)
Baseline->NewModelA (One-sided: Left mean is less) Ttest_indResult(statistic=-14.47541201495311, pvalue=1.502140748633623e-47)

Baseline->NewModelB (Two-sided) WilcoxonResult(statistic=8080701.0, pvalue=0.0)
Baseline->NewModelB (One-sided: Left mean is less) Ttest_indResult(statistic=-69.75427850602864, pvalue=0.0)

	seed	score_baseline	score_new_model_a	score_new_model_b
0	0	0.697800	0.698950	0.711911
1	1	0.697652	0.700998	0.714526
2	2	0.707310	0.718712	0.705624
3	3	0.689949	0.692404	0.714525
4	4	0.710362	0.718426	0.728497

Data Science for Humanities 2¶

Session: Evaluation & Stastical significance testing¶

Summer term 24¶

Prof. Goran Glavaš, Lennart Keller¶

Today's plan¶

Recap: Classification & Regression¶

Classification¶

Regression¶

Gold-standard-annotations & Inter-annotator agreement¶

Annotations in the Computational Humanities¶

Inter-annotator agreement¶

Cohens Kappa - Measuring class-based annotations¶

Cohens Kappa -¶

Cohens Kappa - Example¶

Gold-standard annotations¶

Literature¶

Evaluation¶

Prerequisite - Data for training and testing?¶

Prerequisite - Train-test-split¶

Prerequisite - $K$-Fold Cross-Validation¶

Prerequisite - Confusion matrix¶

Classification - Accuracy¶

Problem with accuracy¶

Label imbalance and accuracy - conclusion¶

Precision and Recall¶

F1 Measure¶

Evaluation: Moving from binary- to multi-class settings¶

Regression - Mean Squared Error¶

Regression - Mean Absolute Error¶

Regression - Root Mean Squared Error¶

Regression - Why three different metrics?¶

Statistical significance testing - Introduction¶

Significance testing - Basics I¶

Significance testing - Basics II¶

Significance testing - Parametric test: Student's T-Test¶

Student's T-Test: Which side do you chose?¶

T-test: Influence of the sample size¶

Non-parametric tests¶

Non-parametric tests - Wilcoxon signed-rank test¶