Zurück zum Artikel
Article Notebook
Quellcode herunterladen

Evidenz. Besser. Kommunizieren.

Autor:innen
Zugehörigkeiten

Samuel Merk

Pädagogische Hochschule Karlsruhe

Sarah Bez

Pädagogische Hochschule Karlsruhe

Kirstin Schmidt

Pädagogische Hochschule Karlsruhe

Zusammenfassung
Lehrkräfte treffen tagtäglich unzählige Entscheidungen. Dabei rekurrieren sie vornehmlich auf persönliche Erfahrung, Konzeptwissen oder Heuristiken. Evidenz aus Bildungswissenschaften und Fachdidaktiken wird das Potenzial zugeschrieben, diese Entscheidungsprozesse ergänzend zu informieren und zu objektivieren. Dazu ist es jedoch notwendig, dass die betroffenen Lehrkräfte diese Evidenz nicht fehlinterpretieren, was wiederum entsprechende Kompetenzen der Lehrkräfte oder besonders geschickte Wissenschaftskommunikation voraussetzt. Der vorliegende Beitrag untersucht daher die Möglichkeiten und Grenzen der Kommunikation von Effektstärken an Lehramtsstudierende am Beispiel der Berichterstattung zu PISA 2022. Im Ergebnis zeigt sich, dass Lehramtsstudierende Effektstärken sehr ungenau (Noise) ein- und im Mittel drastisch überschätzen (Practical Significance Bias). Dieser Bias konnte durch die Verwendung alternativer Visualisierungen lediglich partiell reduziert werden. Im Lichte dieser Ergebnisse wird diskutiert, inwiefern eine kokonstruktive Entwicklung von Wissenschaftskommunikationsformaten evidenzinformierte Entscheidungen von Lehrkräften katalysieren kann.
Schlüsselwörter

Lehrpersonenprofessionalisierung, Evidenzinformierte Praxis, Wissenschaftskommunikation, Practical Significance Bias

Die bildungswissenschaftliche Literatur zu Schul- und Unterrichtsentwicklung bedient sich einer Vielzahl theoretischer Grundlegungen (Bohl, 2020) und blickt daher aus ganz verschiedenen Winkeln auf diesen Gegenstand: Neben eher systemtheoretischen Perspektiven (K.-O. Bauer & Rolff, 1978) finden sich u.a. Ansätze mit Entlehnungen aus der Lehr-Lern- (Helmke, 2022) und Organisationspsychologie (Holtappels, 2007) oder mit dem Leitgedanken der Praxisorientierung (Brügelmann, 2018). Datenbasierte Schul- und Unterrichtsentwicklung hat im deutschsprachigen Raum erst in den vergangenen zwei Dekaden Verbreitung gefunden, wenngleich deren Grundidee des empirischen Einholens von Information über den Ist-Stand schon zuvor gefordert und auch umgesetzt wurde (Altrichter & Rolff, 2006). In jüngerer Zeit ist jedoch von inner- wie außerwissenschaftlichen Stakeholdern vermehrt die Forderung nach einer Entwicklung von Schule und Unterricht hörbar geworden, die ihre Entscheidungen durch Evidenz informiert (AERO, 2023; J. Bauer & Prenzel, 2012; Council of the European Union, 2024; Pellegrini & Vivanet, 2021; Slavin, 2020). Da jedoch einerseits die Genese und Interpretation von Evidenz nicht zu den ausgeprägtesten professionellen Kompetenzen von Lehrkräften gehört (Gussen et al., 2023) und andererseits Bildungswissenschaftler- und Fachdidaktiker:innen wohl oft keine Expert:innen für die praktische Gestaltung von Schule und Unterricht sein dürften, plädiert der vorliegende Beitrag dafür, Wissenschaftskommunikation erstens als wichtige Aufgabe von Bildungswissenschaftler:innen und Fachdidaktiker:innen aufzufassen, zweitens das Gelingen von Wissenschaftskommunikation zum Gegenstand empirischer Forschung zu machen und drittens die Entwicklung von neuen Wissenschaftskommunikationsformaten als dialogischen Prozess zwischen Bildungswissenschaften, Fachdidaktiken und (angehenden) Lehrkräften aufzufassen.

Zur Begründung dieser Plädoyers führt der vorliegende Beitrag zunächst in Konzepte und Begriffe evidenzinformierter Praxis sowie in Wissenschaftskommunikation in der Lehrpersonenbildung ein. Anschließend wird die vorliegende Studie – ein kleines Experiment zur Kommunikation der Entwicklung der Lesekompetenz in den deutschen Kohorten des Programme of International Student Assessment (PISA) – als empirisches Beispiel angeführt.

Theoretischer Hintergrund

Evidenzinformiertes Handeln

Was kann unter »Evidenz« verstanden werden?

Etymologisch kann »Evidenz« als Substantivierung des Adjektivs »evident« gesehen werden (Kluge, 2011, S. 263), welches wiederum im 18. Jahrhundert dem lateinischen »evidens« (»ersichtlich, augenscheinlich«, Hau et al., 2012) entlehnt wurde (Stark, 2017). Allerdings meinen Bildungswissenschaftler:innen und Fachdidaktiker:innen gerade nicht »das Augenscheinliche« oder »das direkt Ersichtliche«, wenn sie von Evidenz sprechen. Vielmehr ist in Definitionsvorschlägen von »wissenschaftlichem Wissen« (Stark, 2017), von einer »Funktion« von Daten für die Bestätigung oder Widerlegung von Hypothesen und Theorien (Bromme et al., 2014) oder von »warrants for making assertions or knowledge claims« (Shavelson & Towne, 2002, S. 18) die Rede. In einer aktuellen Systematisierung verschiedener Verständnisse des Evidenz-Begriffs in den Bildungswissenschaften hebt Schmidt (2024) hervor, dass nur wenige Definitionen ausschließlich quantitativer Empirie die Möglichkeit zuschreiben, Evidenz zu generieren, sondern meistens auch qualitative Empirie, Theorien sowie mathematische und logische Analysen als potenziell evidenzgenerierend definiert werden. Insbesondere die Inklusion nicht-empirischer Entitäten wie Theorien oder logische Analysen mögen auf den ersten Blick widersprüchlich wirken, da der Begriff Evidenz insbesondere im deutschsprachigen Raum teils mit Ergebnissen explanativer quantitativer Studien assoziiert scheint. Dieser scheinbare Widerspruch wirkt jedoch weniger stark, berücksichtigt man, dass insbesondere in der Lehr-Lernforschung mit »Theorien« wohl eher sogenannte »tried-and-tested theories« (Renkl, 2022) gemeint sein dürften. Diese stellen eher Rahmenmodelle oder sogenannte »interventional models« (z.B. Cognitive Theory of Multi-Media Learning) dar (ebd.). Da solche Theorien wiederum meist stark von empirischen Ergebnissen beeinflusst sind, ist es plausibel, ihnen die Funktion als »warrant« für »knowledge claims« zuzuschreiben und sie also auch als Evidenz zu bezeichnen.

Evidenzinformiert, evidenzorientiert, evidenzbasiert

Im vorigen Abschnitt wurde deutlich, dass Evidenz ein uneinheitlich gebrauchter und gleichermaßen komplex wie unscharf definierter Begriff ist. Im Lichte dessen erscheint es nur konsequent, dass auch die Begriffe evidenzbasiert, evidenzinformiert, evidenzorientiert, datenbasiert, forschungsbasiert und forschungsinformiert als Jingle Jangle eingeordnet werden können (Kelley, 1927; Thorndike, 1904), dass also unterschiedliche Begriffe für das Gleiche und gleiche Begriffe für Unterschiedliches gebraucht werden. Dabei speisen sich die Differenzierungen von evidenzbasiert und evidenzinformiert sowie evidenzorientiert aus recht verschiedenen ontologischen, epistemologischen und wissenschaftskritischen (Schmid & Lutz, 2007) Überlegungen: Mit Evidenzbasierung wird z.B. oft »the medical model« (Jones, 2024) im Sinne von Evidenz aus Kontrollgruppenexperimenten als notwendige Voraussetzung für praktische Entscheidungen assoziiert und damit sowohl epistemologische (hier Kontrollgruppenexperiment) wie wissenschaftskritische (hier notwendige Voraussetzung) Kriterien zur Abgrenzung herangezogen. Den Begriffen »evidenzorientiert« und »evidenzinformiert« wird zum einen ein weniger enger Evidenzbegriff zugeordnet (ontologischer und epistemologischer Aspekt, Stark, 2017) und zum anderen der Evidenz in der praktischen Verwendung eher eine heuristische Funktion (wissenschaftskritischer Aspekt).

In der deutschsprachigen bildungswissenschaftlichen Diskussion sind nach Bromme et al.(2014) zunächst zwei verschiedene Diskussionsstränge bzgl. evidenzinformierter Entscheidungen im Bildungskontext unterscheidbar: Ein Diskussionsstrang beschäftigt sich mit evidenzinformierten Entscheidungen in der Bildungspolitik und der andere mit evidenzinformierten Entscheidungen und Handlungen in der Bildungspraxis. In beiden Diskussionen werden der Evidenz verschiedene Funktionen zugeschrieben. Bromme et al. (2014) etwa sprechen davon, dass Evidenz über Zustände informieren, Mechanismen erklären oder Interventionen evaluieren kann. Groß Ophoff et al. (2023) wiederum unterscheiden konzeptuelle Nutzung (»evidence allows focussing attention, provides new insights, challenges beliefs or reframes thinking«, S. 2), instrumentelle Nutzung (»identify or develop concrete measures to be taken«, S. 2) und symbolische Nutzung (»justif[y] or support of existing positions or established procedures«, S. 2).

Potenzielle Wege zu einer gelingenden Wissenschaftskommunikation

Unabhängig vom Kontext und der Funktion evidenzinformierter Entscheidungen ist es plausibel anzunehmen, dass eine erfolgreiche Kommunikation von Evidenz (im Sinne der Induktionen einer konsistenten Auffassung) eine notwendige Voraussetzung für das Gelingen evidenzinformierter Entscheidungen ist: Wird Evidenz fehlinterpretiert und erfolgt eine anschließende Entscheidung kohärent zu dieser Fehlinterpretation, wird die Wirkung dieser Entscheidung nicht die Erwünschte sein.

In [1]:
library(tidyverse)
Warning: package 'ggplot2' was built under R version 4.4.1
Warning: package 'tibble' was built under R version 4.4.1
Warning: package 'purrr' was built under R version 4.4.1
Warning: package 'stringr' was built under R version 4.4.1
Warning: package 'forcats' was built under R version 4.4.1
Warning: package 'lubridate' was built under R version 4.4.1
── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
✔ dplyr     1.1.4     ✔ readr     2.1.5
✔ forcats   1.0.1     ✔ stringr   1.6.0
✔ ggplot2   4.0.0     ✔ tibble    3.3.0
✔ lubridate 1.9.4     ✔ tidyr     1.3.1
✔ purrr     1.2.0     
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggdist)
Warning: package 'ggdist' was built under R version 4.4.1
library(bayestestR)
Warning: package 'bayestestR' was built under R version 4.4.1

Attaching package: 'bayestestR'

The following object is masked from 'package:ggdist':

    hdi
library(hrbrthemes)
library(effectsize)
Warning: package 'effectsize' was built under R version 4.4.1
library(patchwork)
Warning: package 'patchwork' was built under R version 4.4.1
library(ggtext)
library(flextable)
Warning: package 'flextable' was built under R version 4.4.1

Attaching package: 'flextable'

The following object is masked from 'package:purrr':

    compose
library(geomtextpath)
Warning: package 'geomtextpath' was built under R version 4.4.1
library(colorspace)
Warning: package 'colorspace' was built under R version 4.4.1
library(brms) # stan should be installed
Warning: package 'brms' was built under R version 4.4.1
Loading required package: Rcpp
Warning: package 'Rcpp' was built under R version 4.4.1
Loading 'brms' package (version 2.23.0). Useful instructions
can be found by typing help('brms'). A more detailed introduction
to the package is available through vignette('brms_overview').

Attaching package: 'brms'

The following objects are masked from 'package:ggdist':

    dstudent_t, pstudent_t, qstudent_t, rstudent_t

The following object is masked from 'package:stats':

    ar
set.seed(189)
data_reading_true <- 
    tibble(`Anzahl korrekt gelesener Worte pro Minute` = 
               round(c(rpois(500, 63), rpois(500, 61)), 1),
           Gruppe = c(rep("KI-Lesetutor", 500),
                      rep("Lautlesen", 500))) %>% 
    mutate(Gruppe = factor(Gruppe, 
                           levels = c("Lautlesen", "KI-Lesetutor")))

plot_true_data <- 
    ggplot(data_reading_true,
       aes(`Anzahl korrekt gelesener Worte pro Minute`, Gruppe)) +
    geom_dots(color = "#111111", fill = "#111111") +
    ylab("") +
    ggtitle("Daten", "der Studie") +
    theme_ipsum_rc()
        
plot_press <- 
    ggplot() +
    ggtitle("Ausschnitt", "der Pressemitteilung") +
    geom_richtext(
        data = data.frame(x = 1, y = 1, 
                          text = "In einer randomisierten Studie<br>mit *N* = 1001 Drittklässler:innen<br> zeigten diejenigen,<br>die täglich 15 Minuten<br> mit dem KI-Vorlesetutor übten,<br><b>signifikant bessere Leseflüssigkeit,</b><br>als Drittklässler:innen,<br>die täglich 15 Minuten<br>(ohne KI-Tutor) laut lasen."),
        aes(x = x, y = y, label = text),
        size = 3,
        label.color = "black") +
    theme_ipsum_rc() +
    theme(panel.background = element_blank(),
          panel.grid.major = element_blank(),
          panel.grid.minor = element_blank(),
          axis.title.x = element_blank(),
          axis.title.y = element_blank(),
          axis.text.x = element_blank(),
          axis.text.y = element_blank())

data_teacher <- 
    tibble(`Anzahl korrekt gelesener Worte pro Minute` = 
               round(c(distribution_poisson(500, 70), 
                       distribution_poisson(500, 61)), 1),
           Gruppe = c(rep("KI-Lesetutor", 500),
                      rep("Lautlesen", 500))) %>% 
    mutate(Gruppe = factor(Gruppe, 
                           levels = c("Lautlesen", "KI-Lesetutor")))

plot_teacher_representation <- 
    ggplot(data_teacher,
       aes(`Anzahl korrekt gelesener Worte pro Minute`, Gruppe)) +
    geom_dots(color = "#111111", fill = "#111111") +
    ylab("") +
    ggtitle("Interpretation", "einer Lehrkraft") +
    theme_ipsum_rc() +
    theme(axis.text.y = element_blank())


plot_true_data + plot_press + plot_teacher_representation +
    plot_layout(guides = "collect")

#cliffs_delta(`Anzahl korrekt gelesener Worte pro Minute` ~ Gruppe,
#             data = data_reading_true)
#cliffs_delta(`Anzahl korrekt gelesener Worte pro Minute` ~ Gruppe,
#             data = data_teacher)
Abbildung 1: Daten der (fiktiven) Studie, Pressemitteilung und Vorstellung der Lehrkraft.

Liest eine Lehrkraft etwa die (fiktive) Pressemitteilung in Abbildung 1, stellt sich die Ergebnisse darauf basierend wie in Abbildung 1 rechts vor (Schmidt et al., 2023) und überzeugt anschließend ihre Schulleitung, diesen KI-Lesetutor zu beschaffen und schulweit einzusetzen, liegt höchstwahrscheinlich dysfunktionales evidenzinformiertes Handeln vor. Während die Forscher:innen mit »signifikant bessere Leseflüssigkeit« zum Ausdruck bringen, dass ihre Daten unter der Annahme eines Nulleffekts unwahrscheinlich sind (signifikanter p-Wert), interpretiert die Lehrkraft diese Formulierung als »Unterschied bedeutsamer Größe«. Folglich schlussfolgert sie, dass es Sinn macht, Geld und Zeit in die Anschaffung und Implementation des KI-Lesetutors zu investieren, weil sie den KI-Lesetutor für deutlich lernwirksamer hält als lautes Lesen, obwohl evtl. die Implementation weiterer Maßnahmen effektiver, kostengünstiger und weniger zeitaufwändig gewesen wäre.

Die Forschung zur Wissenschaftskommunikation hat eine Reihe solcher potenziellen Problematiken aufgezeigt: Z.B. das soeben beschriebene Verwechseln von Inferenzstatistik und Effektstärke (Schmidt et al., 2023), das automatische Annehmen starker Effekte, wenn keine Effektstärken berichtet wurden (Practical Significance Bias, Michal & Shah, 2024), Rückschaufehler (Masnick & Zimmerman, 2009) oder die verzerrte Einschätzung der Belastbarkeit von Befunden (z.B. das Ergebnis einer Laborstudie mit N = 56 mit großem Effekt und daher hoher statistischer Power) durch irrelevante Zahlen (z.B. Stichprobengröße einer zuvor gelesenen Large-Scale-Studie, Bohrer et al., 2025).

Gleichzeitig liegt eine Reihe von Befunden vor, die implizieren, dass verbesserte Kommunikation von Evidenz an Lehrkräfte zu Zwecken evidenzinformierten Handelns vergleichsweise einfach umsetzbar ist (z.B. Schneider et al., 2025). Grundsätzlich lassen sich die bisherigen Befunde in angebotsseitige und nutzendenseitige Ansätze unterscheiden, also in Interventionen, die die Auswahl und Darstellung der Evidenz optimieren möchten und Ansätze, die bei der Scientific, Data und Statistical Literacy der (angehenden) Lehrkräfte ansetzen (Brühwiler & Leutwyler, 2020).

Zu zweiterem gehören Programme wie »Data Teams« (Schildkamp et al., 2018), welche durch ein umfängliches Set an vordefinierten Leitlinien und Aktivitäten versucht, konkrete schulische Probleme mit Hilfe von (oft eigens dafür genierten) Daten zu lösen, wobei meist 4-6 Lehrkräfte und Schulleiter:innen mit Forschenden kooperieren. Hierzu gehören auch »Brokering-Ansätze« (teilweise als »research practice partnerships« bezeichnet), in welchen Wissenschaftler:innen und Lehrpersonen (insbesondere Schulleitungen) gemeinsam versuchen, konkrete schulischen Probleme unter Rückgriff auf wissenschaftliche Erkenntnisse zu lösen (z.B. Sharples & Sheard, 2015). Zudem können kurz- (Merk et al., 2020) oder längerfristig (Karst et al., 2024) angelegte Interventionen zur Anbahnung notwendiger Kompetenzen für evidenzinformiertes Handeln wie die Interpretation von grafisch dargestellten Daten (Friel et al., 2001) oder Forschungskompetenz (Neuenschwander, 2005) sowie die konkrete Unterstützung für evidenzinformiertes Handeln (Clearing House Unterricht Academy, 2025), diesem Ansatz zugerechnet werden.

Angebotsseitige Versuche die Kommunikation von Evidenz zu verbessern, stammen aus verschiedensten Disziplinen: So wird z.B. in der Psychologie untersucht (Grice et al., 2020), welche algebraisch äquivalenten Formulierungen zu standardisierten Effektstärken bei Rezeption durch Laien adäquatere Vorstellungen induzieren (siehe Tabelle 1). In der Human-Computer-Interaction-Forschung werden (teils dynamische) Visualisierungstechniken entwickelt, um Effektstärken und Inferential Uncertainty besser zu kommunizieren (z.B. Hullman et al., 2015; Zhang et al., 2023). Die bildungswissenschaftliche Lehrerbildungsforschung sowie die Fachdidaktiken erproben innovative Formate für die Zielgruppe der Lehrkräfte (z.B. Rycroft-Smith & Stylianides, 2022; Schneider et al., 2025), was auch das Anliegen der vorliegenden Studie ist.

In [2]:
library(gt)
Warning: package 'gt' was built under R version 4.4.1
library(timesaveR)
Note re timesaveR: Many functions in this package are alpha-versions - please treat results with care and report bugs and desired features.

Attaching package: 'timesaveR'
The following object is masked from 'package:flextable':

    fmt_pct
In [3]:
# Create table
tibble(`header1` = c("Standard-kommunikation", "Verbesserte Kommunikation"), 
       `Unterschied` = c("Die Leseleistung von Schülerinnen und Schülern sank in PISA 2022 um 28 Punkte und damit auf den Tiefststand.", "Die Leseleistungen von Schülerinnen und Schülern in Deutschland aus PISA 2018 und aus PISA 2022 überlappen sich zu 88,9%, wobei der Mittelwert um 28 Punkte sank."),
       `Zusammenhang` = c("Der sozioökonomische Status klärt 14% der Varianz der Mathematikleistung auf.", "Von 100 Schülerinnen und Schülern, die einen überdurchschnittlichen sozioökonomischen Status haben, zeigen 69 eine überdurchschnittliche Mathematikleistung.")) |>
  gt() %>% 
  gt_apa_style() %>% 
  cols_label(header1 = "") %>% 
  fmt_markdown(columns = everything()) %>% 
  opt_table_font(font = "Source Sans Pro")
Tabelle 1: Beispiele für angebotsseitige Versuche verbesserter Kommunikation von Evidenz.
Unterschied Zusammenhang
Standard-kommunikation Die Leseleistung von Schülerinnen und Schülern sank in PISA 2022 um 28 Punkte und damit auf den Tiefststand. Der sozioökonomische Status klärt 14% der Varianz der Mathematikleistung auf.
Verbesserte Kommunikation Die Leseleistungen von Schülerinnen und Schülern in Deutschland aus PISA 2018 und aus PISA 2022 überlappen sich zu 88,9%, wobei der Mittelwert um 28 Punkte sank. Von 100 Schülerinnen und Schülern, die einen überdurchschnittlichen sozioökonomischen Status haben, zeigen 69 eine überdurchschnittliche Mathematikleistung.

Die vorliegende Studie

Die vorliegende Studie untersucht, inwiefern verbreitete Standardgrafiken zur Kommunikation der Entwicklung der Lesekompetenz in den deutschen Kohorten des Programme of International Student Assessment (PISA) »Practical Significance Bias«, also das automatische Annehmen starker Effekte, wenn keine Effektstärken Berichtet werden, induzieren und ob dieser mit Grafiken verringert werden kann, bei deren Gestaltung theoretische und empirische Erkenntnisse der Wissenschaftkommunikation berücksichtigt wurden.

Methode

Materialien

In der wissenschaftlichen wie journalistischen Berichterstattung zu den Ergebnissen der PISA-2022-Kohorte wurden zahlreiche Darstellungsformate gewählt, insbesondere Liniendiagramme (siehe Tabelle 2), was angesichts der Anlage des PISA als Trendstudie (Döring & Bortz, 2016) konsequent erscheint.

Tabelle 2: Verwendete Liniendiagramme in der Berichterstattung.
OECD (2023) RBB (2023) taz (2023)

Diese Abbildungen erlauben einen effizienten Vergleich der Mittelwerte sowohl über die Zeit als auch über Variablen (hier: Fächer) hinweg. In solchen Grafiken ist jedoch die Bedeutsamkeit der Mittelwertsdifferenz nur bei bekannter Streuung interpretierbar: Abbildung 2 zeigt jeweils die gleichen Mittelwerte von 508 (PISA Lesen 2015) und 480 (PISA Lesen 2022) bei unterschiedlichen Streuungen.

In [4]:
mwdiffstreuungdata <- 
    tibble(Jahr = c(rep(2015, 100), rep(2022, 100),
                    rep(2015, 100), rep(2022, 100)),
           Streuung = c(rep("Kleine Streuung", 200),
                        rep("Reale Streuung", 200)),
           Lesen = c(distribution_normal(100, 508, 20),
                     distribution_normal(100, 480, 20),
                     distribution_normal(100, 508, 100),
                     distribution_normal(100, 480, 100)))

effsizes <-
    mwdiffstreuungdata %>%
    nest_by(Streuung) %>%
    summarize(
        cohd = cohens_d(Lesen ~ Jahr, data = data)$Cohens_d,
        overlap = 2 * pnorm(-abs(cohd) / 2) %>% round(.,2)
    )
`summarise()` has grouped output by 'Streuung'. You can override using the
`.groups` argument.
# ggplot(mwdiffstreuungdata, aes(Jahr, Lesen, group = Jahr)) + 
#     ggforce::geom_sina(shape = 1) +
#     ggtitle("Gleiche Mittelwertsdifferenzen", 
#             "unterschiedliche Effektstärken") +
#     facet_wrap(~Streuung) + 
#     scale_x_continuous(breaks = c(2015, 2022)) +
#     theme_ipsum_rc()


ggplot(data.frame(x = c(0, 1000)), aes(x)) +
  geom_textline(
    stat = "function", 
    fun = dnorm,
    args = list(mean = 509, sd = 100),
    label = "MW = 508",
    size = 4, 
    fontface = 1, 
    hjust = .662, 
    vjust = 0,
    color = "purple"
  ) +
  stat_function(
    geom = "area", 
    fun = dnorm,
    args = list(mean = 509, sd = 100),
    fill = "#a01ff040",
    color="#ffffff00"
  ) +
  geom_textline(
    stat = "function", 
    fun = dnorm,
    args = list(mean = 480, sd = 100),
    label = "MW = 480",
    size = 4, 
    fontface = 1, 
    hjust = .331, 
    vjust = 0,
    color = "orange"
  ) +
  stat_function(
    geom = "area", 
    fun = dnorm,
    args = list(mean = 480, sd = 100),
    fill = "#ffa50040",
    color="#ffffff00"
  ) +
    annotate(
    "richtext", 
    x = 730, y = 0.0015, 
    label = "88% Über-<br>lappung", 
    hjust = 0, vjust = .5, 
    fill = NA, label.color = NA,
    size = 3.4
  ) +
    geom_curve(
    aes(x = 730, y = 0.0015, xend = 500, yend = 0.0012),
    curvature = 0.3, # Positive for upward curve, negative for downward
    arrow = arrow(length = unit(0.052, "inches"), type = "closed"), 
    linewidth = .1
  ) +
  xlab("") +
  ylab("") +
  theme_ipsum_rc(base_size = 15) +
  theme(axis.text.y = element_blank()) +
ggplot(data.frame(x = c(400, 600)), aes(x)) +
  geom_textline(
    stat = "function", 
    fun = dnorm,
    args = list(mean = 509, sd = 20),
    label = "MW = 508",
    size = 4, 
    fontface = 1, 
    hjust = .676, 
    vjust = 0,
    color = "purple"
  ) +
  stat_function(
    geom = "area", 
    fun = dnorm,
    args = list(mean = 509, sd = 20),
    fill = "#a01ff040",
    color="#ffffff00"
  ) +
  geom_textline(
    stat = "function", 
    fun = dnorm,
    args = list(mean = 480, sd = 20),
    label = "MW = 480",
    size = 4, 
    fontface = 1, 
    hjust = .3, 
    vjust = 0,
    color = "orange"
  ) +
  stat_function(
    geom = "area", 
    fun = dnorm,
    args = list(mean = 480, sd = 20),
    fill = "#ffa50040",
    color="#ffffff00"
  ) +
    annotate(
    "richtext", 
    x = 545, y = 0.008, 
    label = "48% Über-<br>lappung", 
    hjust = 0, vjust = .5, 
    fill = NA, label.color = NA,
    size = 3.4
  ) +
    geom_curve(
    aes(x = 545, y = 0.008, xend = 500, yend = 0.006),
    curvature = 0.3, # Positive for upward curve, negative for downward
    arrow = arrow(length = unit(0.052, "inches"), type = "closed"), 
    linewidth = .1
  )+
  xlab("") +
  ylab("") +
  theme_ipsum_rc(base_size = 15) + 
  theme(axis.text.y = element_blank())
Warning in geom_curve(aes(x = 730, y = 0.0015, xend = 500, yend = 0.0012), : All aesthetics have length 1, but the data has 2 rows.
ℹ Please consider using `annotate()` or provide this layer with data containing
  a single row.
Warning in geom_curve(aes(x = 545, y = 0.008, xend = 500, yend = 0.006), : All aesthetics have length 1, but the data has 2 rows.
ℹ Please consider using `annotate()` or provide this layer with data containing
  a single row.
Abbildung 2: Illustration der Unabhängigkeit von Mittelwertsdifferenz und Größe des Effekts

Das Ausmaß der Bedeutsamkeit dieses (gleichen) Mittelwertsunterschiedes entsteht aber erst durch die Streuung der Daten um diesen Mittelwert herum. Weil die Variablen im rechten Teil der Abbildung weniger streuen, ist die Überlappung der beiden Gruppen geringer (48%, großer Effekt), während die große Überlappung im linken Teil (88%, kleiner Effekt) durch die große Streuung zustande kommt. Die Abbildungen in Tabelle 2 sagen also nicht nur nichts über die Bedeutsamkeit der Mittelwertsunterschiede aus. Die nicht dargestellte Varianz induziert möglicherweise auch eine wahrgenommene große Bedeutsamkeit der Mittelwertsdifferenz (Kale et al., 2021).

Tabelle 3: Verwendete Stimuli

Daher wurden vorliegend neben Liniendiagrammen auch überlappende Verteilungskurven verwendet. Um diese barriereärmer zu gestalten wurde bei der Farbgebung auf hinreichenden Kontrast bei den prävalenten Sehbeeinträchtigungen geachtet (Garnier et al., 2024). Um unnötige Arbeitsgedächtnisbelastung zu vermeiden, wurde die Legende direkt in die Grafik integriert (Franconeri et al., 2021).

Design, Stichprobe und Instrument

In [5]:
data <- 
  read_csv(here::here("data/data_cummunication_PISA.csv")) %>% 
  mutate(
      POS = case_when(
        is.na(G003_01) ~ G004_01,
        is.na(G004_01) ~ G003_01,
        is.na(G003_01) & is.na(G003_01) ~ NA),
      POS = ifelse(POS %in% c(-1,-9), NA, POS),
      POS0510 = POS/max(POS, na.rm = T)/2 + 0.5,
      Stimulus = as.factor(case_when(
        ZG01 == 1 ~ "Originalgrafik taz",
        ZG01 == 2 ~ "Überlappungsgrafik"))
  )
Rows: 216 Columns: 3
── Column specification ────────────────────────────────────────────────────────
Delimiter: ","
dbl (3): G003_01, G004_01, ZG01

ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

In einem Between-Person Design wurde N = 195 Studierenden in Bachelorstudiengängen des Primar- und Sekundarstufenlehramtes randomisiert eine der beiden in Tabelle 3 dargestellten Abbildungen gezeigt. Anschließend wurden sie mit folgenden Stimulus aufgefordert, die Effektstärke einzuschätzen: “Basierend auf dieser Grafik: Wie hoch schätzen (exakte Antwort nicht möglich) Sie die Wahrscheinlichkeit ein, dass eine zufällig gezogene Schülerin oder ein zufällig gezogener Schüler aus dem Jahr 2022 im Lesen schlechter abschneidet als eine zufällig gezogene Schülerin oder Schüler aus dem Jahr 2015?”. Beantwortet wurde diese Frage mit einem Schieberegler, dessen Enden mit “50% (beide Gruppen gleich)” und “100% (maximaler Effekt)” beschriftet waren. Diese Erfassung der wahrgenommenen Effektstärke als »Probability of Superiority« ist in der Human-Computer-Interaction-Forschung verbreitet und gilt als valide (Brooks et al., 2014; Kim et al., 2022), wenngleich die Operationalisierung als Schieberegeler unklar lässt, inwiefern bei der Beantwortung tatsächlich eine Elaboration der Überlappung vorgenommen wird oder die Teilnehmenden eher intutiv (etwa wie bei einem Likert-Item) vorgehen.

Statistische Analyse

Die abhängige Variable »Wahrgenommene Effektstärke« (operationalisiert als Probability of Superiority) ist per Design auf das geschlossene Intervall [0,5; 1] beschränkt und zeigt empirisch Bimodalität (siehe Abbildung 3). Um diesen Umständen in der inferenzstatistischen Modellierung Rechnung zu tragen, wurden bayesianische Mixture Regressionsmodelle für zwei trunkierte Normalverteilungen (Frischkorn & Popov, 2023) in der probabilistischen Sprache Stan (Stan Development Team, 2024) mithilfe des R-Pakets {brms} (Bürkner, 2017) geschätzt.

In [6]:
#
# mod <- brm(
#     bf(POS0510 | trunc(lb = .5, ub = 1) ~ Stimulus),
#     data = data,
#     cores = 4,
#     iter = 100000,
#     seed = 5,
#     control = list(adapt_delta = 0.95),
#     family = mixture(gaussian(), gaussian()),
#     init = 0,
#     prior = c(
#         prior(normal(0.6, .6), Intercept, dpar = mu1),
#         prior(normal(.9, .6), Intercept, dpar = mu2)
#     )
# )
#save(mod, file = "data/mod.RData")
load("data/mod.RData")
hyp <- hypothesis(
  mod,
  "theta1 * b_mu1_StimulusÜberlappungsgrafik + (1-theta1) *
                         b_mu2_StimulusÜberlappungsgrafik < 0",
  class = NULL
)

manwhit <- wilcox.test(POS0510 ~ Stimulus, data = data)
cliffd <- cliffs_delta(POS0510 ~ Stimulus, data = data)$r_rank_biserial[1]
Warning: Missing values detected. NAs dropped.
cohd <-  (2 * cliffd) / sqrt(1 - cliffd^2)
u3 <-  pnorm(cohd)
overlap <-  2*pnorm(-abs(cohd)/2)

# loop weniger gebiased effsize

ueberlappung_weniger_gebiased <- logical(0)

for(i in 1:10000){
  selected_original <- 
    data %>% 
    select(POS0510, Stimulus) %>% 
    filter(Stimulus == "Originalgrafik taz") %>% 
    na.omit() %>% 
    sample_n(1) %>% 
    pull(POS0510)
  
    selected_ueberlappung <- 
    data %>% 
    select(POS0510, Stimulus) %>% 
    filter(Stimulus == "Überlappungsgrafik") %>% 
    na.omit() %>% 
    sample_n(1) %>% 
    pull(POS0510)
    
    ueberlappung_weniger_gebiased[i] <- 
      abs(selected_ueberlappung - .58) < abs(selected_original - .58)
    
}

Ergebnisse

Die Inspektion des Marcov-Chain-Monte-Carlo-Sampling-Prozesses zeigte eine zufriedenstellende Qualität bzgl. Konvergenz \((\hat{R} < 1.01)\) und effektiver Sampling Size (\(ESS_{Bulk} > 1000 < ESS_{Tail}\), Vehtari et al., 2021).

In [7]:
data_results <- data %>% 
  select(G003_01, G004_01) %>% 
  gather(Stimulus, `Probability of Superiority`, G003_01, G004_01) %>%
  filter(`Probability of Superiority` > 0) %>% 
  na.omit() %>% 
  mutate(
    Stimulus = case_when(
      Stimulus == "G003_01" ~ "Liniendiagramm",
      Stimulus == "G004_01" ~ "überlappende Verteilungskurve"
    ),
    `Probability of Superiority` = (`Probability of Superiority` - 50) /
      200 + .75)

pal <- c("#FF8C00", "#A034F0")

add_sample <- function(x) {
  return(c(y = max(x) + .025, 
           label = length(x)))
}
data_results |> 
  ggplot(aes(x = fct_rev(Stimulus), y = `Probability of Superiority`)) + 
    # add true value
    geom_hline(yintercept = .58) +
  ggdist::stat_halfeye(
    aes(color = Stimulus,
        fill = after_scale(lighten(color, .2))),
    adjust = .5, 
    width = .75, 
    .width = 0,
    justification = -.4, 
    point_color = NA
  ) +
  geom_boxplot(
    aes(color = stage(Stimulus, after_scale = darken(color, .1, space = "HLS")),
        fill = after_scale(desaturate(lighten(color, .4), .4))),
    width = .32, 
    outlier.shape = NA
  ) +
  geom_point(
    aes(color = stage(Stimulus, after_scale = darken(color, .1, space = "HLS"))),
    fill = "white",
    shape = 21,
    stroke = .4,
    size = 2,
    position = position_jitter(seed = 1, width = .12)
  ) + 
  geom_point(
    aes(fill = Stimulus),
    color = "transparent",
    shape = 21,
    stroke = .4,
    size = 2,
    alpha = .3,
    position = position_jitter(seed = 1, width = .12)
  ) + 
  stat_summary(
    geom = "text",
    fun = "median",
    aes(label = format(round(after_stat(y), 2), nsmall = 2),
        color = stage(Stimulus, after_scale = darken(color, .5, space = "HLS"))),
    family = "Roboto Mono",
    fontface = "bold",
    size = 4.5,
    vjust = -3.5
  ) +
  stat_summary(
    geom = "text",
    fun.data = add_sample,
    aes(label = paste("n =", after_stat(label)),
        color = stage(Stimulus, after_scale = darken(color, .5, space = "HLS"))),
    family = "Roboto Condensed",
    size = 4,
    hjust = 0
  ) +
  coord_flip(xlim = c(1.2, NA), clip = "off") +
  scale_color_manual(values = pal, guide = "none") +
  scale_fill_manual(values = pal, guide = "none") +
  labs(
    x = NULL,
    y = "Probability of Superiority"
  ) +
    
    # caption of true value
     
    annotate(
    "richtext", 
    y = .5, x = 2.9, 
    label = "wahrer<br>Wert", 
    hjust = 0, vjust = .5, 
    fill = NA, label.color = NA,
    size = 3.2
  ) +
    geom_curve(
    aes(y = .53, x = 2.8, yend = .566, xend = 2.6),
    curvature = 0.3, # Positive for upward curve, negative for downward
    arrow = arrow(length = unit(0.052, "inches"), type = "closed"), 
    linewidth = .1
  )+

  
  theme_minimal(base_family = "Roboto Condensed", base_size = 18) +
  theme(
    panel.grid.minor = element_blank(),
    panel.grid.major.y = element_blank(),
    axis.ticks = element_blank(),
    axis.text.x = element_text(family = "Roboto Mono"),
    axis.text.y = element_text(
      color = rev(darken(pal, .1, space = "HLS")), 
      size = 15
    ),
    axis.title.x = element_text(margin = margin(t = 10),
                                size = 16),
    plot.title = element_markdown(face = "bold", size = 21),
    plot.subtitle = element_text(
      color = "grey40", hjust = 0,
      margin = margin(0, 0, 20, 0)
    ),
    plot.title.position = "plot",
    plot.caption = element_markdown(
      color = "grey40", lineheight = 1.2,
      margin = margin(20, 0, 0, 0)),
    plot.margin = margin(15, 15, 10, 15)
  )
Warning in geom_curve(aes(y = 0.53, x = 2.8, yend = 0.566, xend = 2.6), : All aesthetics have length 1, but the data has 195 rows.
ℹ Please consider using `annotate()` or provide this layer with data containing
  a single row.
Abbildung 3: Geschätze Effektstärke (Probability of Superiority) nach Stimulus. Beide Gruppen zeigen einen sehr deutlichen Practical Significance Bias (Abstand von Median und wahrem Wert).

Die Medianeinschätzung der Probability of Superiority lag in beiden Gruppen deutlich über dem wahren Wert (Liniendiagramm .80, Überlappungsgrafik .73). Dieser Unterschied in der Einschätzung entspricht einer Überlappung von 81.71% (Cliff’s d = 0.23) oder anders ausgedrückt: Legt man 100-mal einem:einer Studierenden die Originalgrafik und einem:einer Studierenden die Überlappungsgrafik vor, schätzt 61mal die:der Studierende mit der Überlappungsgrafik den Effekt weniger verzerrt ein. Die Inferenzstatistik für diesen Unterschied ist mit einer Evidence Ratio von 14.8 klar konklusiv: Die Alternativhypothese einer kleineren Probability of Superiority für die Überlappungsgrafik ist gegeben die Daten 14,8-fach wahrscheinlicher (als die Nullhypothese einer größeren Probability of Superiority).

Limitationen

Die vorgestellte Studie stellt lediglich ein kleines Experiment an einer selektiven Gelegenheitsstichprobe ohne Präregistrierung dar. Interne und ökologische Validität konnten aufgrund des experimentellen Designs mit realweltlichen Materialien dennoch gestärkt werden. Die externe und Konstruktvalidität litt jedoch sicher an der großen Homogenität und Spezifität der Stichprobe, sehr spezifisch gewähltem Kontext (PISA Lesekompetenz) sowie theoretisch etwas arbiträren unabhängigen Variablen (viele weitere Gestaltungsprinzipien wären denkbar). Zudem wäre die Untersuchung weiterer abhängiger Variablen wie Cognitive Load oder wahrgenommene Informativität wünschenswert.

Diskussion

Der vorliegende Beitrag zielt darauf ab, zu eruieren, inwiefern es nach dem Stand der Forschung gestaltete Wissenschaftskommunikation ermöglicht, Evidenz »besser« an Lehramtsstudierende und Lehrkräfte zu kommunizieren. Dabei wurde »besser« als »weniger gebiased« operationalisiert und gezeigt, dass die Wahl einer theoretisch fundierten grafischen Darstellung einen deutlich geringeren Bias induzierte als eine Standardgrafik. Allerdings war auch die Rezeption der verbesserten Darstellung immer noch erheblich verzerrt (siehe Abbildung 3).

Im Lichte dieser Ergebnisse werden im Folgenden drei Implikationen diskutiert: 1) Die Forderung, dass Lehrkäfte ihre professionelle Praxis evidenzinformiert gestalten sollen, setzt Anstrengungen in der Wissenschaftskommunikation seitens Bildungswissenschaften und Fachdidaktiken voraus. 2) Inwiefern diese Anstrengungen zielführend sind, sollte empirisch überprüft werden. 3) Erfolgreiche Wissenschaftskommunikation in den Bildungswissenschaften und Fachdidaktiken impliziert eine Passung von Angebots- und Nutzendenmerkmalen und damit einen dialogischen Prozess für die Entwicklung einer solchen Passung.

Sowohl Wissenschaftstheorie (z.B. Mitchell & Jolley, 2010) als auch bildungswissenschaftliche Literatur (z.B. Bohl et al., 2015; Dewe et al., 1992) haben die Möglichkeiten und Limitationen der Abgrenzbarkeit von »Wissenschaft« und »Nicht-Wissenschaft« (bzw. in den Bildungswissenschaften von »Theorie« und »Praxis«) diskutiert und heben u.a. hervor, dass Entitäten und Aussagen in ihrer Bedeutung primär an den Herkunftskontext (z.B. »Wissenschaft« oder »Praxis«) gebunden sind. Also ist auch z.B. die »Evidenz« einer explanativen bildungswissenschaftlichen Studie per se zunächst bildungswissenschaftlich und muss für eine evidenzinformierte Handlung in der Praxis reinterpretiert werden (z.B. Groß Ophoff et al., 2023). Damit liegt es auf der Hand, dass sich Bildungswissenschaftler:innen und Fachdidaktiker:innen fragen sollten, welche »wissenschaftlichen/theoretischen« Entitäten (z.B. Effektstärken oder inferenzstatistischen Maße) und Aussagen (z.B. kausale Effekte) sie wie in die Kommunikation ihrer Ergebnisse gegenüber der Praxis aufnehmen.

Dass diese Forderung selbst rein innerwissenschaftlich betrachtet nicht trivial ist, zeigt z.B. die Tatsache, dass Guidelines von Fachgesellschaften wie z.B. der American Psychological Association (2019) die Verwendung von Effektstärken fordern, diese aber in Pressemitteilungen (etwa der American Educational Research Association) äußerst selten und selbst in Fachzeitschriften nicht unbedingt erwartbar sind (McMillan & Jennifer, 2011). Für eine Wissenschaftskommunikation, die sich an die Praxis richtet scheint es also plausibel, zu schlussfolgern, dass es unter Forschenden noch nicht verbreitet scheint, sich literaturbasiert darüber Gedanken zu machen, inwiefern die eigene Wissenschaftskommunikation z.B. für Lehrkräfte günstig rezipierbar ist.

Doch selbst ein Bewusstsein für die Fallstricke der Kommunikation wissenschaftlicher Ergebnisse schützt nicht zwangläufig vor der Induktion von Fehlvorstellungen: So fanden Schneider et al. (2025) etwa, dass selbst eine als leicht verständlich geltende Effektstärke für Mittelwertsvergleiche (wie etwa Cohen’s \(U_3\)) bei einem erheblichen Anteil (≥ 29%) der Rezipient:innen zu Fehlvorstellungen führte. Die erste Implikation, scheint also nicht hinreichend für eine gelingende Kommunikation von Evidenz an Lehrkräfte. Dies führt zur zweiten Implikation: Forschende sollten nicht nur den Stand der Forschung bei der Kommunikation von Evidenz berücksichtigen, sondern auch in intern und extern validen Studien untersuchen, inwieweit diese Berücksichtigung erfolgreich war. Denn statistische Informationen werden nicht nur von unterschiedlichen Berufsgruppen (McDowell & Jacobs, 2017), sondern auch in unterschiedlichen geografischen Regionen differentiell interpretiert (Gigerenzer et al., 2005). Inwiefern sich also generische Determinaten erfolgreicher Wissenschaftskommunikation auf die Kommunikation von Evidenz an Lehrkräfte etwa in einem bestimmten Teil eines Bildungssystems übertragen lassen, scheint nur schwer a priori bestimmbar.

Was aber, wenn Forschende ihre Wissenschaftskommunikation literaturbasiert verbessern, aber in empirischen Experimenten sehen, dass sie dennoch deutlich verzerrt, verrauscht oder konzeptuell falsch rezipiert wird? Der vorliegende Beitrag macht als dritte Implikation den Vorschlag, den Kommunikation von Evidenz an Lehrkräfte dialogisch weiterzuentwickeln und zu berücksichtigen, dass bei der Rezeption von vermutlich eine komplexe Interaktion von Angebots- und Nutzendenmerkmalen (Brühwiler & Leutwyler, 2020) sowie Bottom-Up- bzw. Top-Down-Prozessen (Schmidt, 2024) vorliegt: Man stelle sich eine Lehrkraft vor, die auf der Suche nach einer Entscheidungsgrundlage für oder gegen eine unterrichtsgestalterische Maßnahme A auf der Seite eines Clearing Houses landet. Dort liest sie, dass über viele Studien gemittelt Maßnahme A dazu geführt hat, dass 63% der Schülerinnen und Schüler bessere Leistungen zeigen als der Mittelwert der Schülerinnen und Schüler mit Maßnahme B. Dann können daraus manche Lehrkräfte möglicherweise anhand ihres Vorwissens unmittelbar eine korrekte/konsistente Vorstellung der Effektstärke dieses Unterschieds schlussfolgern (z.B. zwei Normalverteilungen mit 87% Überlappung). Hier läge ein Top-Down-Prozess vor, da die Merkmale der Kommunikation mit den im Langzeitgedächtnis der Rezipient:in vorhandenen Dispositionen wie Graph, Data oder Statistical Literacy dazu führen, dass in einem Schlussfolgerungsprozess ein korrektes mentales Modell erstellt wird. Umgekehrt kann es passieren, dass eine Lehrkraft auf diese Formulierung stößt und eben kein auf Wissen basierendes mentales Modell abrufen kann, aber sich Stück für Stück mithilfe der gegebenen Informationen ein konsistentes mentales Modell erarbeitet. Dabei lernt sie, d.h. erwirbt Graph, Data, oder Statistical Literacy, was einem Bottom-Up Prozess entspricht. Da Lehrkräfte über sehr unterschiedliche Dispositionen zu Top-Down-Prozessen verfügen, aber auch Bottom-Up-Prozesse sehr individuell verlaufen dürften, liegt die dritte Implikation nahe: Die Kommunikation von Evidenz an Lehrkräfte sollte als dialogischer und differenzieller Prozess aufgefasst werden. Demnach würden zum einen Bildungswissenschaftler:innen und Fachdidaktiker:innen Kenntnis über Top-Down- und Bottom-Up-Prozesse ihrer Rezipienten:innen erwerben und deren Ausprägung und Entwicklung z.B. anhand von Think-Aloud-Studien wie z.B. Bez et al. (2021) beobachten und daraufhin ihre Angebote entsprechend differenzieren und anpassen. Zum anderen könnten Lehrkräfte in die Entwicklung von Kommunikationsprodukten anhand kokonstruktiver Verfahren eingebunden werden, in der Hoffnung, dass eine solche Kooperation von Akteuren aus den Systemen »Wissenschaft/Theorie« und »Nicht-Wissenschaft/Praxis« dazu führt, dass innerhalb dieser Systeme Ausdrucksweisen verfügbar werden, die zu verlustfreieren und damit erfolgreicheren Kommunikationsprozessen führen können (Leitz et al., 2024).

Literatur

AERO. (2023). Evidence-based teaching practices. Australian Education Research Organisation. https://www.education.gov.au/quality-initial-teacher-education-review/resources/aero-evidence-based-teaching-practices
Altrichter, H., & Rolff, H.-G. (2006). Datenbasierte Schulentwicklung. Editorial. Journal für Schulentwicklung, 10(4), 4–6.
American Psychological Association. (2019). Publication manual of the American Psychological Association (7. Aufl.). American Psychological Association.
Bauer, J., & Prenzel, M. (2012). European teacher training reforms. Science, 336(6089), 1642–1643. https://doi.org/10.1126/science.1218387
Bauer, K.-O., & Rolff, H.-G. (1978). Vorarbeiten zu einer Theorie der Schulentwicklung (K.-O. Bauer & H.-G. Rolff, Hrsg.; S. 219–263). Beltz.
Bez, S., Poindl, S., Bohl, T., & Merk, S. (2021). Wie werden Rückmeldungen von Vergleichsarbeiten rezipiert? Zeitschrift für Pädagogik, 67(4), 551–572. https://doi.org/10.3262/ZP2104551
Bohl, T. (2020). Theorien der Schulentwicklung (M. Harant, P. Thomas, & U. Küchler, Hrsg.; S. 97–109). Tübingen University Press. https://doi.org/10.15496/publikation-45627
Bohl, T., Wacker, A., & Harant, M. (2015). Schulpädagogik und Schultheorie (1. Aufl). utb. https://doi.org/10.36198/9783838541808
Bohrer, K., Schmidt, K., & Merk, S. (2025). Zwei Studien, ein Ergebnis: Lehramtsstudierende unterliegen im Umgang mit Evidenz dem Ankereffekt. Zeitschrift für Erziehungswissenschaft, 28(4), 951–980. https://doi.org/10.1007/s11618-025-01309-z
Bromme, R., Prenzel, M., & Jäger, M. (2014). Empirische Bildungsforschung und evidenzbasierte Bildungspolitik. Zeitschrift für Erziehungswissenschaft, 17(4), 3–54. https://doi.org/10.1007/s11618-014-0514-5
Brooks, M. E., Dalal, D. K., & Nolan, K. P. (2014). Are common language effect sizes easier to understand than traditional effect sizes? Journal of Applied Psychology, 99(2), 332–340. https://doi.org/10.1037/a0034745
Brügelmann, H. (2018). Unterrichts- und Schulentwicklung in Communities of Practice (H. Barz, Hrsg.; S. 479–484). Springer Fachmedien. https://doi.org/10.1007/978-3-658-07491-3_44
Brühwiler, C., & Leutwyler, B. (2020). Praxisrelevanz von Forschung als gemeinsame Aufgabe von Wissenschaft und Praxis: Entwurf eines Angebots-Nutzungs-Modells. BzL - Beiträge zur Lehrerinnen- und Lehrerbildung, 38(1), 21–36. https://doi.org/10.36950/bzl.38.2020.9309
Bürkner, P.-C. (2017). brms: An R package for bayesian multilevel models using stan. Journal of Statistical Software, 80(1), 1–28. https://doi.org/10.18637/jss.v080.i01
Clearing House Unterricht Academy. (2025). Clearing House Unterricht Academy. https://clearinghouse-academy.de/
Council of the European Union. (2024). Council conclusions on promoting evidence-informed policy and practice in education and training to achieve the European Education Area. https://eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=OJ:C_202403642
Dewe, B., Ferchhoff, W., & Radtke, F.-O. (1992). Das ,,Professionswissen von Pädagogen (B. Dewe, W. Ferchhoff, & F. Olaf-Radtke, Hrsg.; S. 70–91). Springer VS. https://doi.org/10.1007/978-3-663-09988-8_5
Döring, N., & Bortz, J. (2016). Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften (5. Aufl.). Springer. http://dx.doi.org/10.1007/978-3-642-41089-5
Franconeri, S. L., Padilla, L. M., Shah, P., Zacks, J. M., & Hullman, J. (2021). The science of visual data communication: What works. Psychological Science in the Public Interest, 22(3), 110–161. https://doi.org/10.1177/15291006211051956
Friel, S. N., Curcio, F. R., & Bright, G. W. (2001). Making sense of graphs: Critical factors influencing comprehension and instructional implications. Journal for Research in Mathematics Education, 32(2), 124–158. https://doi.org/10.2307/749671
Frischkorn, G. T., & Popov, V. (2023). A tutorial for estimating Bayesian hierarchical mixture models for visual working memory tasks: Introducing the Bayesian measurement modeling (bmm) package for R. https://doi.org/10.31234/osf.io/umt57
Garnier, S., Ross, N., Rudis, B., Sciaini, M., Camargo, A. P., & Scherer, C. (2024). Viridis: Colorblind-Friendly Color Maps for R. https://doi.org/10.32614/CRAN.package.viridis
Gigerenzer, G., Hertwig, R., Van Den Broek, E., Fasolo, B., & Katsikopoulos, K. V. (2005). „A 30% Chance of Rain Tomorrow“: How does the public understand probabilistic weather forecasts? Risk Analysis, 25(3), 623–629. https://doi.org/10.1111/j.1539-6924.2005.00608.x
Grice, J. W., Medellin, E., Jones, I., Horvath, S., McDaniel, H., O’lansen, C., & Baker, M. (2020). Persons as effect sizes. Advances in Methods and Practices in Psychological Science, 3(4), 443–455. https://doi.org/10.1177/2515245920922982
Groß Ophoff, J., Brown, C., & Helm, C. (2023). Do pupils at research-informed schools actually perform better? Findings from a study at English schools. Frontiers in Education, 7, Artikel 1011241. https://doi.org/10.3389/feduc.2022.1011241
Gussen, L., Schumacher, F., Großmann, N., Ferreira González, L., Schlüter, K., & Großschedl, J. (2023). Supporting Pre-Service Teachers in Developing Research Competence. Frontiers in Education, 8. https://doi.org/10.3389/feduc.2023.1197938
Hau, R., Martini, U., & Dralle, A. (2012). PONS Wörterbuch für Schule und Studium Latein-Deutsch. PONS.
Helmke, A. (2022). Unterrichtsqualität und Professionalisierung: Diagnostik von Lehr-Lern-Prozessen und evidenzbasierte Unterrichtsentwicklung. Klett Kallmeyer.
Holtappels, H. G. (2007). Schulentwicklungsprozesse und Change Management. Innovationstheoretische Reflexionen und Forschungsbefunde über Steuergruppen. (N. Berkemeyer, Hrsg.; S. 11–39). Juventa.
Hullman, J., Resnick, P., & Adar, E. (2015). Hypothetical outcome plots outperform error bars and violin plots for inferences about reliability of variable ordering. PLOS ONE, 10(11), Artikel e0142444. https://doi.org/10.1371/journal.pone.0142444
Jones, A. (2024). Rethinking evidence-based practice in education: A critical literature review of the What Works Approach. International Journal of Educational Researchers, 15(2), 37–51. https://doi.org/10.29329/ijer.2024.1041.3
Kale, A., Kay, M., & Hullman, J. (2021). Visual reasoning strategies for effect size judgments and decisions. IEEE Transactions on Visualization and Computer Graphics, 27(2), 272–282. https://doi.org/10.1109/TVCG.2020.3030335
Karst, K., Yendell, O., Marx, A., Lettau, W.-D., & Hawlitschek, P. (2024). Die Etablierung von Evidenzteams in SchuMaS - Eine Strategie zur systematischen Nutzung von Daten für die Schul- und Unterrichtsentwicklung (K. Maaz & A. Marx, Hrsg.; S. 225–240). Waxmann.
Kelley, T. L. (1927). Interpretation of educational measurements. World Book Company.
Kim, Y.-S., Hofman, J. M., & Goldstein, D. G. (2022). CHI ’22: CHI Conference on Human Factors in Computing Systems. 1–14. https://doi.org/10.1145/3491102.3502053
Kluge, F. (2011). Etymologisches Wörterbuch der deutschen Sprache (25. Aufl.). De Gruyter.
Leitz, A., Kleen, H., Hartmann, U., & Kunter, M. (2024). Was Können Wir Aus Der Grundschullehrkraft-Perspektive Auf Transferaktivitäten Lernen? Die Vorstellung Eines Kokonstruktiven Clearinghouse-Ansatzes. Tagung Der Gesellschaft Für Empirische Bildungsforschung.
Masnick, A. M., & Zimmerman, C. (2009). Evaluating scientific research in the context of prior belief: Hindsight bias or confirmation bias? Journal of Psychology of Science and Technology, 2(1), 29–36. https://doi.org/10.1891/1939-7054.2.1.29
McDowell, M., & Jacobs, P. (2017). Meta-analysis of the effect of natural frequencies on Bayesian reasoning. Psychological Bulletin, 143(12), 1273–1312. https://doi.org/10.1037/bul0000126
McMillan, J. H., & Jennifer, F. (2011). Reporting and Discussing Effect Size: Still the Road Less Traveled. Practical Assessment, Research, and Evaluation, 16(1). https://doi.org/10.7275/B6PZ-WS55
Merk, S., Poindl, S., Wurster, S., & Bohl, T. (2020). Fostering aspects of pre-service teachers’ data literacy: Results of a randomized controlled trial. Teaching and Teacher Education, 91, 103043. https://doi.org/10.1016/j.tate.2020.103043
Michal, A. L., & Shah, P. (2024). A practical significance bias in laypeople’s evaluation of scientific findings. Psychological Science, 09567976241231506. https://doi.org/10.1177/09567976241231506
Mitchell, M. L., & Jolley, J. M. (2010). Research design explained (7. Aufl.). Wadsworth.
Neuenschwander, M. P. (2005). Forschungskompetenzen in der Lehrerinnen- und Lehrerbildung erweitern: Ein Weiterbildungskonzept. BzL - Beiträge zur Lehrerinnen- und Lehrerbildung, 23(2), 270–280. https://doi.org/10.36950/bzl.23.2.2005.10132
OECD (Hrsg.). (2023). PISA 2022 Ergebnisse (Band I): Lernstände und Bildungsgerechtigkeit. wbv Media. https://doi.org/10.3278/6004956w
Pellegrini, M., & Vivanet, G. (2021). Evidence-based policies in education: Initiatives and challenges in europe. ECNU Review of Education, 4(1), 25–45. https://doi.org/10.1177/2096531120924670
RBB. (2023). Deutsche Schülerinnen und Schüler schneiden bei neuer PISA-Studie so schlecht ab wie nie zuvor. https://www.tagesschau.de/multimedia/video/video-1280422.html
Renkl, A. (2022). Meta-analyses as a privileged information source for informing teachers’ practice? A plea for theories as primus inter pares. Zeitschrift Für Pädagogische Psychologie, 36(4), 217–231. https://doi.org/10.1024/1010-0652/a000345
Rycroft-Smith, L., & Stylianides, A. J. (2022). What makes a good educational research summary? A comparative judgement study of mathematics teachers’ and mathematics education researchers’ views. Review of Education, 10(1), e3338. https://doi.org/10.1002/rev3.3338
Schildkamp, K., Handelzalts, A., Poortman, C. L., Leusink, H., Meerdink, M., Smit, M., Ebbeler, J., & Hubers, M. D. (2018). The data team™ procedure: A systematic approach to school improvement. Springer. https://doi.org/10.1007/978-3-319-58853-7_9
Schmid, S., & Lutz, A. (2007). Epistemologische Überzeugungen als kohärente Laientheorien. Zeitschrift für pädagogische Psychologie, 21(1), 29–40. https://doi.org/10.1024/1010-0652.21.1.29
Schmidt, K. (2024). Teachers’ engagement with educational science. How to communicate findings from educational science in a user-friendly way to teachers [Phdthesis, Pädagogische Hochschule Karlsruhe]. https://phka.bsz-bw.de/frontdoor/index/index/year/2024/docId/624
Schmidt, K., Edelsbrunner, P. A., Rosman, T., Cramer, C., & Merk, S. (2023). When perceived informativity is not enough. How teachers perceive and interpret statistical results of educational research. Teaching and Teacher Education, 130, Artikel 104134. https://doi.org/10.1016/j.tate.2023.104134
Schneider, J., Schmidt, K., Bohrer, K., & Merk, S. (2025). Communicating Effect Sizes to Teachers: Exploring Different Visualizations and Their Enrichment Options. Zeitschrift für Psychologie, 233(1), 52–63. https://doi.org/10.1027/2151-2604/a000573
Sharples, J., & Sheard, M. (2015). Developing an evidence-informed support service for schools – reflections on a UK model. Evidence & Policy, 11(4), 577–587. https://doi.org/10.1332/174426415X14222958889404
Shavelson, R. J., & Towne, L. (2002). Scientific Research in Education. National Academies Press.
Slavin, R. E. (2020). How evidence-based reform will transform research and practice in education. Educational Psychologist, 55(1), 21–31. https://doi.org/10.1080/00461520.2019.1611432
Stan Development Team. (2024). Stan modeling language users guide and reference manual. https://mc-stan.org
Stark, R. (2017). Probleme evidenzbasierter bzw. -orientierter pädagogischer Praxis. Zeitschrift für Pädagogische Psychologie, 31(2), 99–110. https://doi.org/10.1024/1010-0652/a000201
taz. (2023). Pisa-Schock für deutsche Schü­le­r:in­nen: Im freien Fall | taz.de. https://taz.de/Pisa-Schock-fuer-deutsche-Schuelerinnen/!5974146/
Thorndike, E. L. (1904). Theory of mental and social measurements. The Science Press. https://doi.org/10.1037/13283-000
Vehtari, A., Gelman, A., Simpson, D., Carpenter, B., & Bürkner, P.-C. (2021). Rank-normalization, folding, and localization: An improved \(\widehat{R}\) for assessing convergence of MCMC (with discussion). Bayesian Analysis, 16(2), 667–718. https://doi.org/10.1214/20-BA1221
Zhang, S., Heck, P. R., Meyer, M. N., Chabris, C. F., Goldstein, D. G., & Hofman, J. M. (2023). An illusion of predictability in scientific results: Even experts confuse inferential uncertainty and outcome variability. Proceedings of the National Academy of Sciences, 120(33), Artikel e2302491120. https://doi.org/10.1073/pnas.2302491120