Speaker picture

Kommunikation von Effektstärken

und deren Unsicherheit an Lehrer:innen

Kirstin Schmidt und Samuel Merk

Institut für Schul- und Unterrichtsentwicklung

Mittwoch, den 19. Juni, 2024

Übersicht

Evidenzinformiertes Handeln

Wissenschaftskommunikation

Studie 1: Verbale Kommunikation Effektstärken und Inferenzstatistiken

Studie 2: Visuelle Kommunikation von Effektstärken
+ Studie 3: Visuelle & verbale Kommunikation von Effektstärken

Evidenzinformiertes Handeln

Evidenzinformiertes Handeln

Wissenschafts-
kommunikation

Wissenschaftskommunikation

  • Nutzerfreundliche Aufbereitung von Evidenz (z.B. clearing houses, plain language summaries), um wissenschaftlichen Laien den Umgang mit Evidenz zu erleichtern (Higgins et al., 2022; Kerwer et al., 2021; Wadhwa et al., 2024)
  • Aufbereitete Evidenz basiert häufig auf quantitativen Studien, die verschiedene quantitativ-methodische Informationen enthalten
    • Studiendesign
    • Inferenzstatistik
    • Effektstärken

Wissenschaftskommunikation

  • Nutzerfreundliche Aufbereitung von Evidenz (z.B. clearing houses, plain language summaries), um wissenschaftlichen Laien den Umgang mit Evidenz zu erleichtern (Higgins et al., 2022; Kerwer et al., 2021; Wadhwa et al., 2024)
  • Aufbereitete Evidenz basiert häufig auf quantitativen Studien, die verschiedene quantitativ-methodische Informationen enthalten
    • Studiendesign
    • Inferenzstatistik
    • Effektstärken

Kommunikation von Effektstärken

Beispiele aus clearing houses (Backfisch et al., 2021; Wiesbeck et al., 2018)

Beispiele aus clearing houses (Backfisch et al., 2021; Wiesbeck et al., 2018)

Kommunikation von Effektstärken

  • Verschiedene textliche und visuelle Darstellungen können das Verständnis über und die Wahrnehmung von Effektstärken bei wissenschaftlichen Laien beeinflussen
  • ABER …
    • … teilweise inkonsistente Ergebnisse z.B. Diskrepanz zwischen Visualisierungen, die eine akkurate Interpretation fördern und solchen, die korrekte Entscheidungen fördern
    • … eklektische Forschungsansätze (Hanel et al., 2019; Hanel & Mehler, 2019; Kale et al., 2021; Kim et al., 2022; Lortie-Forgues et al., 2021; Merk et al., 2023)
      • Unterschiedliche Vergleichsbedingungen (z.B. Cohen’s U3 wird verglichen mit 1) generischen Maßen wie Cohen’s d vs. 2) Common Language Effect Sizes im Kontext der Leistungsmessung z.B. Months of Progress)
      • Unterschiedliche Operationalisierungen der abhängigen Variablen (z.B. Verständnis erfasst über einen Slider von -1 bis +1 vs. Overlap vs. Probability of Superiority)
      • Unterschiedliche Operationalisierungen der unabhängigen Variablen (z.B. Probability of Superiority dargestellt in Prozent vs. in natürlichen Häufigkeiten; überlappende vs. nicht-überlappende Normalverteilung)

Studie 1:
Statistische Formulierungen



gemeinsam mit
Peter Edelsbrunner2, Tom Rosman3 und Colin Cramer 4

2 ETH Zürich 3 ZPID Trier 4 Eberhard Karls Universität Tübingen

Forschungsfragen

  1. Nehmen Lehrpersonen unterschiedliche statistische Beschreibungen unterschiedlich informativ wahr?
  2. Wie interpretieren Lehrpersonen unterschiedliche statistische Beschreibungen? Unterscheiden sie bei ihrer Interpretation zwischen Inferenzstatistik und Effektstärke?

Stichprobe

  • Stichprobenziehung via Random Digit Dialing durch forsa
  • N = 414 Lehrpersonen in Deutschland (66,91% weiblich; 94,93% ohne Migrationshintergrund)
  • MAlter = 47,70 Jahre (SD = 10,82)
  • MLehrerfahrung = 17,37 Jahre (SD = 11,13)
  • Verschiedene Schularten (z.B. 27,29 % Gymnasiallehrpersonen; 26,09% Grundschullehrpersonen; 18,60 % Gesamtschullehrpersonen)
  • Verschiedene Unterrichtsfächer (z.B. 58,45 % unterrichten ein geistes- oder sozialwissenschaftliches Fach; 54,83 % mind. eine Sprache; 43,72 % ein mathematisches oder naturwissenschaftliches Fach)

→ Stichprobe kann als annähernd repräsentativ gewertet werden (vgl. Statistisches Bundesamt [Destatis], 2019)

Design und Materialien

Design und Materialien

Ergebnisse: Informativität

Adaptiert von Schmidt et al. (2023)

Adaptiert von Schmidt et al. (2023)

Ergebnisse: Verständnis

Adaptiert von Schmidt et al. (2023)

Adaptiert von Schmidt et al. (2023)

Ergebnisse: Verständnis




Studie 2: Effektstärken-
visualisierungen



gemeinsam mit
Jürgen Schneider2 und Kristina Bohrer1

1 Pädagogische Hochschule Karlsruhe 2 DIPF Frankfurt

Forschungsfragen

  1. Beeinflusst die Visualisierung die wahrgenommene Informativität der Ergebnisse und die Interpretation der Effektstärke?

  2. Welche Visualisierung wird am informativisten wahrgenommen und am akkuratesten eingeschätzt?

  3. Beeinflussen Visualisierungen mit Anreicherungen (Signaling und Benchmarks) das Verständnis von Effektstärken sowie die wahrgenommene Informativität von Lehrpersonen positiv?

Forschungsfragen

  1. Beeinflusst die Visualisierung die wahrgenommene Informativität der Ergebnisse und die Interpretation der Effektstärke?

  2. Welche Visualisierung wird am informativisten wahrgenommen und am akkuratesten eingeschätzt?

3. Beeinflussen Visualisierungen mit Anreicherungen (Signaling und Benchmarks) das Verständnis von Effektstärken sowie die wahrgenommene Informativität von Lehrpersonen positiv?

Studien 1 - 3

Studien 1 - 3

Stichprobe

  • Stichprobenziehung via Panel Provider Prolific
  • N = 220 englischsprachige Lehrpersonen (64,5% weiblich, 55% mit Wohnsitz im Vereinigten Königreich)
  • MAlter = 41,80 Jahre (SD = 11,40)
  • MLehrerfahrung = 13,58 Jahre (SD = 9,22)
  • Verschiedene Schularten (z.B. 38,64% Grundschullehrpersonen; 31,36% Lehrpersonen aus Sekundarschulen)
  • Verschiedene Unterrichtsfächer (z.B. 22,27% unterrichten ein geistes- oder sozialwissenschaftliches Fach)

Design

  • 4x4x16x2 between-between-within-within Design
    • Between-Faktor 1: Experimentalbedingung
      • Kontrollgruppe
      • Benchmark
      • Signaling Cohen’s U3
      • Signaling Overlap
    • Between-Faktor 2: Thema
      • Lesen auf Papier vs. Tablet
      • Lernen anhand eines Live-Vortrags vs. Video
      • Lernen mittels Experimentieren vs. Computersimulation
      • Lernen mittels Erklärvideo mit Untertitel vs. Erklärvideo ohne Untertitel

Design

  • 4x4x16x2 between-between-within-within Design
    • Within-Faktor 3: präsentierte Effektstärke
      d ∈ {−.80; −.65; −.50; −.35; −.20; .20; .35; .50; .65; .80}
    • Within-Faktor 4: Visualisierungsart
      • Halfeye plots mit Gruppen auf der x-Achse
      • Halfeye plots mit Gruppen auf der y-Achse

Abhängige Variablen

  • Wahrgenommene Informativität
  • Verständnis
    • Abstrakte Metrik
    • Cohen’s U3 Metrik
    • Cohen’s U3 Fehlkonzept: Median des U3 Rating < 21.2% (kleinster plausibler Wert, der d = −.8 entspricht)

Ergebnisse: Informativität

Ergebnisse: Verständnis

Ergebnisse: Verständnis

Ergebnisse: Verständnis

Studie 3: Cohen’s U3
Text und Vis.


gemeinsam mit
Florian Kühlwein2 und Jürgen Schneider 2

1 Pädagogische Hochschule Karlsruhe 3 DIPF Frankfurt

Forschungsfragen

  1. Wie genau (AV1), relevant (AV2), informativ (AV3) und schwierig (AV4) werden verbal und visuell dargestellte Effektstärken (Cohen’s U3) von Lehrer:innen wahrgenommen?
  2. Gibt es Unterschiede zwischen den Präsentationsmodi bezüglich AV1-AV4?

Stichprobe

  • Geplant ist ein Registered Report mit Bayesian Updating
  • Stichprobe der Pilotierung:
    • N = 20 englischsprachige Lehrerinnen aus UK und USA
    • Rekrutiert via Prolific
    • MWAlter = 42,3 Jahre

Materialien

Design

  • 2x6x4 within-within-between Design
    • Faktor 1: Text vs. Visualisierung
    • Faktor 2: Effektstärke Cohen’s d \(\in\{-.8,-.5,-.2, .2, .5, .8\}\)
    • Faktor 3: Thema
      • KI-Tutor Leseflüssigkeit
      • 3D-Videos/2D-Videos
      • Activity Tracker
      • Experimentierkits

Measures

Datenaufbereitung

  • Exklusionskriterien: Nichtbestehen beider Attentionchecks oder Straightlining (Stosic et al., 2024)
  • Transformationen:
    • Wahrg. Effektstärke \(\Rightarrow \delta = qnorm(PoS) \cdot \sqrt{2}\)
  • Abgeleitete Variablen:
    • Genauigkeit: falls korrekte Effektrichtung
      Wahre Effektstärke - Wahrg. Effektstärke; sonst NA
    • Relevanz: Within-Person-Standardized Willingness to Pay

Analyse

  • Modellparametrisierung:
    • Accuracy: Random-Intercept Model für heteroskedastische normalverteilte AV mit Dummyprädiktor
    • Relevanz: Random-Intercept Model für normalverteilte AV mit Dummyprädiktor
    • Likert-Items: Random-Intercept Cumulative Link Models (Bürkner & Vuorre, 2019) mit Dummyprädiktor
  • Inferenzstatistik: CI + ROPE Prozedur (Kruschke, 2018)
    • ROPE: -.1 < d < .1
    • CI: 95% HDI
    • HMCMC: 4 Chains, 1k Warm-Up, 2k Interationen, 4k post-warm-up draws, \(\hat{R} < 1.05\) (Vehtari et al., 2021) und \(ESS > 1000\) als Konvergenzkriterien (Bürkner, 2017)

Ergebnisse

  • Akkuratheit:

  • Relevanz:

  • Informativität:

  • Schwierigkeit:

Alle HDI lagen zu 100% außerhalb der ROPE bis auf den Dispersionseffekt der Akkuratheit (75%).

Take Home Messages

  • Effektstärke und Effektunsicherheit werden oft verwechselt
  • Common Language Effect Size \(\nRightarrow\) Widely Understood Effect Size
  • Effektstärken können unter geeigneten Bedingungen von Lehrer:innen sehr korrekt aus Grafiken rezipiert werden (Merk et al., 2023)
  • Annotation (Signaling) reduziert Fehlkonzepte deutlich
  • Text und Bild scheinen komplementäre Vor- und Nachteile zu haben

Implikationen

»Unsere Studie zeigten einen signifikanten Effekt«
»Unsere Studie zeigte A > B«
»Unsere Studie zeigte, dass A mit B assoziiert ist«
Unkommentierter Rohdatenplot


Irgendeine Common Language Effect Size verwenden (Michal & Shah, 2024)
Direkt annotierte Grafiken nutzen (Franconeri et al., 2021)
Text & Plot didaktisch kombinieren/auswählen

Diskussion

  • Methodische Limitationen (u.a)
    • Remote Onlineexperimente »professioneller« Proband:innen zeigen akzeptable Treatmentadherence (Douglas et al., 2023), sicher aber mehr Careless Responding als im Labor (Stosic et al., 2024)
      \(\Rightarrow\) Unterschätzung der Akkuratheit und der Unterschiede
    • Viele Freiheitsgrade bei der Auswahl der Materialien und eine schwache theoretische Fundierung erhöhen a priori die falsch-positiv Rate (Ioannidis, 2005)
  • Kommunikationsziel:
    • Effektstärken relativieren können
      \(\Rightarrow\) Verwendung standardisierter Effektstärken
    • Effektstärken absolut einschätzen können
      \(\Rightarrow\) Verwendung »natürlich metrischer« Effektstärken

Literatur

APA Presidential Task Force on Evidence-Based Practice. (2006). Evidence-Based Practice in Psychology. The American Psychologist, 61(4), 271–285. https://doi.org/10.1037/0003-066X.61.4.271
Backfisch, I., Schneider, J., & Lachner, A. (2021). Gamification. Bibliothek Aufbereiteter Forschungssynthesen Tübingen (TüDi-BASE) [Gamification: Library of prepared research syntheses Tübingen].
Baird, M. D., & Pane, J. F. (2019). Translating standardized effects of education programs into more interpretable metrics. Educational Researcher, 48(4), 217–228. https://doi.org/10.3102/0013189X19848729
Bauer, J., & Kollar, I. (2023). (Wie) kann die Nutzung bildungswissenschaftlicher Evidenz Lehren und Lernen verbessern? Thesen und Fragen zur Diskussion um evidenzorientiertes Denken und Handeln von Lehrkräften. Unterrichtswissenschaft. https://doi.org/10.1007/s42010-023-00166-1
Bürkner, P.-C. (2017). Brms: An R Package for Bayesian Multilevel Models Using Stan. Journal of Statistical Software, 80(1). https://doi.org/https://doi.org/10.18637/jss.v080.i01
Bürkner, P.-C., & Vuorre, M. (2019). Ordinal Regression Models in Psychology: A Tutorial. Advances in Methods and Practices in Psychological Science, 2(1), 77–101. https://doi.org/10.1177/2515245918823199
Coe, R. (2002, September). It’s the effect size, stupid. What effect size is and why it is important . British Educational Research Association Annual Conference.
Cumming, G. (2014). The new statistics: Why and how. Psychological Science, 25(1), 7–29. https://doi.org/10.1177/0956797613504966
Douglas, B. D., Ewell, P. J., & Brauer, M. (2023). Data Quality in Online Human-Subjects Research: Comparisons between MTurk, Prolific, CloudResearch, Qualtrics, and SONA. PLOS ONE, 18(3), e0279720. https://doi.org/10.1371/journal.pone.0279720
Ferguson, L. (2021). Evidence-informed teaching and practice-informed research [Special section]. Zeitschrift für Pädagogische Psychologie, 35(2–3), 199–208. https://doi.org/10.1024/1010-0652/a000310
Franconeri, S. L., Padilla, L. M., Shah, P., Zacks, J. M., & Hullman, J. (2021). The Science of Visual Data Communication: What Works. Psychological Science in the Public Interest, 22(3), 110–161. https://doi.org/10.1177/15291006211051956
Haller, H., & Krauss, S. (2002). Misinterpretations of significance: A problem students share with their teachers? Methods of Psychological Research Online, 7(1), 1–20.
Hanel, P. H. P., Maio, G. R., & Manstead, A. S. R. (2019). A new way to look at the data: Similarities between groups of people are large and important. Journal of Personality and Social Psychology, 116(4), 541–562. https://doi.org/10.1037/pspi0000154
Hanel, P. H. P., & Mehler, D. M. (2019). Beyond reporting statistical significance: Identifying informative effect sizes to improve scientific communication. Public Understanding of Science, 28(4), 468–485. https://doi.org/10.1177/0963662519834193
Higgins, S., Katsipataki, M., Villanueva Aguilera, A. B., Dobson, E., Gascoine, L., Rajab, T., Reardon, J., Stafford, J., & Uwimpuhwe, G. (2022). The Teaching and Learning Toolkit: Communicating research evidence to inform decision-making for policy and practice in education. Review of Education, 10(1), Article e3327. https://doi.org/10.1002/rev3.3327
Hullman, J., Resnick, P., & Adar, E. (2015). Hypothetical Outcome Plots Outperform Error Bars and Violin Plots for Inferences about Reliability of Variable Ordering. PLOS ONE, 10(11), e0142444. https://doi.org/10.1371/journal.pone.0142444
Ioannidis, J. P. A. (2005). Why Most Published Research Findings Are False. PLoS Medicine, 2(8). https://doi.org/10.1371/journal.pmed.0020124
Kale, A., Kay, M., & Hullman, J. (2020). Visual Reasoning Strategies for Effect Size Judgments and Decisions. https://doi.org/10.48550/ARXIV.2007.14516
Kale, A., Kay, M., & Hullman, J. (2021). Visual reasoning strategies for effect size judgments and decisions. IEEE Transactions on Visualization and Computer Graphics, 27(2), 272–282. https://doi.org/10.1109/TVCG.2020.3030335
Kelley, K., & Preacher, K. J. (2012). On effect size. Psychological Methods, 17(2), 137–152. https://doi.org/10.1037/a0028086
Kerwer, M., Chasiotis, A., Stricker, J., Günther, A., & Rosman, T. (2021). Straight from the Scientist’s Mouth—Plain Language Summaries Promote Laypeople’s Comprehension and Knowledge Acquisition When Reading about Individual Research Findings in Psychology. Collabra: Psychology, 7(1). https://doi.org/10.1525/collabra.18898
Kim, Y.-S. (2019). Effectively Communicating Effect Sizes.
Kim, Y.-S., Hofman, J. M., & Goldstein, D. G. (2022). Putting scientific results in perspective: Improving the communication of standardized effect sizes. In CHI 22: Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems. Association for Computing Machinery. https://doi.org/10.1145/3491102.3502053
Kraft, M. A. (2020). Interpreting effect sizes of education interventions. Educational Researcher, 49(4), 241–253. https://doi.org/10.3102/0013189X20912798
Kruschke, J. K. (2018). Rejecting or Accepting Parameter Values in Bayesian Estimation. Advances in Methods and Practices in Psychological Science, 1(2), 270–280. https://doi.org/10.1177/2515245918771304
Kühberger, A., Fritz, A., Lermer, E., & Scherndl, T. (2015). The significance fallacy in inferential statistics. BMC Research Notes, 8(1), 84. https://doi.org/10.1186/s13104-015-1020-4
Lortie-Forgues, H., Sio, U. N., & Inglis, M. (2021). How should educational effects be communicated to teachers? Educational Researcher, 50(6), 345–354. https://doi.org/10.3102/0013189X20987856
Merk, S., Groß Ophoff, J., & Kelava, A. (2023). Rich Data, Poor Information? Teachers’ Perceptions of Mean Differences in Graphical Feedback from Statewide Tests. Learning and Instruction, 84, 101717. https://doi.org/10.1016/j.learninstruc.2022.101717
Michal, A. L., & Shah, P. (2024). A Practical Significance Bias in Laypeople’s Evaluation of Scientific Findings. Psychological Science, 09567976241231506. https://doi.org/10.1177/09567976241231506
Nelson, J., & Campbell, C. (2017). Evidence-Informed practice in education: Meanings and applications. Educational Research, 59(2), 127–135. https://doi.org/10.1080/00131881.2017.1314115
Sackett, D. L., Rosenberg, W. M., Gray, J. A., Haynes, R. B., & Richardson, W. S. (1996). Evidence Based Medicine: What It Is and What It Isn’t. BMJ : British Medical Journal, 312(7023), 71–72.
Schmidt, K., Schneider, J., Bohrer, K., & Merk, S. (2024). Communicating Effect Sizes to Teachers. Exploring Different Visualizations and Their Enrichment Options.
Shavelson, R., Fu, A., Kurpius, A., & Wiley, E. (2021). Evidence-based practice in science education. In R. Gunstone (Hrsg.), Encyclopedia of science education. Springer Netherlands. https://doi.org/10.1007/978-94-007-6165-0_158-1
Sotos, A. E. C., Vanhoof, S., Van den Noortgate, W., & Onghena, P. (2009). How confident are students in their misconceptions about hypothesis tests? Journal of Statistics Education, 17(2). https://doi.org/10.1080/10691898.2009.11889514
Stosic, M. D., Murphy, B. A., Duong, F., Fultz, A. A., Harvey, S. E., & Bernieri, F. (2024). Careless Responding: Why Many Findings Are Spurious or Spuriously Inflated. Advances in Methods and Practices in Psychological Science, 7(1), 25152459241231581. https://doi.org/10.1177/25152459241231581
Vehtari, A., Gelman, A., Simpson, D., Carpenter, B., & Bürkner, P.-C. (2021). Rank-normalization, folding, and localization: An improved R^ for assessing convergence of MCMC (with discussion). Bayesian Analysis, 16(2). https://doi.org/https://doi.org/10.1214/20-BA1221
Wadhwa, M., Zheng, J., & Cook, T. D. (2024). How consistent are meanings of evidence-based? A comparative review of 12 clearinghouses That rate the effectiveness of educational programs. Review of Educational Research, 94(1), 3–32. https://doi.org/10.3102/00346543231152262
Wiesbeck, A. B., Knogler, M., & CHU Research Group. (2018). Gestaltung von Lernmaterial: Wie Hervorhebungen den Lernerfolg beeinflussen [Designing learning material: How signaling influences learning success]. Kurzreview 22. https://www.clearinghouse.edu.tum.de/reviews/lehrstrategien-im-vergleich/gestaltung-von-lernmaterial-wie-hervorhebungen-den-lernerfolg-beeinflussen/