Evaluationsstruktur ‘Lernen mit GMLS’

Derzeit werden allerorten empirische Untersuchungen durchgeführt, wie gut generative Machine-Learning-Systeme (Biblionetz:w02833) sich zum Lernen eignen. Zur Einordnung: GMLS in der Bildung (Biblionetz:w03434), Lernen MIT GMLS. Da viele dieser Untersuchungen ähnlich aufgebaut …

 

Derzeit werden allerorten empirische Untersuchungen durchgeführt, wie gut generative Machine-Learning-Systeme (Biblionetz:w02833) sich zum Lernen eignen. Zur Einordnung: GMLS in der Bildung (Biblionetz:w03434), Lernen MIT GMLS.

Da viele dieser Untersuchungen ähnlich aufgebaut sind, habe ich mir die Grundstruktur solcher Evaluationen aufgezeichnet :

In vielen Untersuchungen wird ein speziell fürs Lernen oder gar speziell für ein Thema gebautes oder konfiguriertes GMLS untersucht. Es werden meist drei Gruppen von Proband:innen gebildet:

  • Gruppe A: Lernende ohne GMLS-Unterstützung (die Kontrollgruppe)
  • Gruppe B: Lernende mit adaptierter GMLS-Unterstützung (die Treatment-Gruppe)
  • Gruppe C: Lernen mit allgemeiner GMLS-Unterstützung

Es wird also nicht nur das Verhalten von Lernenden mit und ohne speziell erstelltem/konfiguriertem GMLS verglichen, sondern mit Hilfe der Gruppe C wird auch untersucht, ob Lernende mit einem speziell erstelltem/konfiguriertem GMLS besser abschneiden als mit einem allgemein verfügbaren Standardprodukt.

Die speziell erstellten/konfigurierten GMLS unterscheiden sich von Standardprodukten meist durch spezifische (zusätzliche) Trainingsdaten (z.B. fach- oder themenspezifisches Material) und/oder spezifische didaktische Anweisungen an das GMLS (z.B. die Aufforderung, nur Hinweise, nicht aber die Lösung für Probleme zu verraten).

Die Leistungen der Lernenden werden sodann in zwei oder drei Untersuchungen geprüft:

  • T1: Leistungsmessung vor der Versuchsphase (wo man im Idealfall identische Leistungen in allen drei Gruppen erhofft)
  • T2: Leistungsmessung nach der Versuchsphase unter Zuhilfenahme des GMLS (die Lernenden der Gruppen B und C dürfen also in ihrer Gruppe verfügbare Werkzeug weiterhin verwenden).
  • T3: Leistungsmessung nach der Versuchsphase, aber ohne Zuhilfenahme des GMLS (alle drei Gruppen lösen die Aufgaben ohne GMLS).

Eine Leistungsmessung T3 (die zeitlich durchaus praktisch zeitgleich wie T2 stattfinden kann) soll prüfen, ob die Lernenden auch bessere Leistungen als zum Zeitpunkt T1 zeigen, wenn sie das neue Werkzeug nicht mehr zur Verfügung haben. Damit soll meist geprüft werden, ob die Lernenden dank GMLS auch gelernt haben, entsprechende Probleme ohne GMLS zu lösen.

Beispiele solcher Untersuchungen

  • Peter Kießling, Florian Funke, Sven Hofmann (2024).
    Entwicklung und Evaluation einer KI-Assistenz zur didaktisch-pädagogischen Unterstützung des Lernprozesses mit Programmieraufgaben
    Biblionetz:t31890

 

Weitere Blogbeiträge aus dem zITBOx Netzwerk

Deep Learning ist meist ein überflüssiger Begriff

In vielen Handreichungen, Positionspapieren, Erklärungen und Materialien zu maschinellem Lernen (aka “KI”) wird im Abschnitt “Wie funktioniert das?” der Begriff “Deep Learning* (Biblionetz:w02947) verwendet und mehr oder weniger …

Ohne Umweg ins Gefängnis!

Seit mehr als 20 Jahren betreibe ich nun Wikiserver und ebenso lang ist mein Kampf gegen Bots und Crawler, welche die Verfügbarkeit meines Wikis bedrohen. Die von mir verwendete Wiki-Engine …

Programming Wiki

Den grössten Future-Shock Level an der vergangenen GI-Fachtung Informatik und Schule INFOS 2009) hatte für mich der Beitrag von Michael Hielscher und Christian Wagenknecht mit dem Titel Programming-Wiki: Online Programmieren …