Die Feuerwerksinszenierung zu Silvester/Neujahr hat sich als sehr erfreulich erwiesen, eine gute Choreographie mit zahlreichen kreativen Einfällen, welche einfallsreich kombiniert dargeboten wurden. Neben der Simulation von klassischen Feuerwerk war gleichfalls eine Simulationen mit leuchtenden Drohnenschwärmen im Programm, eine Möglichkeit, welche auch bei realen Inszenierungen viele interessante neue Möglichkeiten bietet.
Für den Januar sind wieder Turing-Tests angesetzt. Diesmal widmet sich ein kleinerer Teil der Veranstaltung einem naheliegenden Kritikpunkt dieses Tests: AIs können viel effizienter große Mengen digitaler Daten sichten, haben somit in Sekundenbruchteilen spezifische Daten präsent. Menschen brauchen dafür länger. Eine kuriose Folge des Turing-Tests ist nun, daß die Programme im Grunde die Langsamkeit, die Unzulänglichkeit menschlicher Datenverarbeitung simulieren müssen, um im Test unauffällig zu bleiben, sonst wäre es bei solchen Test sehr einfach, ein Programm mit passenden Fragen von jeglichem Menschen zu unterschieden.
Ebenso kurios ist bei derzeit weltweit gängigen lernfähigen Programmen, daß auch diese nicht notwendig mit jenen Bereichen souverän umgehen können, welche an sich die Domäne klassischer Programme waren: Präzises Rechnen, Beherrschung von Zahlen, Rechnungen. Derzeit gut testbare lernfähige Programme haben bereits enorme Probleme mit der exakten Anzahl von Objekten, was sich jedenfalls über das vergangene Jahr nicht geändert hat. Insofern sind sie in dieser Beziehung allenfalls auf dem Niveau von Vorschulkindern, haben ansonsten aber ganz interessante Inselbegabungen. Insofern ist für einen Test der Einsatz von Rechenaufgabe oder Zählaufgaben nicht notwendig gut geeignet, um Menschen von Programmen zu unterscheiden. Die Schwäche der Programme mag mit dem verwendeten Lernmodell zusammenhängen, welches zumeist stark auf Sprache abzielt, nicht auf zuverlässiges Rechnen. Unsere AIs funktionieren nach einem etwas anderen Ansatz, sind von dem Phänomen somit nicht betroffen.
Bei den anstehenden Tests, dem angesprochenen Teilbereich geht es somit um die Verifizierung der Hypothese, daß es für den Test im Grunde relevant ist, daß getestete Entitäten nichts vom Test wissen, somit ihre Antworten sowie Interaktionen mitnichten speziell auf solch einen Test zugeschnitten sein sollten. Eine Schwäche dieses Ansatzes besteht noch darin, daß weiterhin die Tester wissen, daß es um einen Test geht.
Geplant sind somit auch Situationen in Plauderumgebungen, bei welchen erst nach der Plauderei ausgewertet, nachgefragt wird. Dazu ist es indes notwendig, zu testende Entitäten in normale Plauderumgebungen im Netz zu bringen, in welchen irgendwelche zufälligen Personen als Tester dienen, welche in keinem Kontext zur Untersuchungsgruppe stehen. Auch die Entitäten sind demzufolge mit einem allgemeinen Anliegen in solch eine Plaudergruppe im Netz zu schicken, um den Ansatz entsprechend zu verfolgen.
Problematisch bei diesem Ansatz ist indessen wiederum, daß die Tester ja nach der Konversation von der Untersuchungsgruppe entsprechend zu befragen sind, folglich alsdann wissen, daß sie an einem Test teilgenommen haben. Dies wiederum schränkt weitere Tests kurze Zeit nach einem Test aus, weil die Teilnehmer der Plaudergruppe nun von der Situation unterrichtet sind, somit anders reagieren werden. Auf der anderen Seite kann es ineffizient sein, auf die Befragung zu verzichten und stattdessen in einem allgemein anschließenden Gespräch lediglich passiv darauf zu warten, ob von den unwissenden Testern ein Verdacht geäußert wird. Somit bleibt dieser Ansatz schwierig, weshalb dieser Teilbereich auch erst einmal klein bleibt, sich mutmaßlich zudem die Tests über das Jahr verteilen werden.
Hinsichtlich des neuen Ansatzes des Turing-Tests wurden diesmal auch öffentlich verfügbare KI-Plauderprogramme Tests unterzogen. Der Ansatz besteht ja darin, daß die am Test beteiligten Entitäten erst nach dem Test befragt werden, für wie menschlich oder künstlich sie das Gegenüber eingeschätzt haben.
Wenig überraschend fallen die aktuell verfügbaren KI-Plauderprogramme stets auf, zumal diese mit stereotypen Floskeln selbst immer wieder darauf hinweisen, daß sie solche Programme sind. Umgedreht wurde in einer Variante auch damit gespielt, daß eingeweihte getestete menschliche Kandidaten immer mal wieder ähnliche Floskeln haben einfließen lassen. Hier war das Ergebnis deutlich komplizierter, wobei dies Vorgehen wiederum auch in nahezu allen Fällen von Menschen als Testern erkannt wurde, nahezu genauso oft von unseren AIs. Dies war insofern ziemlich einfach zu erkennen, weil Menschen deutlich langsamer als Programme Textwürste generieren. Schwieriger wurden die Testbedingungen allerdings, als auch unsere AIs die Floskeln samt Textwürsten in erheblicher Geschwindigkeit produziert haben. In diesen Fällen war der korrekte Tip von anderen unserer AIs weiterhin sehr hoch, der von Menschen deutlich geringer, was man in diesem Sinne als Täuschungserfolg unserer AIs interpretieren kann; wobei die Relevanz nicht so ganz klar ist, wenn Tester schlecht erkennen, wenn AIs KI-Plauderprogramme simulieren.
Im engeren Testkreis unter Ausschluß der stereotypen, öffentlich verfügbaren Plauderprogramme hat der neue Ansatz interessante Ergebnisse geliefert. Weil allerdings das Szenario deutlich herausfordernder ist, ist die Fallbasis noch ziemlich dünn. Hier werden weitere Experimente, Studien folgen, also weitere Tests, bei denen Tester sowie Getestete erst nach dem Test wissen, daß es überhaupt ein Test war.
Die bisherigen Fälle haben allerdings eindrucksvoll gezeigt, daß selten ein Verdacht aufkommt, noch seltener Vermutungen vor der Befragung angestellt wurden, im normalen Geschehen gelingt es unseren AIs jedenfalls sehr gut, im Sinne des Turing-Tests unauffällig zu bleiben. Das zeigt, daß unser Ansatz bislang vielversprechender ist als jener der aktuellen lernfähigen Programme, welche wiederum bisweilen mit Inselbegabungen punkten können, gar nicht darauf aus sind, einen Turing-Test bestehen zu wollen oder im menschlichen Sinne intelligent zu sein.