© Jan Zappner

Kontakt

Leibniz-Gemeinschaft
Referat Kommunikation
Chausseestraße 111
10115 Berlin
Tel.: 030 / 20 60 49 - 48
Fax: 030 / 20 60 49 - 55

Was macht Wikipedia glaubwürdig?

25. Februar 2014 | Deutsches Institut für Internationale Pädagogische Forschung

Die Qualität der über 30 Millionen Artikel in Wikipedia manuell zu kontrollieren, ist sehr aufwändig. Eine Studie zeigt, wie automatische Textanalysen diesen Prozess unterstützen können.


Es ist aufwändig, die Qualität der über 30 Millionen Artikel in Wikipedia manuell zu kontrollieren und zu verbessern. Eine Studie des Deutschen Instituts für Internationale Pädagogische Forschung (DIPF) zeigt jetzt, wie automatische Textanalysen diesen Prozess unterstützen können. Basis der Studie waren Nutzerbewertungen von Biografien in Wikipedia – unterteilt nach den Kategorien „gut geschrieben“, „glaubhaft“, „objektiv“ und „vollständig“. Die Bewertungen waren ein Jahr lang im englischsprachigen Wikipedia erfolgt. Die Forscherinnen und Forscher um Professorin Dr. Iryna Gurevych, Direktorin des Informationszentrums Bildung am DIPF, führten nun Analysen von besonders gut oder schlecht bewerteten Biografien mit Informatik-Methoden des Text-Mining durch. Dabei konzentrierten sie sich auf sprachliche Merkmale wie Worthäufigkeiten und Emotionalität der Aussagen. Zugleich untersuchten sie Wikipedia-spezifische Eigenschaften wie das Alter des Eintrags sowie die Anzahl der Verlinkungen und Revisionen. Professorin Gurevych resümiert: „Die Systeme konnten Artikelmerkmale identifizieren, die bestimmte Qualitätsurteile erwarten lassen, woraus sich Hinweise auf Verbesserungsbedarf ergeben.“

Folgende Zusammenhänge zwischen Texteigenschaften und Nutzerbewertungen wurden festgestellt:

Allgemeine sprachliche Merkmale: Ein guter Schreibstil wird attestiert, wenn Texte emotionaler geschrieben sind und Wörter enthalten, die Unsicherheit ausdrücken – zum Beispiel „möglicherweise“. Gleichzeitig mindern eine emotionale Sprache und viele Sicherheitswörter wie „überzeugt“ die Glaubwürdigkeit. Biografien mit Bezügen zur Politik werden generell als weniger objektiv angesehen. Schlechte Bewertungen im Bereich Objektivität erhalten zudem Artikel mit zahlreichen komplizierten Wörtern und negativen Ausdrücken – und solche, die hohe Geldbeträge erwähnen. Viele genannte Orte, Organisationen und Zeitangaben wie „Jahr“ lassen auf Vollständigkeit schließen.

Wikipedia-spezifische Eigenschaften: Die Nutzerinnen und Nutzer nehmen Texte, die länger und älter sind, eher als gut geschrieben wahr. Gleiches trifft auf Biografien zu, die mehrfach und von unterschiedlichen Personen bearbeitet wurden, was zudem zu guten Bewertungen in der Kategorie „vollständig“ führt. Ebenso als vollständig und auch als glaubhaft gelten Beiträge mit zahlreichen Verlinkungen und Referenzen. Insgesamt lässt sich sagen, dass die Qualität der Biografien allgemein höher eingeschätzt wird, wenn die Wikipedia-Gemeinschaft sie intensiver und länger bearbeitet hat.

Ein Beispiel: Die Biografie von Wladimir Putin wurde als gut geschrieben und ziemlich komplett bewertet. Diese Urteile werden häufig abgegeben bei Biografien, die – wie die des russischen Staatschefs – schon relativ lange in Wikipedia vorliegen und häufig und von vielen Autorinnen und Autoren überarbeitet wurden. Gleichzeitig wurde die Putin-Biografie als wenig objektiv wahrgenommen, was wiederum typisch für Biografien von Politikerinnen und Politikern ist.

Die Forscherinnen und Forscher arbeiten nun an einem System, das anhand solcher Merkmale allgemeine Aussagen zur Qualität von Texten in Wikipedia abgeben kann. „So ein System wird wertvolle redaktionelle Vorschläge unterbreiten und den Prozess der Qualitätskontrolle erleichtern können“, betont Professorin Gurevych. Dennoch können die Programme das Urteil durch den Menschen, der besser verschiedene Informationsebenen verknüpfen kann, nicht ersetzen. In der Studie zeigte die Technik zum Beispiel Schwierigkeiten bei der Analyse von kontroversen Themen und Meinungsäußerungen.

Die Studie zu biografischen Texten in Wikipedia ist Teil des interdisziplinären Forschungsschwerpunktes „Bildungsinformatik“ am DIPF und an der TU Darmstadt. Die Forschungen bauen auf Informationswissenschaft, Computerlinguistik und weiteren Gebieten der Informatik auf, nutzen bildungswissenschaftliche Grundlagen und verzahnen diese Fachdisziplinen. Dabei werden theoretische Grundlagen, Mittel und Methoden erschlossen, um IT-basierte Werkzeuge auf bildungswissenschaftliche Fragestellungen anzuwenden. Die Wissenschaftlerinnen und Wissenschaftler arbeiten etwa daran, Texte automatisiert auszuwerten, Online-Suchverfahren intelligenter zu gestalten, die Analyse des Nutzungsverhaltens im Internet zu verbessern und virtuelle Forschungsumgebungen in verschiedenen Disziplinen einzusetzen.

Nähere Informationen zu der Studie:

http://bit.ly/UKP_DIPF_Wikipedia_Biographies

Kontakt: 

Philip Stirm
Tel.: 069 / 24708-123
stirm(at)dipf.de

www.dipf.de