Statistisches zur Zeitschrift Informationspraxis (statt eines Nachrufs)

Die Informationspraxis war eine Zeitschrift für Bibliotheken, Informationseinrichtungen und vergleichbare Einrichtungen, welche von 2015 bis 2022 erschien. Sie war auf den deutschsprachigen Raum ausgerichtet (explizit stand hinter der Zeitschrift ein schweizerischer Verein, wenn auch der Grossteil der Redaktion in Deutschland arbeitete) und erschien – wie alle vergleichbaren Zeitschriften, die in dieser Zeit gegründet wurden – als reine Open Access Zeitschrift. Gleichzeitig versuchte sie, Abläufe zu verändern – die Redaktion wollte nicht einfach eine «weitere Zeitschrift» machen, sondern Neues ausprobieren. Das zeigte sich vor allem am Open Peer Review, bei dem Artikel in einer ersten Version im Blog des Zeitschrift publiziert wurden, dort offen kommentiert werden konnten, diese Kommentare gesammelt und an die Autor*innen zurückgemeldet wurden, welche darauf (und auf Kommentare der Redaktion) reagierten, bevor die endgültige Fassung des jeweiligen Artikels erschien. (In meiner Erfahrung als Autor gab es allerdings immer wenige Kommentare, ausserdem lernte die Redaktion, dass es manchmal wichtig ist, sich «dazwischenzuschalten», da einige Leute halt nicht wissen, wie man potentialorientiert kommentiert.) Als Redaktionssystem wurde OJS genutzt – das wird kurz weiter unten relevant werden.

Die Redaktion beendete die Zeitschrift mit einem ganz kurzen Hinweis auf der Homepage. Es gab keine abschliessenden Text. Soweit ich das sehe, hat auch niemand sonst einen Nachruf oder Ähnliches veröffentlicht, abgesehen von einigen Social Media Kommentaren, die Bedauern über das Ende ausdrückten. Auch dieser Text hier wird nicht darüber reflektieren, warum die Zeitschrift eingestellt wurde und was dies (vielleicht) über das Bibliothekswesen im DACH-Raum sagt. Ich denke, dass müsste jemand machen, die*der die ganze Zeit in der Redaktion gewesen ist. (Was möglich wäre: Die «Laufzeit» von acht Jahren, scheint mir, wäre eine gute Voraussetzung für so eine Reflexion. Lang genug, als das es Veränderungen gab, aber kurz genug, um diese Zeit vollständig zu Überblicken.)

Aber die Informationspraxis stellt auch eine Chance dar: Es gibt mit ihr eine «abgeschlossene» Sammlung an Texten aus dem Bibliothekswesen, relativ aktuell, ausgewählt und bearbeitet von einer fachspezifischen Redaktion. Es sind ausreichend viele Texte, um aus ihnen einige Statistiken abzuleiten und etwas Textmining zu betreiben. (Es sind nicht wirklich genug für komplexere Textmining-Modelle. Das wird weiter unten noch thematisiert werden.) Und das soll hier, anstatt eines Nachrufs, geliefert werden: Die Informationspraxis wird als Datensatz behandelt und einige statische Daten über sie dargestellt. (Die Nutzungs-/Abrufstatistiken sind nicht darunter – die liegen wohl im OJS selber und müssten von der ehemaligen Redaktion veröffentlicht werden. In der «Geschichte» der Zeitschrift ist das auch passiert (https://informationspraxis.de/2019/01/07/der-informationspraxis-lesebericht-2018/), aber nicht bei ihrem Ende.)

Aufgebaut ist der Beitrag wie folgt: im nächsten Abschnitt (1) wird kurz die «technische» Seite beschrieben – also, wie die Daten für diesen Beitrag hier gesammelt, aufbereitet und verarbeitet wurden. Wer das nicht unbedingt wissen will, kann den getrost überspringen. Anschliessend (2) werden einige Statistiken über die Zeitschrift selber dargestellt. Hier geht es dann vor allem um die Anzahl der Ausgaben oder die Zahl der Autor*innen. Dann geht es ans Textmining, also an die Frage, was sich auf statistische Weise aus den eigentlichen Beiträge herauslesen lässt. Unterteilt ist dies nochmal in einfache Statistiken (3) wie die Auszählung der Worte, die verwendet wurden und komplexere Statistiken (4), die etwas tiefer in die Materien gehen. Wie wohl zu erwarten wird dann in einem abschliessenden Abschnitt (5) versucht, einige Schlüsse zu ziehen und mögliche weitere Fragen aufzuzeigen. In einem kurzen Nachwort (6) gehe ich dann doch noch mal auf meine abschliessende Bewertung der Informationspraxis ein – wie im Abschnitt 2 sichtbar wird, war ich erstaunlicherweise einer der «Top-Autor*innen», was mich doch zu einem Kommentar drängt.

Alle Daten hier im Beitrag können heruntergeladen werden und stehen unter einer CC BY NC 4.0-Lizenz.

1. R, Datascrapping und spezialisierte Libraries – zur «technischen» Seite

Alle Daten und Statistiken, die weiter unten dargestellt werden, sind mit der Statistiksprache R produziert worden. (Verwendet wurde Version 4.2.2 in R-Studio Version 2023.09.01.) Die verwendeten Libraries waren auf die jeweils neueste Version geupdatet. Das ganze Projekt war auch ein Experiment dazu, was heute mit diesen recht einfachen Mitteln möglich ist. Das ganze nahm vielleicht drei Arbeitstage (verteilt über eine Woche in den Stunden «nebenher») in Anspruch. Deshalb war / ist auch vieles handgestrickt und nicht perfekt, sondern experimentell. Kolleg*innen in den Digital Humanities, die sich ständig mit Textmining und Ähnlichem beschäftigen, werden selbstverständlich viel schneller zu den gleichen Ergebnissen gelangen und dann auch zu viel differenzierten, besseren. Es sollte als Experiment verstanden werden, aber eines, dass sich auch von anderen Personen recht einfach reproduzieren lässt. (Ein Experiment, dass auch davon motiviert ist, dass ein Kollege aus der ehemaligen Redaktion der Informationspraxis oft davon gesprochen hat, wenn wir das paraphrasieren, «einmal was mit Data- und Textmining machen zu wollen». Da erschien es nur passend, dass an der Zeitschrift selber durchzuführen, nachdem sie eine «abgeschlossene Sammlung» wurde.)

Ermöglicht wurde dies durch zwei Fakten:

  1. Die Informationspraxis erschien, wie gesagt, kontinuierlich im Open Access (mit CC BY 4.0) und auf einem OJS. Das heisst, erstens sind die Daten strukturiert (weil sie aus dem OJS strukturiert ausgegeben werden, zumindest wenn dort nicht viel verändert wird – was die Informationspraxis nicht tat) und zweitens sind die Rechte geklärt: Die Texte dürfen für ein Text,ining verwendet werden.
  2. Datamining, auch auf der Basis von Artikeln und Zeitschriften, die auf einem OJS veröffentlicht wurden, stellen in gewisser Weise Standardaufgaben dar. Es gibt für sie schon etablierte Libraries (nicht nur, aber auch für R), die dafür einfach verwendet werden konnten. In unserem Fall waren dies ojsr (https://www.rdocumentation.org/packages/ojsr/versions/0.1.2) für das Einlesen der Metadaten von der Homepage, rvest (https://www.rdocumentation.org/packages/rvest/versions/1.0.3) für das Textscrapping der Volltexte und quanteda (https://quanteda.io), inklusive der «Unterpackages» für textstats, textplots und textmodels, für das Textmining.

Vorgegangen wurde nun, in gewisser Weise auch schon standardisiert, wie folgt:

  1. Zuerst wurden mithilfe von ojsr die gesamten Metadaten der Informationspraxis eingelesen. Das ist genau die Aufgabe, für welche dieses Paket geschrieben wurde. (Es funktioniert auch mit allen anderen Zeitschriften, die auf OJS gehostet werden, solange sie die grundlegende Metadatenstruktur beibehalten.) Insoweit war es direkt aus dem in der Beschreibung des Pakets gegebenen Beispiel umsetzbar.
  2. Ebenso direkt und einfach umsetzbar war das Scrapping der eigentliche Volltexte. Hierzu wurden die URLs, die in den Daten aus dem ersten Schritt enthalten waren, genutzt, um dann mit dem Paket rvest die gesamten HTML-Inhalte aller Artikel der Informationspraxis herunterzuladen und dann so umzuformatieren, dass sie weiterverarbeitet werden konnten.
  3. Anschliessend wurden die Daten zusammengeführt und, beispielsweise, die jedem Artikel beigegebene Unterzeile «Informationspraxis mitgestalten?Hier steht, wie’s geht!» gelöscht. Am Ende stand ein Datensatz, in welchem für jeden Artikel in einer Zeile Metadaten, eine eindeutige Kennung und – jeweils in einer Zelle – der gesamte Text stand. [Die eindeutige Kennung besteht aus einer durchlaufen Zahl und dem Beginn der bibliographischen Angaben. Die gesamten bibliographischen Angaben waren in den Graphiken nicht zu lesen. Am Ende dieses Artikels findet sich aber eine Tabelle, welche diese Kennung und die bibliographischen Angaben darstellt, sodass auch auf einzelne Artikel zurückgeschlossen werden kann.] Dieses Format – genauer: eine Tabelle mit Volltext und Identifier – war notwendig für die Weiterverarbeitung mit dem Paket quanteda.
  4. In einem ersten Schritt der Analyse wurde mit den reinen Metadaten gearbeitet. Es wurde in jeweils kleineren Datensätzen zusammengefasst, welche Autor*innen die Artikel der Informationspraxis hatten, wie viele Ausgaben es gab etc. Auch hiermit liess sich schon ein interessanter Überblick erarbeiten, welcher weiter unten in Abschnitt 2 dargestellt ist.
  5. Anschliessend wurde das Textmining durchgeführt. Für dieses gibt es eine ganze Anzahl von Paket in R. Gewählt wurde, weil ich schon von einigen früheren Versuchen ein wenig mit ihm vertraut war und weil es in der Literatur zum Textmining immer wieder erwähnt wird, das Paket quanteda. Dieses bietet Funktionen, um sehr einfach Textmining durchzuführen – doch wie immer bei solchen Paketen übernimmt es die Arbeit, nicht aber die konkrete Interpretation der Daten. Zuerst wurden die Daten in einen Corpus umgewandelt, mit dem dann weitergearbeitet werden konnte. Das ist der Teil, für den die Datenstruktur Identifier und Volltext notwendig war. (Diese werden in eine Struktur umgearbeitet, in denen der Text in einen Container liegt, der Identifier auf ihn verweist und dann die anderen Metadaten, die vielleicht auch in den Tabelle liegen – beispielsweise in unserem Fall die Erscheinungsjahre der Artikel – als Kategorien angelegt sind.) Und dann wurden die verschiedenen Möglichkeiten des Textminings, die quanteda bietet «durchgespielt». Nicht alle ergaben sinnvoll interpretierbare Daten und selbstverständlich kann man immer weiter hinter die Möglichkeiten, die das Paket bietet, steigen. Was hier in Abschnitt 3 präsentiert wird, sind die Ergebnisse, die im Laufe dieses Experiments erstellt wurde und präsentabel erschienen. (Aber der Quellcode ist auch am Ende des Beitrags als Datei eingefügt, so dass alle ihn nachvollziehen, selber «laufen lassen» und gerne auch erweitern / verändern dürfen.)
  6. Für die Darstellung der Daten und Plots hier wird in vielen Fällen das WordPress-Plugin wpDataTables (https://wpdatatables.com) verwendet. Die anderen Plots wurden direkt in R erstellt.

2. «Einfache» Statistiken

Im Laufe ihres Bestehens publizierte die Informationspraxis 83 Artikel – Editorials eingeschlossen – in vierzehn Ausgaben. (Dabei wurden Ausgaben ab einem bestimmten Zeitpunkt «laufend» publiziert, also alle Beiträge wurden publiziert, wenn sie fertig waren, aber alle halben Jahre wurden die Ausgaben «abgeschlossen».) Die Verteilung der Beiträge über die Jahre ergibt sich aus der folgenden Graphik.

Dabei zeigt sich, dass die Zahl der Beiträge über die Ausgaben ungleich verteilt war. Erstaunlich ist vielleicht, dass es keine Trend dahin gibt, dass in den späteren Ausgaben weniger Texte veröffentlicht wurden, als in den früheren. Die kürzeste Ausgabe (2/2019) mit einem Text erschien fast in der Mitte der «Laufzeit» der Zeitschrift.

Insgesamt wurden diese Beiträge von 176 Autor*innen verantwortet, oft in Teams. Allerdings publizierten die meisten nur einmal. Es gab ein gewisses «Kernteam»: Stellt man nur diejenigen Autor*innen da, die mindestens dreimal publizierten, zeigt sich dies direkt. Dabei muss man beachten, dass drei der «Hauptautor*innen» unter diesen acht direkt der Redaktion angehörten, also auch redaktionelle Beiträge verantworten. (Etwas überraschend (für mich) war ich der Autor mit den meisten Publikationen, der nicht aus dem Kreis der Redaktion stammt. Das war nicht so geplant.)

Generated by wpDataTables

Ohne Vergleich mit anderen Zeitschriften ist nicht klar, wie man diese Werte interpretieren soll. Aber es scheint, als wenn es nicht einfach war, Autor*innen zu mehr als einem Beitrag zu bewegen.

Die Beiträge wurden in der Informationspraxis in fünf verschiedenen Rubriken veröffentlicht: Fachbeiträge, Kurzberichte, Berichte / Kritik, Editorial und Preprints. Diese Kategorien sind in dem Metadaten hinterlegt und lassen sich deshalb auch darstellen.

Sichtbar wird hier, dass die Fachbeiträge fast 50% darstellten, die Informationspraxis also als Fachzeitschrift gelten kann. Gleichzeitig fällt auf, dass die Zeitschrift oft darauf verzichtete, ein eigenständiges Editorial zu publizieren. Im Gegensatz zu anderen Zeitschriften, die dies in jeder Ausgabe tun, passierte dies nur manchmal.

Alle Beiträge wurden mit Keywords ausgezeichnet, insgesamt 104. Allerdings helfen diese Keywords nicht dabei, Trends bei den Themen, über die publiziert wurde, zu identifizieren. Gerade einmal vier von ihnen wurden mehr als einmal benutzt.

Generated by wpDataTables

Wir müssen uns also, um mehr über die Inhalte zu erfahren (ohne gleich alle Beiträge zu lesen), dem Textmining – also praktisch der statistischen Auswertung der Wortverteilung – zuwenden.

3. Textmining – einfach

Für Textmining wird immer Text – in unserem Fall alle in der Zeitschrift erschienen Beiträge – als Datenbasis für statistische Auswertungen verwendet. Dafür ist es notwendig, sie in ein Format zu bringen, dass nur aus Text besteht. Dies funktioniert mittels des im Abschnitt (2) beschriebenen Weges aber schnell, fast schon erschreckende schnell: Die Informationspraxis war eine Zeitschrift, an der über acht Jahre lang von vielen Menschen gearbeitet wurde – aber in etwas weniger als 70 Sekunden sind alle diese Metadaten und Artikel heruntergeladen, umgewandelt und für die weitergehende Analyse aufbereitet.

Was damit möglich ist, ist aber erst einmal eine einfache Auswertung der Worte und Wortverbindungen, die in den Artikeln vorkommen. Die Idee dahinter ist, dass aus diesem Vorkommen unterschwellige Themen gelesen werden können – also beispielsweise inhaltliche Gemeinsamkeiten zwischen den Beiträgen, die einzelnen Autor*innen gar nicht auffallen. (Es hilft, dass alle Artikel hier in der gleichen Sprache – dem Deutschen, wenn auch mit leichten Varianten – publiziert wurden. Das macht es möglich, einfach die gleiche Statistik für alle Dokumente zu erstellen und diese zusammenzufassen.)

Zuerst können wir uns eine Liste anschauen, welche die Dokumente (also unsere Beiträge) und ihre statistischen Eigenschaften zusammen darstellt. In der ersten Spalte findet sich die ID der Artikel, in der zweiten die Anzahl der Zeichen, in der dritten die Zahl der Sätze (gezählt nach den Satzendzeichen), in der vierten die der Tokens (zusammenhängende Buchstabenfolgen, also oft Worte, aber auch Emoticons oder so.) und in den folgenden Spalten die jeweilige Zahl weiterer Zeichenketten.

Generated by wpDataTables

Wir sehen hier beispielsweise, dass es sehr unterschiedliche lange Beiträge gab; etwas, dass in Zeitschriften mit klaren Vorgaben für Artikel – im Bibliothekswesen vor allem die auch gedruckt erscheinenden praxisorientierten Zeitschriften – nicht vorkommen würde. Gleichzeitig zeigt sich, dass die Autor*innen auf #Tags und Emoticons verzichteten sowie andere Zeichen, als Text, nur sparsam einsetzten.

Die unterschiedliche Länge der Texte lässt sich auch (eingermassen) aus der folgenden Darstellung dieser Daten ablesen.

In einer weiteren Tabelle lässt sich ablesen, welche Worte am meisten verwendet wurden. Bei solchen Analysen finden sich – obgleich «Stoppwörter» standardmässig, also auch hier, aus diesen Statistiken entfernt werden – immer viele «Allgemeinworte». Relevant ist, die betreffenden, einen Korpus kennzeichnenden Worte herauszufiltern. Allgemeinworte in dieser Liste sind beispielsweise «dass», «wurde», «wurden». (In einem weiteren Schritt kann man diese Worte trunkieren – also auf ihren Wortstamm zurückführen, hier «wurde» und «wurden» auf «wurd». Aber das bedarf dann, die Ergebnisse noch mehr zu überprüfen, um herauszufinden, was richtig trunkiert wurden und was nicht. Etwas, das in diesem Experiment nicht getan wurde.)

Für uns interessant sind Wort wie «bibliotheken» (1244-mal), «open» (1172-mal), «bibliothek» (756-mal), «access» (614-mal), «daten» (404-mal), «library» (360-mal), «data» (344-mal), «information» (331-mal), «online» (317-mal), «informationen» (264-mal), «menschen» (263-mal) oder «zugriff» (261-mal). Die Informationspraxis stammte aus dem Bibliothekswesen und dies war offenbar in den Artikeln, die bei ihr erschienen, auch prägend. Es wurde über Bibliotheken oder über Themen, die das Bibliothekswesen interessieren (Open Access, Information, Online, Menschen), geschrieben. (Erstaunlich ist, dass «archiv» nur 50-mal, «archive» 29-mal genannt wurde, allerdings auch noch eine Anzahl an Zusammensetzungen mit «Archiv».)

Wir können uns aus dieser Liste wieder Unterlisten ausgeben lassen und zum Beispiel schauen, ob, zum Beispiel, «Bibliothek» und «Information» rein als Begriff genutzt wurden oder in Zusammensetzungen.

Das scheint vielleicht etwas nach Spielerei (wir lernen halt, dass es zwar Zusammensetzungen gab, daneben die Begriffe allerdings grösstenteils «rein» verwendet wurden), aber sichtbar ist im zweiten Plot auch, dass der Zeitschriftenname selber recht oft verwendet wurde. (168-mal, wie die unterliegende Datentabelle zeigt.)

Für eine weitere Tabelle können wir uns den «collocations» (Kollokationen – was keine hilfreiche Übersetzung ist; es sind jeweils zwei zusammen stehende Worte), die gewisse allgemein verwendete Begrifflichkeiten anzeigen. Hier zeigt sich unter anderem, dass «Open Access» tatsächlich recht offen in den Beiträgen der Informationspraxis vorkam (566-mal).

4. Text Mining – (etwas) komplexer

Das quanteda Paket ermöglicht viele weitere Analysen. Das, was wir bislang gezeigt haben, ist eher nur ein Anfang. (Allerdings: Damit es sinnvoll ist, ist für viele Funktionen – ganz abgesehen davon, dass sie eine weitere Lernkurve bedeuten würden, für die bei diesem «Experiment» keine Zeit zur Verfügung stand – ein grösserer Datensatz notwendig.) Wir können aber zumindest zwei dieser Analysen durchführen.

Zuerst Keyword in Context (KWIC)-Tabellen. (Das erinnert Bibliothekar*innen vielleicht an ihren Katalogisierungsunterricht, wenn sie den noch hatten. Aber es ist etwas anderes.) In diesen Tabellen werden die jeweils gewählten Worte im Zusammenhang dargestellt. Die Länge des Zusammenhangs lässt sich selbstverständlich anpassen, aber hier haben wir die Standardeinstellung verwendet, die da heisst: je fünf Token vor und nach dem gesuchten Wort. In der erste Tabelle hier wird dies für «bibliothek» gezeigt. In dieser findet sich für jedes Vorkommen jeweils der Kontext, welcher das Wort umrahmt, zudem der Verweis auf den eigentlichen Text und eine Zeichenangabe, wo genau sich dieser Kontext vorkommt. Die Idee hinter diesen Tabelle ist es, jetzt einen Überblick darüber zu haben, was regelmässig im Zusammenhang mit dem gewählten Wort geschrieben wird. (In vielen Einleitungen zum Textmining wird dies anhand von politischen Reden vorgeführt, da ist dann sichtbar, was im Zusammenhang mit «umstrittenen» Begriffen gesagt wurde.)