Statistisches zur Zeitschrift Informationspraxis (statt eines Nachrufs)

Die Informationspraxis war eine Zeitschrift für Bibliotheken, Informationseinrichtungen und vergleichbare Einrichtungen, welche von 2015 bis 2022 erschien. Sie war auf den deutschsprachigen Raum ausgerichtet (explizit stand hinter der Zeitschrift ein schweizerischer Verein, wenn auch der Grossteil der Redaktion in Deutschland arbeitete) und erschien – wie alle vergleichbaren Zeitschriften, die in dieser Zeit gegründet wurden – als reine Open Access Zeitschrift. Gleichzeitig versuchte sie, Abläufe zu verändern – die Redaktion wollte nicht einfach eine «weitere Zeitschrift» machen, sondern Neues ausprobieren. Das zeigte sich vor allem am Open Peer Review, bei dem Artikel in einer ersten Version im Blog des Zeitschrift publiziert wurden, dort offen kommentiert werden konnten, diese Kommentare gesammelt und an die Autor*innen zurückgemeldet wurden, welche darauf (und auf Kommentare der Redaktion) reagierten, bevor die endgültige Fassung des jeweiligen Artikels erschien. (In meiner Erfahrung als Autor gab es allerdings immer wenige Kommentare, ausserdem lernte die Redaktion, dass es manchmal wichtig ist, sich «dazwischenzuschalten», da einige Leute halt nicht wissen, wie man potentialorientiert kommentiert.) Als Redaktionssystem wurde OJS genutzt – das wird kurz weiter unten relevant werden.

Die Redaktion beendete die Zeitschrift mit einem ganz kurzen Hinweis auf der Homepage. Es gab keine abschliessenden Text. Soweit ich das sehe, hat auch niemand sonst einen Nachruf oder Ähnliches veröffentlicht, abgesehen von einigen Social Media Kommentaren, die Bedauern über das Ende ausdrückten. Auch dieser Text hier wird nicht darüber reflektieren, warum die Zeitschrift eingestellt wurde und was dies (vielleicht) über das Bibliothekswesen im DACH-Raum sagt. Ich denke, dass müsste jemand machen, die*der die ganze Zeit in der Redaktion gewesen ist. (Was möglich wäre: Die «Laufzeit» von acht Jahren, scheint mir, wäre eine gute Voraussetzung für so eine Reflexion. Lang genug, als das es Veränderungen gab, aber kurz genug, um diese Zeit vollständig zu Überblicken.)

Aber die Informationspraxis stellt auch eine Chance dar: Es gibt mit ihr eine «abgeschlossene» Sammlung an Texten aus dem Bibliothekswesen, relativ aktuell, ausgewählt und bearbeitet von einer fachspezifischen Redaktion. Es sind ausreichend viele Texte, um aus ihnen einige Statistiken abzuleiten und etwas Textmining zu betreiben. (Es sind nicht wirklich genug für komplexere Textmining-Modelle. Das wird weiter unten noch thematisiert werden.) Und das soll hier, anstatt eines Nachrufs, geliefert werden: Die Informationspraxis wird als Datensatz behandelt und einige statische Daten über sie dargestellt. (Die Nutzungs-/Abrufstatistiken sind nicht darunter – die liegen wohl im OJS selber und müssten von der ehemaligen Redaktion veröffentlicht werden. In der «Geschichte» der Zeitschrift ist das auch passiert (https://informationspraxis.de/2019/01/07/der-informationspraxis-lesebericht-2018/), aber nicht bei ihrem Ende.)

Aufgebaut ist der Beitrag wie folgt: im nächsten Abschnitt (1) wird kurz die «technische» Seite beschrieben – also, wie die Daten für diesen Beitrag hier gesammelt, aufbereitet und verarbeitet wurden. Wer das nicht unbedingt wissen will, kann den getrost überspringen. Anschliessend (2) werden einige Statistiken über die Zeitschrift selber dargestellt. Hier geht es dann vor allem um die Anzahl der Ausgaben oder die Zahl der Autor*innen. Dann geht es ans Textmining, also an die Frage, was sich auf statistische Weise aus den eigentlichen Beiträge herauslesen lässt. Unterteilt ist dies nochmal in einfache Statistiken (3) wie die Auszählung der Worte, die verwendet wurden und komplexere Statistiken (4), die etwas tiefer in die Materien gehen. Wie wohl zu erwarten wird dann in einem abschliessenden Abschnitt (5) versucht, einige Schlüsse zu ziehen und mögliche weitere Fragen aufzuzeigen. In einem kurzen Nachwort (6) gehe ich dann doch noch mal auf meine abschliessende Bewertung der Informationspraxis ein – wie im Abschnitt 2 sichtbar wird, war ich erstaunlicherweise einer der «Top-Autor*innen», was mich doch zu einem Kommentar drängt.

Alle Daten hier im Beitrag können heruntergeladen werden und stehen unter einer CC BY NC 4.0-Lizenz.

1. R, Datascrapping und spezialisierte Libraries – zur «technischen» Seite

Alle Daten und Statistiken, die weiter unten dargestellt werden, sind mit der Statistiksprache R produziert worden. (Verwendet wurde Version 4.2.2 in R-Studio Version 2023.09.01.) Die verwendeten Libraries waren auf die jeweils neueste Version geupdatet. Das ganze Projekt war auch ein Experiment dazu, was heute mit diesen recht einfachen Mitteln möglich ist. Das ganze nahm vielleicht drei Arbeitstage (verteilt über eine Woche in den Stunden «nebenher») in Anspruch. Deshalb war / ist auch vieles handgestrickt und nicht perfekt, sondern experimentell. Kolleg*innen in den Digital Humanities, die sich ständig mit Textmining und Ähnlichem beschäftigen, werden selbstverständlich viel schneller zu den gleichen Ergebnissen gelangen und dann auch zu viel differenzierten, besseren. Es sollte als Experiment verstanden werden, aber eines, dass sich auch von anderen Personen recht einfach reproduzieren lässt. (Ein Experiment, dass auch davon motiviert ist, dass ein Kollege aus der ehemaligen Redaktion der Informationspraxis oft davon gesprochen hat, wenn wir das paraphrasieren, «einmal was mit Data- und Textmining machen zu wollen». Da erschien es nur passend, dass an der Zeitschrift selber durchzuführen, nachdem sie eine «abgeschlossene Sammlung» wurde.)

Ermöglicht wurde dies durch zwei Fakten:

  1. Die Informationspraxis erschien, wie gesagt, kontinuierlich im Open Access (mit CC BY 4.0) und auf einem OJS. Das heisst, erstens sind die Daten strukturiert (weil sie aus dem OJS strukturiert ausgegeben werden, zumindest wenn dort nicht viel verändert wird – was die Informationspraxis nicht tat) und zweitens sind die Rechte geklärt: Die Texte dürfen für ein Text,ining verwendet werden.
  2. Datamining, auch auf der Basis von Artikeln und Zeitschriften, die auf einem OJS veröffentlicht wurden, stellen in gewisser Weise Standardaufgaben dar. Es gibt für sie schon etablierte Libraries (nicht nur, aber auch für R), die dafür einfach verwendet werden konnten. In unserem Fall waren dies ojsr (https://www.rdocumentation.org/packages/ojsr/versions/0.1.2) für das Einlesen der Metadaten von der Homepage, rvest (https://www.rdocumentation.org/packages/rvest/versions/1.0.3) für das Textscrapping der Volltexte und quanteda (https://quanteda.io), inklusive der «Unterpackages» für textstats, textplots und textmodels, für das Textmining.

Vorgegangen wurde nun, in gewisser Weise auch schon standardisiert, wie folgt:

  1. Zuerst wurden mithilfe von ojsr die gesamten Metadaten der Informationspraxis eingelesen. Das ist genau die Aufgabe, für welche dieses Paket geschrieben wurde. (Es funktioniert auch mit allen anderen Zeitschriften, die auf OJS gehostet werden, solange sie die grundlegende Metadatenstruktur beibehalten.) Insoweit war es direkt aus dem in der Beschreibung des Pakets gegebenen Beispiel umsetzbar.
  2. Ebenso direkt und einfach umsetzbar war das Scrapping der eigentliche Volltexte. Hierzu wurden die URLs, die in den Daten aus dem ersten Schritt enthalten waren, genutzt, um dann mit dem Paket rvest die gesamten HTML-Inhalte aller Artikel der Informationspraxis herunterzuladen und dann so umzuformatieren, dass sie weiterverarbeitet werden konnten.
  3. Anschliessend wurden die Daten zusammengeführt und, beispielsweise, die jedem Artikel beigegebene Unterzeile «Informationspraxis mitgestalten?Hier steht, wie’s geht!» gelöscht. Am Ende stand ein Datensatz, in welchem für jeden Artikel in einer Zeile Metadaten, eine eindeutige Kennung und – jeweils in einer Zelle – der gesamte Text stand. [Die eindeutige Kennung besteht aus einer durchlaufen Zahl und dem Beginn der bibliographischen Angaben. Die gesamten bibliographischen Angaben waren in den Graphiken nicht zu lesen. Am Ende dieses Artikels findet sich aber eine Tabelle, welche diese Kennung und die bibliographischen Angaben darstellt, sodass auch auf einzelne Artikel zurückgeschlossen werden kann.] Dieses Format – genauer: eine Tabelle mit Volltext und Identifier – war notwendig für die Weiterverarbeitung mit dem Paket quanteda.
  4. In einem ersten Schritt der Analyse wurde mit den reinen Metadaten gearbeitet. Es wurde in jeweils kleineren Datensätzen zusammengefasst, welche Autor*innen die Artikel der Informationspraxis hatten, wie viele Ausgaben es gab etc. Auch hiermit liess sich schon ein interessanter Überblick erarbeiten, welcher weiter unten in Abschnitt 2 dargestellt ist.
  5. Anschliessend wurde das Textmining durchgeführt. Für dieses gibt es eine ganze Anzahl von Paket in R. Gewählt wurde, weil ich schon von einigen früheren Versuchen ein wenig mit ihm vertraut war und weil es in der Literatur zum Textmining immer wieder erwähnt wird, das Paket quanteda. Dieses bietet Funktionen, um sehr einfach Textmining durchzuführen – doch wie immer bei solchen Paketen übernimmt es die Arbeit, nicht aber die konkrete Interpretation der Daten. Zuerst wurden die Daten in einen Corpus umgewandelt, mit dem dann weitergearbeitet werden konnte. Das ist der Teil, für den die Datenstruktur Identifier und Volltext notwendig war. (Diese werden in eine Struktur umgearbeitet, in denen der Text in einen Container liegt, der Identifier auf ihn verweist und dann die anderen Metadaten, die vielleicht auch in den Tabelle liegen – beispielsweise in unserem Fall die Erscheinungsjahre der Artikel – als Kategorien angelegt sind.) Und dann wurden die verschiedenen Möglichkeiten des Textminings, die quanteda bietet «durchgespielt». Nicht alle ergaben sinnvoll interpretierbare Daten und selbstverständlich kann man immer weiter hinter die Möglichkeiten, die das Paket bietet, steigen. Was hier in Abschnitt 3 präsentiert wird, sind die Ergebnisse, die im Laufe dieses Experiments erstellt wurde und präsentabel erschienen. (Aber der Quellcode ist auch am Ende des Beitrags als Datei eingefügt, so dass alle ihn nachvollziehen, selber «laufen lassen» und gerne auch erweitern / verändern dürfen.)
  6. Für die Darstellung der Daten und Plots hier wird in vielen Fällen das WordPress-Plugin wpDataTables (https://wpdatatables.com) verwendet. Die anderen Plots wurden direkt in R erstellt.

2. «Einfache» Statistiken

Im Laufe ihres Bestehens publizierte die Informationspraxis 83 Artikel – Editorials eingeschlossen – in vierzehn Ausgaben. (Dabei wurden Ausgaben ab einem bestimmten Zeitpunkt «laufend» publiziert, also alle Beiträge wurden publiziert, wenn sie fertig waren, aber alle halben Jahre wurden die Ausgaben «abgeschlossen».) Die Verteilung der Beiträge über die Jahre ergibt sich aus der folgenden Graphik.

Dabei zeigt sich, dass die Zahl der Beiträge über die Ausgaben ungleich verteilt war. Erstaunlich ist vielleicht, dass es keine Trend dahin gibt, dass in den späteren Ausgaben weniger Texte veröffentlicht wurden, als in den früheren. Die kürzeste Ausgabe (2/2019) mit einem Text erschien fast in der Mitte der «Laufzeit» der Zeitschrift.

Insgesamt wurden diese Beiträge von 176 Autor*innen verantwortet, oft in Teams. Allerdings publizierten die meisten nur einmal. Es gab ein gewisses «Kernteam»: Stellt man nur diejenigen Autor*innen da, die mindestens dreimal publizierten, zeigt sich dies direkt. Dabei muss man beachten, dass drei der «Hauptautor*innen» unter diesen acht direkt der Redaktion angehörten, also auch redaktionelle Beiträge verantworten. (Etwas überraschend (für mich) war ich der Autor mit den meisten Publikationen, der nicht aus dem Kreis der Redaktion stammt. Das war nicht so geplant.)

Generated by wpDataTables

Ohne Vergleich mit anderen Zeitschriften ist nicht klar, wie man diese Werte interpretieren soll. Aber es scheint, als wenn es nicht einfach war, Autor*innen zu mehr als einem Beitrag zu bewegen.

Die Beiträge wurden in der Informationspraxis in fünf verschiedenen Rubriken veröffentlicht: Fachbeiträge, Kurzberichte, Berichte / Kritik, Editorial und Preprints. Diese Kategorien sind in dem Metadaten hinterlegt und lassen sich deshalb auch darstellen.

Sichtbar wird hier, dass die Fachbeiträge fast 50% darstellten, die Informationspraxis also als Fachzeitschrift gelten kann. Gleichzeitig fällt auf, dass die Zeitschrift oft darauf verzichtete, ein eigenständiges Editorial zu publizieren. Im Gegensatz zu anderen Zeitschriften, die dies in jeder Ausgabe tun, passierte dies nur manchmal.

Alle Beiträge wurden mit Keywords ausgezeichnet, insgesamt 104. Allerdings helfen diese Keywords nicht dabei, Trends bei den Themen, über die publiziert wurde, zu identifizieren. Gerade einmal vier von ihnen wurden mehr als einmal benutzt.

Generated by wpDataTables

Wir müssen uns also, um mehr über die Inhalte zu erfahren (ohne gleich alle Beiträge zu lesen), dem Textmining – also praktisch der statistischen Auswertung der Wortverteilung – zuwenden.

3. Textmining – einfach

Für Textmining wird immer Text – in unserem Fall alle in der Zeitschrift erschienen Beiträge – als Datenbasis für statistische Auswertungen verwendet. Dafür ist es notwendig, sie in ein Format zu bringen, dass nur aus Text besteht. Dies funktioniert mittels des im Abschnitt (2) beschriebenen Weges aber schnell, fast schon erschreckende schnell: Die Informationspraxis war eine Zeitschrift, an der über acht Jahre lang von vielen Menschen gearbeitet wurde – aber in etwas weniger als 70 Sekunden sind alle diese Metadaten und Artikel heruntergeladen, umgewandelt und für die weitergehende Analyse aufbereitet.

Was damit möglich ist, ist aber erst einmal eine einfache Auswertung der Worte und Wortverbindungen, die in den Artikeln vorkommen. Die Idee dahinter ist, dass aus diesem Vorkommen unterschwellige Themen gelesen werden können – also beispielsweise inhaltliche Gemeinsamkeiten zwischen den Beiträgen, die einzelnen Autor*innen gar nicht auffallen. (Es hilft, dass alle Artikel hier in der gleichen Sprache – dem Deutschen, wenn auch mit leichten Varianten – publiziert wurden. Das macht es möglich, einfach die gleiche Statistik für alle Dokumente zu erstellen und diese zusammenzufassen.)

Zuerst können wir uns eine Liste anschauen, welche die Dokumente (also unsere Beiträge) und ihre statistischen Eigenschaften zusammen darstellt. In der ersten Spalte findet sich die ID der Artikel, in der zweiten die Anzahl der Zeichen, in der dritten die Zahl der Sätze (gezählt nach den Satzendzeichen), in der vierten die der Tokens (zusammenhängende Buchstabenfolgen, also oft Worte, aber auch Emoticons oder so.) und in den folgenden Spalten die jeweilige Zahl weiterer Zeichenketten.

Generated by wpDataTables

Wir sehen hier beispielsweise, dass es sehr unterschiedliche lange Beiträge gab; etwas, dass in Zeitschriften mit klaren Vorgaben für Artikel – im Bibliothekswesen vor allem die auch gedruckt erscheinenden praxisorientierten Zeitschriften – nicht vorkommen würde. Gleichzeitig zeigt sich, dass die Autor*innen auf #Tags und Emoticons verzichteten sowie andere Zeichen, als Text, nur sparsam einsetzten.

Die unterschiedliche Länge der Texte lässt sich auch (eingermassen) aus der folgenden Darstellung dieser Daten ablesen.

In einer weiteren Tabelle lässt sich ablesen, welche Worte am meisten verwendet wurden. Bei solchen Analysen finden sich – obgleich «Stoppwörter» standardmässig, also auch hier, aus diesen Statistiken entfernt werden – immer viele «Allgemeinworte». Relevant ist, die betreffenden, einen Korpus kennzeichnenden Worte herauszufiltern. Allgemeinworte in dieser Liste sind beispielsweise «dass», «wurde», «wurden». (In einem weiteren Schritt kann man diese Worte trunkieren – also auf ihren Wortstamm zurückführen, hier «wurde» und «wurden» auf «wurd». Aber das bedarf dann, die Ergebnisse noch mehr zu überprüfen, um herauszufinden, was richtig trunkiert wurden und was nicht. Etwas, das in diesem Experiment nicht getan wurde.)

Für uns interessant sind Wort wie «bibliotheken» (1244-mal), «open» (1172-mal), «bibliothek» (756-mal), «access» (614-mal), «daten» (404-mal), «library» (360-mal), «data» (344-mal), «information» (331-mal), «online» (317-mal), «informationen» (264-mal), «menschen» (263-mal) oder «zugriff» (261-mal). Die Informationspraxis stammte aus dem Bibliothekswesen und dies war offenbar in den Artikeln, die bei ihr erschienen, auch prägend. Es wurde über Bibliotheken oder über Themen, die das Bibliothekswesen interessieren (Open Access, Information, Online, Menschen), geschrieben. (Erstaunlich ist, dass «archiv» nur 50-mal, «archive» 29-mal genannt wurde, allerdings auch noch eine Anzahl an Zusammensetzungen mit «Archiv».)

Wir können uns aus dieser Liste wieder Unterlisten ausgeben lassen und zum Beispiel schauen, ob, zum Beispiel, «Bibliothek» und «Information» rein als Begriff genutzt wurden oder in Zusammensetzungen.

Das scheint vielleicht etwas nach Spielerei (wir lernen halt, dass es zwar Zusammensetzungen gab, daneben die Begriffe allerdings grösstenteils «rein» verwendet wurden), aber sichtbar ist im zweiten Plot auch, dass der Zeitschriftenname selber recht oft verwendet wurde. (168-mal, wie die unterliegende Datentabelle zeigt.)

Für eine weitere Tabelle können wir uns den «collocations» (Kollokationen – was keine hilfreiche Übersetzung ist; es sind jeweils zwei zusammen stehende Worte), die gewisse allgemein verwendete Begrifflichkeiten anzeigen. Hier zeigt sich unter anderem, dass «Open Access» tatsächlich recht offen in den Beiträgen der Informationspraxis vorkam (566-mal).

4. Text Mining – (etwas) komplexer

Das quanteda Paket ermöglicht viele weitere Analysen. Das, was wir bislang gezeigt haben, ist eher nur ein Anfang. (Allerdings: Damit es sinnvoll ist, ist für viele Funktionen – ganz abgesehen davon, dass sie eine weitere Lernkurve bedeuten würden, für die bei diesem «Experiment» keine Zeit zur Verfügung stand – ein grösserer Datensatz notwendig.) Wir können aber zumindest zwei dieser Analysen durchführen.

Zuerst Keyword in Context (KWIC)-Tabellen. (Das erinnert Bibliothekar*innen vielleicht an ihren Katalogisierungsunterricht, wenn sie den noch hatten. Aber es ist etwas anderes.) In diesen Tabellen werden die jeweils gewählten Worte im Zusammenhang dargestellt. Die Länge des Zusammenhangs lässt sich selbstverständlich anpassen, aber hier haben wir die Standardeinstellung verwendet, die da heisst: je fünf Token vor und nach dem gesuchten Wort. In der erste Tabelle hier wird dies für «bibliothek» gezeigt. In dieser findet sich für jedes Vorkommen jeweils der Kontext, welcher das Wort umrahmt, zudem der Verweis auf den eigentlichen Text und eine Zeichenangabe, wo genau sich dieser Kontext vorkommt. Die Idee hinter diesen Tabelle ist es, jetzt einen Überblick darüber zu haben, was regelmässig im Zusammenhang mit dem gewählten Wort geschrieben wird. (In vielen Einleitungen zum Textmining wird dies anhand von politischen Reden vorgeführt, da ist dann sichtbar, was im Zusammenhang mit «umstrittenen» Begriffen gesagt wurde.)

Generated by wpDataTables

(Wir sehen in der Tabelle, wie auch anderswo, dass quanteda noch nicht mit dem «*innen» umgehen kann – ausser ich habe die «Einstellung» übersehen beziehungsweise hätte das mit einem eigenen «Lexikon» machen können, was wieder etwas länger gedauert hätte –, aber das wird nur eine Frage der Zeit sein.)

Die gleichen Tabellen lassen sich selbstverständlich auch für andere Begriffe erstellen. Hier zum Beispiel die zu «information», zu «open» – beides Worte, von denen wir jetzt wissen, dass sie im Korpus oft vorkamen – sowie zu «praxis», weil dies in einer Zeitschrift mit dem Namen Informationspraxis zu erwarten wäre.

Generated by wpDataTables
Generated by wpDataTables
Generated by wpDataTables

Weiterhin lassen sich die Ergebnisse in Plots darstellen. Ich überspringe hier die Wordclouds, weil ich sie für wirklich schlimme Visualisierungen halte. Die gleichen Ergebnisse, die wir in einer Wordcloud sehen würden – nämlich, welche Worte im Korpus vorkommen und wie oft – sind schon weiter oben in einer Tabelle dargestellt und dort viel besser nachzuvollziehen. (Aber wer selber welche erstellen möchte, kann dies mit dem Code im Anhang. Ich habe die betreffende Zeile drin gelassen.)

Sinnvoller scheinen mir «xray»-Plots. In diesen wird, wieder für ausgewählte Tokens, dargestellt, in welchen Dokumenten im Korpus sie verwendet werden und an welcher Position. Damit kann man zum Beispiel sehen, ob bestimmte Begriffe immer am Anfang oder Ende von Texten stehen – in den Einführungen ins Textmining wird auch das gerne anhand von politischen Rede gezeigt, wo sich je nach politischer Richtung der Politiker*innen oft eine verschiedene Verteilung zeigt. Die Rechten erwähnen «Immigration» oft und früh in den Reden, die Linken dagegen «Solidarität» – es ist oft erstaunlich stereotyp.

Aber wie sieht es bei der Informationspraxis aus? Hier drei dieser Plots, wieder für die drei Tokens «bibliothek», «information» und «open».

Was zeigen uns diese Darstellungen? Mir scheint vor allem, dass sich keine eindeutigen Trends beobachten lassen. Es ist nicht so, dass die Begriffe in einem überwiegenden Teil der Texte an bestimmten Stellen vorkommen oder das sich Gruppen von ähnlichen Texten zeigen. Eventuell bräuchte es dazu Texte, die sich besser miteinander vergleichen lassen oder auch viel mehr Texte, die untersucht werden.

Ausserdem: Am folgenden Beispiel wird vielleicht auch klar, dass durch die «geringe» Zahl an Texten in unserem Experiment ein falscher Eindruck entstehen kann. Hier wird die Verteilung des Begriffes «Daten» gezeigt. Man hätte den Eindruck haben können, dass der Begriff recht oft in den Beiträgen in der Informationspraxis vorkommt, was man dahingehend interpretieren könnte, dass sich das Bibliothekswesen auch oft mit «Daten» – wir würden vielleicht an die Forschungsdaten denken – beschäftigt.

Die graphische Darstellung zeigt aber, dass es ein Text sehr oft «Daten» erwähnt und damit sehr zur «Gesamtzahl» für dieses Wort beigetragen – ein Text, den ich geschrieben habe. Insoweit weiss ich, was in ihm steht und kann sagen, dass es sich dabei immer um Daten aus den Bibliotheksstatistiken des DACH-Raums handelte, nicht um Forschungsdaten. Solche «Ausreisser» kommen wohl in allen Korpussen vor – aber je kleiner der Korpus ist, umso mehr verzerren sie die Ergebnisse.

5. Einige schliessende Anmerkungen

Was sagen uns diese Daten nun? War das Experiment erfolgreich? Mir scheint, es zeigt erstmal, was auch im Bereich Textmining in bibliothekarischen Fachzeitschriften mit einfachen Mittel möglich wäre. Wie gesagt, wurde hier nur etwas Zeit aufgewendet – es wäre also noch viel mehr möglich. Einerseits liesse sich der Korpus noch mehr «reinigen», beispielsweise mit eigenen «Lexika» von Stoppwörtern und definierten Token. Andererseits wären tiefergehende Analysen möglich. So lassen sich mit quanteda auch relativ einfach Untergruppen von Dokumenten bilden und sich dann nach Unterschieden zwischen ihnen fragen. (Ich habe das versucht für die Beiträge, die jeweils in einem Jahr erschienen sind, aber die waren dann jeweils recht wenige, insoweit war das nicht sehr aussagekräftig.) Gleichzeitig lassen sich Textmodelle erstellen, beispielsweise eine «Latent Semantic Analysis», bei der versucht wird, anhand statistisch erfassbarer Merkmale die Dokumente zu gruppieren und herauszuholen, mit welchen Begriffen / Token die jeweiligen Gruppen gekennzeichnet sind. (Wieder wird da in den Einführungen zum Textmining oft anhand von politischen Reden vorgeführt, wo sich dann oft zeigt, dass die politischen Richtungen sich in den statistisch gebildeten Gruppen zeigen, dass sich also der Inhalt auch auf die Struktur der Texte durchschlägt.)

Dies liesse sich mit mehr Zeit und einem grösseren Datensatz erreichen. Das wären auch zwei mögliche Richtungen, in die dieser Versuch hier weitergeführt werden könnte. Eine ganze Anzahl von Zeitschriften aus dem Bibliothekswesen werden auf OJS gehostet (ich denke nur an die Perspektive Bibliothek, die jetzt auch eingestellt ist, oder die o-bib, die noch immer munter weiter erscheint). Diese lassen sich schnell zum Korpus hinzufügen (es bedarf tatsächlich nur des «Eintragen» ihrer Haupt-URLs in eine Funktion, die schon im Code steht. Aber es ist keine Voraussetzung: Auch von anderen Zeitschriften lassen sich Metadaten und Inhalte erheben – vielleicht automatisiert (vor allem, wenn sie eh elektronisch auf einer Plattform erscheinen, die wohl strukturierte Metadaten liefert, wie die libreas mit pandoc und Octopress oder die 0.277 auf pubpub) oder halt per Hand. Man müsste sich auch nicht auf Zeitschriften aus dem Bibliothekswesen beschränken. Es wäre auch interessant, in so einem Korpus Beiträge aus verschiedenen Bereichen zu vergleichen. Ich denke nur an einen möglichen Korpus mit Zeitschriften aus dem Archiv-, Museums-, Kultur- und Bibliotheksbereich. Hier wäre dann schon die Frage interessant, ob, wie oft und wie die jeweils «anderen» Einrichtungen erwähnt werden.

Aber damit sind wir schon bei der Haupterkenntnis dieses Experiments. Während es zeigte, was technisch / softwareseitig einfach möglich ist, fehlte eine klare Fragestellung. Es ist einfach, die Daten, die hier berichtete wurden, zu erstellen. Aber wenn nicht klar ist, was die Daten zeigen / widerlegen / untersuchen sollen, bleiben es «interessante» Daten und Darstellungen. Einige Dinge konnte man einfach aus ihnen ziehen. Aber es wäre sinnvoller, wenn es etwas zum Vergleichen oder Untersuchen gegeben hätte. So wissen wir zum Beispiel nur, wie sich die Themen in der Informationspraxis verteilt haben. Aber wir wissen nicht, ob die Zeitschrift damit herausstach aus den anderen bibliothekarischen Publikationen. War sie anders als andere – und wenn ja, wie? Das liesse sich mit Textmining zumindest zum Teil untersuchen, wenn man mehr Daten versammelt hätte.

So bleibt es ein Einblick in die Zeitschrift; aber immer mit dem Gefühl, dass mehr möglich wäre.

6. Nachwort

Das kleine Experiment hier habe ich auch unternommen, weil ich die Informationspraxis in gewisser Weise die ganze Zeit über «miterlebt» habe. Nie war ich Teil der Redaktion – «aber man kennt sich» (in der «Bibliotheksszene», aber auch bei uns, in der Schweiz), besonders, weil einer der Redakteur*innen und ich eine lange Zeit im gleichen Büro zusammengearbeitet haben. Gleichzeitig habe ich in dieser Zeitschrift ja auch selber publiziert – viel mehr sogar, als mir selber bewusst war. Ich fand es einigermassen unbefriedigend, wie die Zeitschrift einfach sang- und klanglos eingestellt wurde. Nicht, weil ich denke, die ehemalige Redaktion würden uns (der Welt, der Bibliotheksszene) eine Entschuldigung oder Reflexion oder so schulden. Aber… ich hätte mir gewünscht, dass man mehr erfahren würde, wieso es so gekommen ist.

Ich erinnere mich noch, wie die Zeitschrift in der Hoffnung gegründet wurde, eine anderen, neuen, innovativen Publikationsort zu schaffen. Beim ersten Treffen war es offenbar eine grosse Gruppe. Und jetzt? Was ist aus dieser Community geworden?

Was in den Daten hier sichtbar wurde, war, dass Kolleg*innen im Bibliotheksbereich zwar schon publizieren, aber selten. Eher einmal, zweimal, als mehrfach. Das führt aber dazu, dass nur eine kleine Zahl an Autor*innen «den Diskurs» prägen und gleichzeitig vieles, was interessant wäre, nicht gesagt wird. Dabei – darauf deuteten die Daten auch hin – gibt es vieles Unterschiedliche zu sagen. Kurzum: Auch die Analyse hier zeigte, meiner Meinung nach, dass im Bibliothekswesen eine bessere Publikationskultur entstehen muss; eine, die mehr Kolleg*innen dazu bringt, mehr zu veröffentlichen, mehr am Diskurs teilzunehmen. Die Informationspraxis war einst dazu angetreten, dafür einen Ort zu bieten. Das geht jetzt nicht mehr – doch es ist mit einigem, aber auch nicht unendlich viel Aufwand möglich, dies immer wieder neu zu versuchen. Das hat die Informationspraxis auch gezeigt.

Anhang

Generated by wpDataTables

3 thoughts on “Statistisches zur Zeitschrift Informationspraxis (statt eines Nachrufs)

  1. Hi Karsten,

    danke für den sehr ausführlichen Beitrag zu Informationspraxis. Ich habe die Statistiken nur kurz überflogen und werde noch einen genaueren Blick darauf werfen.

    @Stefan Schmeja: Die Redaktion hatte damals entschieden, da kein Papier geschwärzt wird, sind die angegebenen Artikellängen nur Richtwerte.

    Auf Bibliotheksbubble hatte ich nur kurz etwas zum Abschied von Informationspraxis geschrieben: https://bibliotheksbubble.de/2023/07/17/ein-community-projekt-endet/ – Es sollte noch einen abschließenden Beitrag geben, aber auch ich habe diesbezüglich nichts mehr gehört.

  2. Moin Karsten! Vielen Dank für Deine spannende Analyse. Ich habe alles bisher nur überflogen, werde es mir aber nochmal genauer anschauen.

    Zu folgendem Punkt:
    “Ich fand es einigermassen unbefriedigend, wie die Zeitschrift einfach sang- und klanglos eingestellt wurde.”

    Ja, wir auch. Und geplant ist auch, sowohl noch einen letzten Artikel aus unserer Pipeline zu veröffentlichen, als auch einen finalen Artikel mit einer Rückschau zu veröffentlichen. Dass es so lange dauert und auch die Kommunikation nicht optimal ist, lässt schon Schlüsse darauf zu, warum wir nicht weitermachen konnten. Wir haben es mit einem kleinen Kernteam einfach nicht mehr geschafft.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert