Bemerkungen

Link zum Skript Auf heute war die Installation von VuFind als Aufgabe gestellt. Die Installation ist langwierig und komplex. Dank der detaillierten Anleitung war das aber ohne grössere Probleme möglich.

Fehler bei DC zu MARC21XML

Bei der Umwandlung der Daten aus DSpace vom DC-Format in MARC21XML mit MarcEdit gab es einen Fehler. Die Ursache war anscheinend die Unvollständigkeit der Datensätze, da wir diese manuell aus der OAI-Schnittstelle kopiert haben. Die Browser-Anzeige der OAI-Schnitstelle zeigt nur einen Auszug an, die Namensraumdeklaration wird dabei ausgelassen.

Metadatentransformation

Als Alternative zur Datentransformation neben Open Refine kann auch Catmandu, Metafacture oder auch das bereits bekannte MarcEdit verwendet werden. Es ist jedoch auch möglich direkt mit Python die Datenmanipulation vorzunehmen. Für MARC21 existiert sogar eine eigene Python-Lybrary.

JSON-APIs

Als Austauschformat ist XML mittlerweile verwaltet. Heute ist JSON als Austauschformat aktuell. json

Ein Beispieldatensatz eines GND-Satzes von Goethe im JSON-Format. Abgerufen über lobid. Auf den ersten Blick ist ersichtlich, dass die Strukturierung der Daten nicht wie in XML mit geschweiften KLammern funktioniert. Mit JSON habe ich bislang keine Erfahrung und diese Unkenntniss war auch der Grund weshalb ich an einem privaten Python-NLP Projekt gescheitert bin, da ich nicht mit dem JSON-Format als Datengrundlage zurecht kam.

Suchmaschinen und Discovery-Systeme

Vufind ist ein Suchmaschine, die weltweite Anwendung findet. Ein Beispiel für einen Bibliothekskatalog, der vufind benutzt ist die Bibliothek der Technischen Universität Hamburg. Solr ist eine Anwendung für einen Suchindex und gilt zusammen mit Elasticsearch als Industriestandard. Auch Ex Libris Primo basiert auf Solr. VuFind stützt sich ebenfalls auf Solr.

solr

Besonders hilfreich für das Verständnis von Solr, bzw. Suchindizes ist obige Tabelle, die einen Vergleich von Solr und MySQL darstellen. Ein wichtiger Unterschied ist, dass Datenbanken nur die Suchwerte ausgeben, wohingegen Suchindizes eine lexikalische Suche durchführen und auch ähnliche oder verwandte Treffer anzeigen können. Ausserdem können mit einem Suchindex daten nicht verändert werden, die Daten in einer Datenbank sind jedoch veränderbar. Als kleine Übung führen wir einen Vergleich von Solr und Vufind anhand einer Suche aus. Die Resultate sind die gleichen, wobei Vufind eine grafische Aufarbeitung vornimmt. Dass die gleichen Treffer ausgegeben werden überrascht nicht, basiert doch Vufind auf Solr.

Als letzten Schritt unseres Modulplans, der im Tagebucheintrag des ersten Tages abgebildet ist, vereinen wir die Metadaten aus den Archiv- und Bibliothekssystemen in Vufind um diese in einem gemeinsamen Index zu durchsuchen. Jede Datenquelle wird dazu einzeln importiert und muss vor dem Import einer Collection zugewiesen werden. Nach der gelungenen Durchführung des Imports können jetzt alle unsere generierten und konvertierten Datensätze gemeinsam durchsucht werden. Damit haben wir das zu Beginn des Moduls aufgestellte Ziel endlich erreicht.