abstract
- In der heutigen Zeit entsteht in vielen Bereichen des täglichen Lebens, wie bspw. im Onlinehandel und bei Multimediadiensten, eine große Menge an Daten. Diese Daten werden in Datenbanken gespeichert. Jeder Betreiber einer Datenbank hat sein eigenes Datenbankschema, welches genau auf seine Anforderungen zugeschnitten ist. Bei Datenmengen von mehreren Gigabytes bis hin zu Petabytes werden aufgrund der schwierigen Handhabung in der Regel nur Informationen gespeichert, die für den Anwendungsfall von Interesse sind. Ein Teil des Alltagsgeschäfts ist das Zusammenlegen von Projekten und die Fusionierung von Unternehmen. In diesen Fällen müssen die Daten beider Beteiligten ebenfalls vereinigt werden. Da z.B. Multimediadienste einüberschneidendes Angebot an Musik und Filmen haben, werden ähnliche Daten gespeichert. Damit im Datenbestand keine Duplikate entstehen, muss beim Zusammenlegen der Datenbanken eine Identifikation der Einträge vorgenommen werden, die das gleiche Objekt in der Realwelt beschreiben. Dieser Prozess wird Matching genannt.So wie es mehrere Ansatze für den Matching-Prozess gibt, können in einer Datenbank die Daten in verschiedenen Datentypen, wie bspw. Geodaten, Zeichenketten und Zahlen, gespeichert sein. Das SimMatching-Verfahren z.B. wurde für das Matching von Geodaten entwickelt und weicht u.a. durch einen iterativen Ansatz vom klassischen Grundkonzept ab. In dieser Arbeit wird anhand zweier Musikdatenbanken untersucht, ob sich das SimMatching-Verfahren auch für das Matching von String-basierten Daten eignet. Dazu werden im ersten Teil der Arbeit die Grundlagen erläutert und eine Analyse der beiden Datenbanken vorgenommen, um basierend auf den Analyseergebnissen ein Konzept für das Matching nach dem SimMatching-Verfahren zu entwerfen. Im zweiten Teil der Arbeit wird dann die Implementierung des erarbeiteten Konzepts vorgestellt und die Eignung des Verfahrens für den Anwendungsfall von String-basierten Daten bewertet.