Intern
    Lehrstuhl für Informatik VI - Künstliche Intelligenz und Angewandte Informatik

    Datenimport

    Das PaDaWaN-Framework besitzt verschiedene Tools und Schnittstellen um alle für den Datenimport notwendigen Prozesse durchführen zu können:

    -          Mit einem generischen Importer können die gängigsten Datenformate (CSV, XML, Text) importiert werden, indem in einer dafür vorgesehenen Importer-Sprache eine Import-Konfiguration definiert wird, die den Importer regelt.

    -          Mit speziellen Java-Importer-Klassen können für komplexe Datendomänen Importer geschrieben werden, um jeden gewünschten Datenbestand auf das PaDaWaN-Datenmodell abbilden zu können. Die abstrakten Importer-Klassen bieten dabei unterstützenden Zugriff auf die jeweiligen Tabellen des Datenbankschemas.

    -          Daten können mit direkten SQL-Statements direkt in die jeweiligen Tabellen geschrieben werden

    -          Um die Quelldaten für die Verwendung in einem DataWarehouse entsprechend anonymisieren zu können gibt es ein Anonymisierungs-Tool, das als Service in den ETL-Prozess eingebunden werden kann.

    Nach dem Befüllen der Datenbank wird mit einem Indexer-Tool der Datenbestand der Datenbank mit dem Solr-Index synchronisiert.

    Abbildung 1 illustriert den ETL-Prozess von den Quelldaten bis hin zur Abfrage des Systems.

    Abbildung 1: ETL-Prozessfluss zur Befüllung eines PaDaWaN-Systems

     

    Kontakt

    Lehrstuhl für Informatik VI (Künstliche Intelligenz und angewandte Informatik)
    Am Hubland
    97074 Würzburg

    Tel.: +49 931 31-86731
    E-Mail

    Suche Ansprechpartner

    Hubland Süd, Geb. M2