Deutsch Intern
    Chair of Computer Science VI - Artificial Intelligence and Applied Computer Science

    Grundlagen des Data Minings: Clustering

    Seminar

    (0808565)

    Beim Clustern wird eine Menge von Objekten in Gruppen aufgeteilt, so dass zwischen den Objekten in den einzelnen Gruppen eine möglichst große Ähnlichkeit besteht, die Gruppen selbst aber möglichst unterschiedlich sind. Clustering ist eine wichtige Technik im Data Mining, da es erlaubt, versteckte Muster in Daten zu finden, die meist intuitiv verständlich sind. Mit der Menge an elektronisch vorhandenen Daten und der Vielfalt der konkreten Anwendungen (CRM, Web 2.0 Applikationen, Text Mining, Marketing etc.) hat auch das Interesse an Clusterverfahren zugenommen und es sind eine Vielzahl von verschiedenen Clustering Methoden entstanden. Diese wollen wir im Rahmen des Seminars genauer untersuchen. Ausgangspunkt ist der Artikel von Pavel Berkhin (Survey of Clustering Data Mining Techniques), der einen Überblick über die in den letzten Jahren entstandenen Verfahren gibt. Jeder Seminarteilnehmer wird eines dieser Verfahren näher vorstellen.

    Veranstalter:

    Prof. Dr. Andreas Hotho, Wi.-Inf. Beate Krause

    Vorbesprechung/Einstieg:

    • Eine Vorbesprechung zu Beginn des Semesters für Studenten, findet in der ersten Vorlesungswoche, am 23.10.2009 von 14:00 - 15:00 Uhr statt. 

      Die Vorbesprechungen finden jeweils im Raum B015 (Besprechungsraum des Lehrstuhl 6) statt.

      Leistungsnachweis:

      Drei (3!) Tage vor dem geplanten Vortrag sind per Email als PDF abzugeben:

      Vorherige Absprachen mit dem Betreuer sind ausdrücklich erlaubt. Alle verwendeten Referenzen sind zusätzlich zum Literaturverzeichnis der Ausarbeitung in www.bibsonomy.org einzugeben, mit den Tags "clustering", "seminar", "2009" und weiteren sinnvollen Tags.

      Die Vortragsdauer beträgt verbindlich 30 Minuten, nach dem Vortrag besteht Gelegenheit zur Diskussion. Wir empfehlen, den Vortrag vorher vor Zuhörern zu üben. Der Vortrag (inkl. Folien und Abstract) geht mit 40% in die Endnote ein, die Ausarbeitung ebenfalls mit 40%.

      Ablauf des Seminars 

      Gefordert ist eine wissenschaftliche Auseinandersetzung mit dem Thema, die insbesondere den Bezug auf Originalliteratur einschliesst. Diese kann ggf. durch graue Literatur ergänzt, jedoch keinesfalls ersetzt werden. Es wird zu Beginn pro Thema jeweils ein Abschnitt aus dem Artikel von Pave l Berkhin (Survey of Clustering Data Mining Techniques) ausgegeben, der durch den Seminarteilnehmer im Laufe des Semesesters durch weitergehende Literatur ergänzt wird. Die Auswahl der weiteren Literatur trifft der Seminarteilnehmer in Absprache mit dem Betreuer.

      Termine

      Die Veranstaltungstermine (Blockseminar) werden in der Vorbesprechung diskutiert. Bei den Terminen stellen die Teilnehmer ihre Ausarbeitungen vor. Es besteht Anwesenheitspflicht.

      Bearbeitungshinweise

      Als Richtlinie für die Erstellung einer guten Seminararbeit (inkl. Vortrag und Ausarbeitung) wird das Buch

      • Markus Deininger and Horst Lichter and Jochen Ludewig and Kurt Schneider. Studien-Arbeiten: ein Leitfaden zur Vorbereitung, Durchführung und Betreuung von Studien-, Diplom- Abschluss- und Doktorarbeiten am Beispiel Informatik. 5. Auflage. vdf Hochschulverlag, Zürich, 2005. 

      empfohlen, welches beim Betreuer des Seminars (Prof. Dr. Andreas Hotho) ausliegt. Wir empfehlen die Anschaffung dieses Buchs (9,50 €), da es Sie bis zur Masterarbeit (und weiter) begleiten kann. Die Benotung der Seminararbeit erfolgt in Anlehnung an das dort auf Seite 77 angegebene Schema, angepasst auf die Erfordernisse einer Seminararbeit.

      Literatur

      Zur Einarbeitung in das Thema Clustering können folgende Referenzen helfen.Für die Ausarbeitung des eigenen Themas sollte auf die Originalreferenzen zurückgegegriffen werden. Diese können mit dem Betreuer abgesprochen werden.

      • Jiawei Han, Micheline Kamber: Data Mining: Concepts and Techniques, Academic Press, Morgan Kaufmarm Publishers, 2001.
      • M. Ester und J. Sander: Knowledge Discovery in Databases: Springer-Verlag, 2000.
      • U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth and R. Uthurasamy: Advances in Knowledge Discovery and Data Mining. Cambridge , London . MIT Press, 1996.
      • Interessante Links können auch unter http://www.bibsonomy.org/tag/clustering gefunden werden.
      Contact

      Lehrstuhl für Informatik VI (Künstliche Intelligenz und angewandte Informatik)
      Am Hubland
      97074 Würzburg

      Phone: +49 931 31-86731
      Email

      Find Contact

      Hubland Süd, Geb. M2