[IMMD] - [2017/18 Winter] - [de] - [Mining Massive Datasets]


Mining Massive Datasets [2017/18 Winter]
Code
IMMD
Name
Mining Massive Datasets
LP
6 LP
Dauer
ein Semester
Angebotsturnus
mind. jedes 4. Semester
Format
Vorlesung 2 SWS, Übung 2 SWS
Arbeitsaufwand
180 h; davon
60 h Präsenzstudium
15 h Prüfungsvorbereitung
105 h Selbststudium und Aufgabenbearbeitung (evtl. in Gruppen)
Verwendbarkeit
B.Sc. Angewandte Informatik,
M.Sc. Angewandte Informatik,
M.Sc. Scientific Computing
Sprache
Lehrende
Prüfungsschema
Lernziele Die Studierenden
* kennen ausgewählte Ansätze und Programmierparadigmen der parallelen Datenverarbeitung
* können Tools zur parallelen Datenverarbeitung (u.a. Apache Hadoop und Spark) anwenden
* wissen die Anwendungsbereiche der Analyse großer Datenmengen
* kennen Methoden der parallelen Vorverarbeitung von Daten
* kennen Analyseverfahren wie Klassifikation, Regression, Clustering sowie von deren parallelen Implementierungen
* wissen die theoretischen und praktische Aspekte der Skalierbarkeit der parallelen Datenverarbeitung
Lerninhalte Zu den Inhalten zählen:
* Programmierparadigmen für parallel-verteilte Datenverarbeitung, insbes. Map-Reduce und Spark-Programmiermodell
* Praktische Kenntnisse von Apache Hadoop, Pig, und Hive, sowie Spark und ggf. anderer Frameworks für parallel-verteilte Datenverarbeitung
* Anwendungsbereiche der parallelen Datenanalyse u.a. Clustering, Recommendation, Suche nach ähnlichen Objekten, Mining von Datenströmen
* Verfahren zur parallelen Vorverarbeitung der Daten
* Grundlagen der Analysetechniken wie Klassifikation, Regression, Clustering und Evaluation der Ergebnisse
* Parallele Algorithmen für die Datenanalyse und ihre Umsetzung
* Theorie und Praxis der Skalierbarkeit, Tuning der Algorithmen und Frameworks
Teilnahme-
voraus-
setzungen
empfohlen sind: Programmierkenntnisse (z.B. in Java) und elementare Wahrscheinlichkeitsrechnung; Modul Knowledge Discovery in Databases (IKDD) ist empfohlen aber nicht notwendig. Modul Big Data (IBD) wird als Ergänzung bzw. Erweiterung empfohlen
Vergabe der LP und Modulendnote Bestehen der Modulprüfung
Nützliche Literatur * Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman: Mining of Massive Datasets, Cambridge University Press, Version 2.1 von 2014 (http://www.mmds.org/)
* Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, 2009 (http://statweb.stanford.edu/~tibs/ElemStatLearn/)
* Ron Bekkerman, Misha Bilenko, John Langford: Scaling Up Machine Learning, Cambridge University Press, 2012
* Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, Morgan Kaufmann, (third edition), 2012
* Bücher aus dem O'Reilly Data Science Starter Kit, 2014 (http://shop.oreilly.com/category/get/data-science-kit.do)