Οργάνωση Δεδομένων και Εξόρυξη Πληροφορίας

Γενικά

Μαθησιακά Αποτελέσματα

Σκοπός του μαθήματος αποτελεί η εξοικείωση και η απόκτηση γνώσεων και δεξιοτήτων σε σύγχρονα θέματα και πρακτικές που αφορούν στην οργάνωση και στην επεξεργασία των δεδομένων με στόχο την την εξόρυξη χρήσιμης πληροφορίας από αυτά. Όσον αφορά στην οργάνωση των δεδομένων, καλύπτεται η θεματολογία της αναλτυικής επεξεργασίας (OnLine Analytical Processing, OLAP) και η οργάνωση των δεδομένων σε αποθήκες (Data Warehousing). Στη θεματική κατηγορία των τεχνικών εξόρυξης πληροφορίας από τα δεδομένα, δίνεται έμφαση σε τεχνικές κατηγοριοποίησης (Classification), συσταδοποίησης (Clustering) και στην ανακάλυψη κανόνων συσχέτισης στα δεδομένα (Association Rules Mining). Τέλος, καλύπτεται και η θεματολογία της παραγωγής συστάσεων (recommendations). Στο πρακτικό μέρος του μαθήματος γίνεται χρήση της βιβλιοθήκης scikit-learn της γλώσσας προγραμματισμού Python και του λογισμικού WEKA. Με την επιτυχή ολοκλήρωση του μαθήματος, ο φοιτητής είναι σε θέση:

  • Να γνωρίσουν τις εφαρμογές Εξόρυξης Γνώσης καθώς και τα στάδια της Εξόρυξης Γνώσης από Δεδομένα (Knowledge Discovery in Databases)
  • Να εφαρμόζουν τις κατάλληλες τεχνικές προ-επεξεργασίας δεδομένων με στόχο την προετοιμασία των δεδομένων για Εξόρυξη Γνώσης
  • Να κατανοήσουν σε βάθος τον τρόπο λειτουργίας διάφορων αλγορίθμων κατηγοριοποίησης, συσταδοποίησης και εξαγωγής κανόνων συσχέτισης και να είναι σε θέση να τους χρησιμοποιήσουν
  • Να αναπτύσσει και να εφαρμόζει σενάρια εξόρυξης γνώσης μέσω του λογισμικού WEKA και της βιβλιοθήκης scikit-learn της γλώσσας προγραμματισμού Python
  • Να εκτιμούν την απόδοση των αλγορίθμων εξόρυξης γνώσης χρησιμοποιώντας τις κατάλληλες τεχνικές επικύρωσης και να αξιολογούν την παραγόμενα αποτελέσματα με στόχο τη λήψη αποφάσεων
  • Να σχεδιάζουν και να υλοποιούν Αποθήκες Δεδομένων, να εφαρμόζουν αναλυτική επεξεργασία τύπου OLAP και αλγορίθμους εξόρυξης γνώσης σε αυτές και να εφαρμόζουν διαδικασίες ETL
  • Να κατανοήσει τον τρόπο λειτουργίας των συστημάτων συστάσεων (Recomender Systems)
Γενικές Ικανότητες
  • Αναζήτηση, ανάλυση και σύνθεση δεδομένων και πληροφοριών, με τη χρήση και των απαραίτητων τεχνολογιών
  • Λήψη αποφάσεων
  • Αυτόνομη εργασία ή Ομαδική εργασία
  • Προαγωγή της ελεύθερης, δημιουργικής και επαγωγικής σκέψης

Περιεχόμενο Μαθήματος

  • Εισαγωγή στην οργάνωση των δεδομένων και στην εξόρυξη γνώσης
  • Προετοιμασία δεδομένων (Καθαρισμός δεδομένων, διαχείριση απούσων τιμών, επιλογή χαρακτηριστικών, διακριτοποίηση, διαχείριση ανισοκατανομών σε προβλήματα κατηγοριοποίησης κ.α.
  • Εισαγωγή στην κατηγοριοποίηση, Κατηγορίες προβλημάτων κατηγοριοποίησης, Κατηγορίες αλγορίθμων κατηγοριοποίησης, Αλγρόριθμοι που βασίζονται σε πιθανότητες (π.χ. naive bayes), Αλγόριθμοι που βασίζονται στον διαχωρισμό του χώρου (π.χ. Δένδρα αποφάσεων), Αλγόριθμοι που βασίζονται στην ομοιότητα/απόσταση (κ εγγύτεροι γείτονες), αποτελεσματική αναζήτηση εγγύτερων γειτόνων μέσω δεικτοδότησης δεδομένων (π.χ. k-d-tree), τεχνικές μείωσης δεδομένων εκπαίδευσης, Κατηγοριοποίηση πολλαπλών ετικετών
  • Μετρικές απόδοσης της κατηγοριοποίησης και Τεχνικές επικύρωσης της απόδοσης αλγορίθμων κατηγοριοποίησης
  • Εισαγωγή στην συσταδοποίηση, Τύποι συστάδων, Κατηγορίες αλγορίθμων συσταδοποίησης, Αλγόριθμοι συσταδοποίησης: Ο αλγόριθμος κ μέσων (k-means) και οι παραλλαγές του (k-medians, k-modes και k-prototypes), Ιεαραρχική συσταδοποίηση, συσταδοποίηση βάσει πυκνότητας, Ο αλγόριθμος DBSCAN, τεχνικές προσδιορισμού παραμέτρων αλγορίθμων συσταδοποίησης (Elbow, Silhouette, δενδρόγραμμα, k-dist-graph), Ερμηνεία των αποτελεσμάτων της συσταδοποίησης και εκτίμηση της απόδοσης της συσταδοποίησης
  • Κανόνες συσχέτισης, Ο αλγόριθμος Apriori για την ανακάλυψη κανόνων συσχέτισης, μέτρα αξιολόγησης των κανόνων συσχέτισης, Οι αλγόριθμοι FP-growth και Eclat
  • Επεξεργασία τύπου OLTP και OLAP, σχεδίαση και υλοποίηση Αποθήκης Δεδομένων, σχήμα αστέρα και χιονονιφάδας, διαδικασίες Extract-Transform-Load (ETL), πολυδιάστατοι κύβοι δεδομένων, αιτήματα OLAP και αλγόριθμοι εξόρυξης γνώσης σε αποθήκες δεδομένων
  • Εισαγωγή στα συστήματα παραγωγής συστάσεων (Recommender Systems)

Διδακτικές και Μαθησιακές Μέθοδοι - Αξιολόγηση

Τρόπος Παράδοσης
  • Πρόσωπο με πρόσωπο θεωρητική διδασκαλία
  • Επίδειξη πρακτικών θεμάτων και τεχνικών
  • Πρακτική εξάσκηση στον υπολογιστή
Χρήση Τεχνολογιών Πληροφορίας και Επικοινωνιών
  • Χρήση ΤΠΕ στη διδασκαλία
  • Χρήση εικονικής μηχανής (virtual machine) για την πρακτική εξάσκηση στον υπολογιστή
  • Χρήση βιντεοσκοπημένων διαλέξεων που διατίθενται στο διαδίκτυο
  • Διαθεσιμότητα εκπαιδευτικού υλικού μέσω CMS στο διαδίκτυο
Οργάνωση Διδασκαλίας
Δραστηριότητα Φόρτος εργασίας εξαμήνου
Διαλέξεις52
Προετοιμασία για τις εργαστηριακές ασκήσεις και για τις εργασίες20
Εργασίες48
Ατομική Μελέτη και ανάλυση βιβλιογραφίας60
Σύνολο 180
Αξιολόγηση φοιτητών

Γλώσσα διδασκαλίας και αξιολόγησης: Ελληνικά και Αγγλικά
Eκπόνηση εργασίας στο πλαίσιο του μαθήματος, και πρακτική εξάσκηση (με επίλυση ασκήσεων) στο εργαστήριο
Τελική γραπτή εξέταση: ερωτήσεις πολλαπλής επιλογής και επίλυση προβλημάτων σχετικών με τη διδακτέα/εξεταστέα ύλη του μαθήματος

Συνιστώμενη Βιβλιογραφία

Συγγράμματα μέσω του συστήματος "Εύδοξος"
  1. P. Tan, M. Steinbach, A. Karpatne, V. Kumar, "Εισαγωγή στην Εξόρυξη Δεδομένων", Εκδόσεις Α. Τζιόλα & Υιοί Α.Ε., 2η Έκδοση, 2018, ISBN: 978-960-418-813-0, Κωδ. Ευδόξου: 77107675
  2. M.J. Zaki, W. Meira Jr., "Εξόρυξη και Ανάλυση Δεδομένων: Βασικές Έννοιες και Αλγόριθμοι", Εκδόσεις Κλειδάριθμος ΕΠΕ, 1η Έκδοση, 2017, ISBN: 978-960-461-770-8, Κωδ. Ευδόξου: 68386089
  3. Αλ. Νανόπουλος, Γ. Μανωλόπουλος, "Εισαγωγή στην Εξόρυξη Δεδομένων και τις Αποθήκες Δεδομένων", Εκδόσεις Νέων Τεχνολογιών, 1η Έκδοση, 2008, ISBN: 978-960-6759-17-8, Κωδ. Ευδόξου: 9457
Συμπληρωματική ελληνόγλωσση βιβλιογραφία
  1. A. Rajaraman, J.D. Ullman, "Εξόρυξη από Μεγάλα Σύνολα Δεδομένων", Εκδόσεις Νέων Τεχνολογιών, 1η Έκδοση, 2014, ISBN: 978-960-6759-83-3
  2. Μ. Βαζιργιάννης, Μ. Χαλκίδη, "Εξόρυξη Γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό", Έκδοση: Γ. Δαρδανός - Κ. Δαρδανός Ο.Ε., 2η Έκδοση, 2005, ISBN: 978-960-402-116-8
  3. R.J. Roiger, M.W. Geatz, "Εξόρυξη Πληροφορίας: Ένας Εισαγωγικός Οδηγός με Παραδείγματα", Εκδόσεις Κλειδάριθμος Ε.Π.Ε., 1η Έκδοση, 2008, ISBN: 978-960-461-206-2
  4. M. H. Dunham, "Data Mining, Εισαγωγικά και Προηγμένα Θέματα Εξόρυξης Γνώσης από Δεδομένα", Εκδόσεις Νέων Τεχνολογιών, ISBN: 9789608105720
Συμπληρωματική ξενόγλωσση βιβλιογραφία
  1. Jiawei Han, Micheline Kamber and Jian Pei, Data Mining: Concepts and Techniques, 3rd ed., The Morgan Kaufmann Series in Data Management Systems, Morgan Kaufmann Publishers, July 2011. ISBN 978-0123814791