Οργάνωση Δεδομένων και Εξόρυξη Πληροφορίας

Γενικά

  • Κωδικός Μαθήματος: 1841
  • Εξάμηνο: 8ο
  • Τύπος Μαθήματος: Επιστημονικής Περιοχής (ΕΠ)
  • Είδος Μαθήματος: Επιλογής (ΕΠ)
  • Γνωστική Περιοχή: Διαχείριση Δεδομένων - Τεχνητή Νοημοσύνη (ΔΔΤΝ)
  • Διδασκαλία Θεωρίας: 4 ώρες/εβδομάδα
  • Πιστωτικές μονάδες ECTS: 6
  • Γλώσσα διδασκαλίας και Εξετάσεων: Ελληνικά, Aγγλικά
  • Το μάθημα προσφέρεται σε φοιτητές Erasmus
  • Προτεινόμενα προαπαιτούμενα μαθήματα: (1741) Εισαγωγή στην Αναλυτική των Δεδομένων

Μαθησιακά Αποτελέσματα

Σκοπό του μαθήματος αποτελεί η εξοικείωση με και η απόκτηση γνώσεων και δεξιοτήτων εκ μέρους του φοιτητή σε σύγχρονα θέματα και πρακτικές που αφορούν στην οργάνωση και στην επεξεργασία των δεδομένων με στόχο την αναλυτική τους επεξεργασία και την εξόρυξη χρήσιμης πληροφορίας από αυτά. Όσον αφορά στην οργάνωση των δεδομένων, καλύπτεται η θεματολογία της αναλτυικής επεξεργασίας άμεσης επικοινωνίας (OnLine Analytical Processing, OLAP) και η οργάνωση των δεδομένων σε αποθήκες (Data Warehousing). Στη θεματική κατηγορία των τεχνικών εξόρυξης πληροφορίας από τα δεδομένα, δίνεται έμφαση σε τεχνικές συσταδοποίησης (Clustering), στις τεχνικές διαχείρισης και ανάδειξης ομάδων κοντινών γειτόνων (kNN Classification), και στην ανακάλυψη κανόνων συσχέτισης στα δεδομένα (Association Rules Mining). Τέλος, καλύπτεται και η θεματολογία της παραγωγής συστάσεων (recommendations). Στο πρακτικό μέρος του μαθήματος γίνεται χρήση δύο περιβαλλόντων αναλυτικής επεξεργασίας δεδομένων: του WEKA και του περιβάλλοντος R/RStudio. Με την επιτυχή ολοκλήρωση του μαθήματος, ο φοιτητής είναι σε θέση:

  • Να περιγράφει τα βασικά των τεχνολογιών OLAP και Data Mining
  • Να ορίζει και να διακρίνει τα δεδομένα από την πληροφορία
  • Να αναλύει και να επιλύει το σύνθετο πρόβλημα της οργάνωσης, αποθήκευσης και αναλυτικής επεξεργασίας των δεδομένων με στόχο την εξόρυξη χρήσιμης πληροφορίας από αυτά
  • Να αναπτύσσει και να εφαρμόζει σενάρια αναλυτικής επεξεργασίας δεδομένων στα περιβάλλοντα WEKA και R/RStudio
  • Να ομογενοποιεί δεδομένα από ετερογενείς πηγές, να τα οργανώνει σε κατάλληλες δομές (OLAP ή δομές της γλώσσας R) ώστε να καθίστατι δυνατή η αναλυτική τους επεξεργασία με τη χρήση αλγορίθμων Data Mining
  • Να αναπτύσσει κώδικα (SQL ή/και R) για την παραγωγή συστάσεων (recommendations)
  • Να εφαρμόζει στην πράξη μεθόδους περιγραφικής αναλυτικής των δεδομένων (descriptive data analytics)
Γενικές Ικανότητες
  • Ανάλυση και επίλυση του σύνθετου προβλήματος της οργάνωσης, αποθήκευσης, προσαρμοφγής και αναλυτικής επεξεργασίας των δεδομένων με στόχο την εξόρυξη χρήσιμης πληροφορίας από αυτά
  • Υποβοήθηση του έργου της διαδικασίας λήψης αποφάσεων στη σύγχρονη επιχείρηση
  • Απόκτηση τεχνογνωσίας στη χρήση και στην αξιοποίηση των δυνατοτήτων των σύγχρονων περιβαλλόντων αναλυτικής επεξεργασίας δεδομένων
  • Αυτόνομη εργασία
  • Ομαδική εργασία

Περιεχόμενο Μαθήματος

Εισαγωγή στις Αποθήκες Δεδομένων: ETL, Μετασχηματισμοί Δεδομένων, Μοντέλο Διαστάσεων, Σχήματα Star και Snowflake
Κύβοι Δεδομένων, Αιτήματα OLAP (ενέργειες roll-up, drill down, pivot, slice & dice)
— Πρακτική εξάσκηση στο περιβάλλον Analysis Services του MS SQL Server
Εξόρυξη Πληροφορίας από Συλλογές Δεδομένων
— Εισαγωγή και Γενικές Έννοιες
— Κατηγορίες Αλγορίθμων
— Αναπαράσταση της Πληροφορίας στην Έξοδο της Επεξεργασίας
— Αξιολόγηση της Ποιότητας του Αποτελέσματος στην Έξοδο της Επεξεργασίας
Συσταδοποίηση (Clustering)
— Μέτρα απόστασης και ομοιότητας
— Ο Αλγόριθμος k-Means
— Ο Αλγόριθμος k-Medians
— Ο Αλγόριθμος k-Medoids
— Ιεραρχική Συσταδοποίηση
—- Agglomerative
—- Divisive
— Ο Αλγόριθμος DBSCAN
Κανόνες Συσχέτισης (Association Rules)
— ο Αλγόριθμος Apriori
— ο Αλγόριθμος Sampling
Αλγόριθμοι Πλησιέστερου Γείτονα και Τεχνικές Μείωσης των Δεδομένων
Συστήματα Παραγωγής Συστάσεων
— Πρακτική Εφαρμογή: Παραγωγή Συστάσεων από Πλησιέστερους Γείτονες
— Πρακτική Εφαρμογή: Παραγωγή Συστάσεων από Συνδυαστικούς Κανόνες

Διδακτικές και Μαθησιακές Μέθοδοι - Αξιολόγηση

Τρόπος Παράδοσης
  • Πρόσωπο με πρόσωπο θεωρητική διδασκαλία
  • Επίδειξη πρακτικών θεμάτων και τεχνικών
  • Πρακτική εξάσκηση στον υπολογιστή
Χρήση Τεχνολογιών Πληροφορίας και Επικοινωνιών
  • Χρήση ΤΠΕ στη διδασκαλία
  • Χρήση εικονικής μηχανής (virtual machine) για την πρακτική εξάσκηση στον υπολογιστή
  • Χρήση βιντεοσκοπημένων διαλέξεων που διατίθενται στο διαδίκτυο
  • Διαθεσιμότητα εκπαιδευτικού υλικού μέσω CMS στο διαδίκτυο
Οργάνωση Διδασκαλίας
Δραστηριότητα Φόρτος εργασίας εξαμήνου
Διαλέξεις52
Προετοιμασία για τις εργαστηριακές ασκήσεις και για τις εργασίες20
Εργασίες48
Ατομική Μελέτη και ανάλυση βιβλιογραφίας60
Σύνολο 180
Αξιολόγηση φοιτητών

Γλώσσα διδασκαλίας και αξιολόγησης: Ελληνικά και Αγγλικά
Δύο εργασίες: μία ατομική και μία ομαδική
Τελική γραπτή εξέταση με τη χρήση ερωτήσεων πολλαπλής επιλογής και με την επίλυση προβλημάτων σχετικών με τη διδακτέα/εξετασέα ύλη του μαθήματος

Συνιστώμενη Βιβλιογραφία

Συγγράμματα μέσω του συστήματος "Εύδοξος"
  1. P. Tan, M. Steinbach, A. Karpatne, V. Kumar, "Εισαγωγή στην Εξόρυξη Δεδομένων", Εκδόσεις Α. Τζιόλα & Υιοί Α.Ε., 2η Έκδοση, 2018, ISBN: 978-960-418-813-0, Κωδ. Ευδόξου: 77107675
  2. M.J. Zaki, W. Meira Jr., "Εξόρυξη και Ανάλυση Δεδομένων: Βασικές Έννοιες και Αλγόριθμοι", Εκδόσεις Κλειδάριθμος ΕΠΕ, 1η Έκδοση, 2017, ISBN: 978-960-461-770-8, Κωδ. Ευδόξου: 68386089
  3. Αλ. Νανόπουλος, Γ. Μανωλόπουλος, "Εισαγωγή στην Εξόρυξη Δεδομένων και τις Αποθήκες Δεδομένων", Εκδόσεις Νέων Τεχνολογιών, 1η Έκδοση, 2008, ISBN: 978-960-6759-17-8, Κωδ. Ευδόξου: 9457
Συμπληρωματική ελληνόγλωσση βιβλιογραφία
  1. Β.Σ. Βερύκιος, Β. Καγκλής, Η.Κ. Σταυρόπουλος, "Η Επιστήμη των Δεδομένων μέσα από τη Γλώσσα R", Εκδόσεις ΣΕΑΒ: Ελληνικά Ακαδημαϊκά Συγγράμματα και Βοηθήματα,1η Έκδοση, 2015, ISBN: 978-960-603-394-0, Ανάκτηση από τη διεύθυνση: www.kalippos.gr
  2. A. Rajaraman, J.D. Ullman, "Εξόρυξη από Μεγάλα Σύνολα Δεδομένων", Εκδόσεις Νέων Τεχνολογιών, 1η Έκδοση, 2014, ISBN: 978-960-6759-83-3
  3. Μ. Βαζιργιάννης, Μ. Χαλκίδη, "Εξόρυξη Γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό", Έκδοση: Γ. Δαρδανός - Κ. Δαρδανός Ο.Ε., 2η Έκδοση, 2005, ISBN: 978-960-402-116-8
  4. R.J. Roiger, M.W. Geatz, "Εξόρυξη Πληροφορίας: Ένας Εισαγωγικός Οδηγός με Παραδείγματα", Εκδόσεις Κλειδάριθμος Ε.Π.Ε., 1η Έκδοση, 2008, ISBN: 978-960-461-206-2