Εισαγωγή στην Αναλυτική των Δεδομένων

Γενικά

  • Κωδικός Μαθήματος: 1741
  • Εξάμηνο: 7ο
  • Τύπος Μαθήματος: Επιστημονικής Περιοχής (ΕΠ)
  • Είδος Μαθήματος: Υποχρεωτικό Επιλογής (ΥΠ-ΕΠ)
  • Γνωστική Περιοχή: Διαχείριση Δεδομένων - Τεχνητή Νοημοσύνη (ΔΔΤΝ)
  • Διδασκαλία Θεωρίας: 4 ώρες/εβδομάδα
  • Πιστωτικές μονάδες ECTS: 6
  • Γλώσσα διδασκαλίας και Εξετάσεων: Ελληνικά, Aγγλικά
  • Το μάθημα προσφέρεται σε φοιτητές Erasmus
  • Προτεινόμενα προαπαιτούμενα μαθήματα: (1301) Θεωρία Πιθανοτήτων και Στατιστική
  • Διδάσκοντες: Δέρβος Δημήτριος

Μαθησιακά Αποτελέσματα

Ο στόχος του μαθήματος είναι διττός: (α) η εκμάθηση και η χρήση του περιβάλλοντος επεξεργασίας δεδομένων R/RStudio, και (β) η ευαισθητοποίηση του φοιτητή στη σημασία που έχουν η κατανόηση και η προετοιμασία των δεδομένων ως πρώτο στάδιο της αναλυτικής τους επεξεργασίας. Σε αυτό το πλαίσιο, ο φοιτητής αποκτά γνώσεις και δεξιότητες που αφορούν στην ενοποίηση ετερογενών δεδομένων, στη διαχείριση ελλειπουσών τιμών, στον καθαρισμό/προσαρμογή τους, και στη διερεύνηση της ενδογενούς πληροφορίας με τη χρήση διαφόρων τρόπων οπτικοποίησής της. Με αυτήν την έννοια, το μάθημα λειτουργεί ως προθάλαμος των μαθημάτων "Αρχές και Μέθοδοι Μηχανικής Μάθησης" και "Οργάνωση Δεδομένων και Εξόρυξη Πληροφορίας" του προπτυχιακού προγράμματος σπουδών του Τμήματος. Με την επιτυχή ολοκλήρωση του μαθήματος, ο φοιτητής είναι σε θέση:

  • Να περιγράφει τα βασικά χαρακτηριστικά και τις ιδιότητες που υπεισέρχονται στην κατανόηση και ερμηνεία των δεδομένων
  • Να ορίζει και να διακρίνει τα δεδομένα από την πληροφορία
  • Να αναπτύσσει και να εφαρμόζει σενάρια επεξεργασίας δεδομένων σε περιβάλλον R/RStudio
  • Να αναλύει το σύνθετο επιχειρηματικό πρόβλημα της διαχείρισης και της οργάνωσης των δεδομένων
  • Να προετοιμάζει, μετασχηματίζει, καθαρίζει και προσαρμόζει και να οργανώνει τα δεδομένα ενόψει της επικείμενης αναλυτικής τους επεξεργασίας
  • Να συγκρίνει και να αξιολογεί παραμέτρους και τιμές χαρακτηριστικών σε τρόπο ώστε να υποβοηθείται το έργο της επιλογής στρατηγικής εξόρυξης πληροφορίας
  • Να εφαρμόζει μεθόδους περιγραφικής στατιστικής και οπτικοποίησης σε σύνολα δεδομένων
Γενικές Ικανότητες
  • Ανάλυση του επιχειρηματικού προβλήματος της διαχείρισης και επεξεργασίας δεδομένων
  • Υποβοήθηση του έργου της διαδικασίας λήψης αποφάσεων
  • Απόκτηση τεχνογνωσίας στη χρήση τεχνολογιών αναλυτικής επεξεργασίας δεδομένων
  • Αυτόνομη εργασία
  • Ομαδική εργασία

Περιεχόμενο Μαθήματος

Το περιβάλλον R/R-Studio
Το αποθετήριο επανα-χρησιμοποιήσιμου κώδικα Comprehensive R Archive Network (CRAN)
Τύποι Δεδομένων
Ορισμός και Κλάσεις Αντικειμένων
Διανύσματα και Λίστες
Πίνακες
Πλαίσια (DataFrames)
Διανυσματοποίηση
Εντολές εκτέλεσης υπό συνθήκη (if-else)
Εντολές εκτέλεσης κατ’ επανάληψη (for, repeat, while)
Συναρτήσεις
Ανάγνωση και εξαγωγή δεδομένων από/προς αρχείο
Επικοινωνία με RDBMS (MySQL, PostgreSQL)
Τύποι, ποιότητα και προεπεξεργασία δεδομένων
– Καθαρισμός και ενοποίηση ανομοιογενών δεδομένων
– Ο θόρυβος στα δεδομένα
– Διαχείριση ελλιπουσών τιμών
– Διακριτοποίηση δεδομένων
– Μετασχηματισμός σε κοινό εύρος τιμών
Περιγραφική στατιστική και οπτικοποίηση των δεδομένων
– Μέση τιμή, διάμεσος, διασπορά, τυπική απόκλιση και εύρος τιμών
– Ποσοστιαία σημεία (quantiles)
– Ενδοτεταρτημοριακό εύρος (IRQ)
– Πίνακες συχνοτήτων
– Διαγραμματική αναπαράσταση δεδομένων
— Ραβδογράμματα
— Ιστογράμματα
— Διαγράμματα πίτας
— Θηκογράμματα (boxplots)
— Διαγράμματα διασποράς (scatter plots)
– Πίνακες συνάφειας (contingency tables)

Διδακτικές και Μαθησιακές Μέθοδοι - Αξιολόγηση

Τρόπος Παράδοσης
  • Πρόσωπο με πρόσωπο θεωρητική διδασκαλία
  • Επίδειξη πρακτικών θεμάτων και τεχνικών
  • Πρακτική εξάσκηση στο εργαστήριο
Χρήση Τεχνολογιών Πληροφορίας και Επικοινωνιών
  • Χρήση Τ.Π.Ε. στη διδασκαλία
  • Χρήση εικονικής μηχανής (virtual machine) για την πρακτική εξάσκηση στον υπολογιστή
  • Χρήση βιντεοσκοπημένων διαλέξεων που διατίθενται στο διαδίκτυο
  • Διαθεσιμότητα εκπαιδευτικού υλικού μέσω CMS στο διαδίκτυο
  • Επικοινωνία με τους φοιτητές σε ώρες γραφείου, και μέσω του διαδικτύου (Email, ανακοινώσεις σε CMS)
Οργάνωση Διδασκαλίας
Δραστηριότητα Φόρτος εργασίας εξαμήνου
Διαλέξεις52
Προετοιμασία για τις εργαστηριακές ασκήσεις και για τις εργασίες20
Εργασίες48
Ατομική Μελέτη και ανάλυση βιβλιογραφίας60
Σύνολο 180
Αξιολόγηση φοιτητών

Γλώσσα διδασκαλίας και αξιολόγησης: Ελληνικά και Αγγλικά
Δύο εργασίες: μία ατομική και μία ομαδική
Τελική γραπτή εξέταση με τη χρήση ερωτήσεων πολλαπλής επιλογής και με τη επίλυση προβλημάτων σχετικών με τη διδακτέα/εξεταστές ύλη του μαθήματος

Συνιστώμενη Βιβλιογραφία

Συγγράμματα μέσω του συστήματος "Εύδοξος"
  1. F. Provost, T. Faucett, "Η Επιστήμη των Δεδομένων για Επιχειρήσεις", Εκδόσεις Κλειδάριθμος, 1η Έκδοση, 2019, ISBN: 978-960-461-991-7, Κωδικός Ευδόξου: 86055865
  2. R. Witte, J. Witte, Γ. Ανδρουλάκης, Κ. Κανετάς, "Στατιστική: Ανάλυση Δεδομένων με Χρήση της R", Εκδόσεις Κριτική, 1η Έκδοση, 2019, ISBN: 978-960-586-309-8, Κωδικός Ευδόξου: 86055461
Συμπληρωματική ελληνόγλωσση βιβλιογραφία
  1. Β.Σ. Βερύκιος, Β. Καγκλής, Η.Κ. Σταυρόπουλος, "Η Επιστήμη των Δεδομένων μέσα από τη Γλώσσα R", Εκδόσεις ΣΕΑΒ: Ελληνικά Ακαδημαϊκά Συγγράμματα και Βοηθήματα,1η Έκδοση, 2015, ISBN: 978-960-603-394-0, Ανάκτηση από τη διεύθυνση: https://repository.kallipos.gr/bitstream/11419/2965/1/00_master_document.pdf
Συμπληρωματική ξενόγλωσση βιβλιογραφία
  1. Verzani J., Using R for Introductory Statistics, Chapman and Hall / CRC Press, 1st Edition, 2005, ISBN 1-58488-4509. Ανάκτηση από τη διεύθυνση: https://r4ds.had.co.nz/
  2. Wickham H., Grolemund G., R for Data Science: Import, Tidy, Transform, Visualize, and Model Data, O' Reilly, 1st Edition, 2017, ISBN 978-1-49191-0399