Introduction to Data Analytics

General

  • Course Code: 1741
  • Semester: 7th
  • Course Type: Scientific Area (SA)
  • Course Category: Compulsory Optional (CO-OP)
  • Scientific Field: Data Management - Artifial Inteligence (DMAI)
  • Lectures: 4 hours/week
  • ECTS units: 6
  • Teching and exams language: Greek, English
  • The course is offered to Erasmus students
  • Recommended prerequisite courses: (1301) Probability Theory and Statistics
  • Instructors: Dervos Dimitrios

Educational goals

Ο στόχος του μαθήματος είναι διττός: (α) η εκμάθηση και η χρήση του περιβάλλοντος επεξεργασίας δεδομένων R/RStudio, και (β) η ευαισθητοποίηση του φοιτητή στη σημασία που έχουν η κατανόηση και η προετοιμασία των δεδομένων ως πρώτο στάδιο της αναλυτικής τους επεξεργασίας. Σε αυτό το πλαίσιο, ο φοιτητής αποκτά γνώσεις και δεξιότητες που αφορούν στην ενοποίηση ετερογενών δεδομένων, στη διαχείριση ελλειπουσών τιμών, στον καθαρισμό/προσαρμογή τους, και στη διερεύνηση της ενδογενούς πληροφορίας με τη χρήση διαφόρων τρόπων οπτικοποίησής της. Με αυτήν την έννοια, το μάθημα λειτουργεί ως προθάλαμος των μαθημάτων "Αρχές και Μέθοδοι Μηχανικής Μάθησης" και "Οργάνωση Δεδομένων και Εξόρυξη Πληροφορίας" του προπτυχιακού προγράμματος σπουδών του Τμήματος. Με την επιτυχή ολοκλήρωση του μαθήματος, ο φοιτητής είναι σε θέση:

  • Να περιγράφει τα βασικά χαρακτηριστικά και τις ιδιότητες που υπεισέρχονται στην κατανόηση και ερμηνεία των δεδομένων
  • Να ορίζει και να διακρίνει τα δεδομένα από την πληροφορία
  • Να αναπτύσσει και να εφαρμόζει σενάρια επεξεργασίας δεδομένων σε περιβάλλον R/RStudio
  • Να αναλύει το σύνθετο επιχειρηματικό πρόβλημα της διαχείρισης και της οργάνωσης των δεδομένων
  • Να προετοιμάζει, μετασχηματίζει, καθαρίζει και προσαρμόζει και να οργανώνει τα δεδομένα ενόψει της επικείμενης αναλυτικής τους επεξεργασίας
  • Να συγκρίνει και να αξιολογεί παραμέτρους και τιμές χαρακτηριστικών σε τρόπο ώστε να υποβοηθείται το έργο της επιλογής στρατηγικής εξόρυξης πληροφορίας
  • Να εφαρμόζει μεθόδους περιγραφικής στατιστικής και οπτικοποίησης σε σύνολα δεδομένων
General Skills
  • Ανάλυση του επιχειρηματικού προβλήματος της διαχείρισης και επεξεργασίας δεδομένων
  • Υποβοήθηση του έργου της διαδικασίας λήψης αποφάσεων
  • Απόκτηση τεχνογνωσίας στη χρήση τεχνολογιών αναλυτικής επεξεργασίας δεδομένων
  • Αυτόνομη εργασία
  • Ομαδική εργασία

Course Contents

The R/RStudio Environment
The Comprehensive R Archive Network (CRAN) Repository
Th eR Language:
— Data Types
— Objects
— Vectors and Lists
— Matrices
— DataFrames
— Vectorization
— The IF-ELSE Clause
— FOR, REPEAT, and WHILE Commands
— Functions
— Data Importing/Exporting
— RDBMS Coupling (MySQL, PostgreSQL)
Extract-Transform-Load (ETL) Operations
–Data Cleaning and Homogenization
— Noise
— Missing Values
— Data Discretization and Data Standardization
— Data Transformation
Descriptive Statistics / Exploratory Analysis
— Mean, Median, Standard Deviation
— Quartiles
— Interquartile Range (IQR)
— Frequency Tables
— Bar Charts
— Histograms
— Pie Charts
— Boxplots
— Scatter Plots
— Contingency Tables
Simulation of Data Distributions: Density Plots, Data Sampling
The Pearson Correlation Coefficient

Teaching Methods - Evaluation

Teaching Method
  • Πρόσωπο με πρόσωπο θεωρητική διδασκαλία
  • Επίδειξη πρακτικών θεμάτων και τεχνικών
  • Πρακτική εξάσκηση στο εργαστήριο
Use of ICT means
  • Χρήση Τ.Π.Ε. στη διδασκαλία
  • Χρήση εικονικής μηχανής (virtual machine) για την πρακτική εξάσκηση στον υπολογιστή
  • Χρήση βιντεοσκοπημένων διαλέξεων που διατίθενται στο διαδίκτυο
  • Διαθεσιμότητα εκπαιδευτικού υλικού μέσω CMS στο διαδίκτυο
  • Επικοινωνία με τους φοιτητές σε ώρες γραφείου, και μέσω του διαδικτύου (Email, ανακοινώσεις σε CMS)
Teaching Organization
Activity Semester workload
Lectures52
Preparation for laboratory exercises and projects20
Projects48
Individual study and analysis of literature60
Total 180
Students evaluation

Γλώσσα διδασκαλίας και αξιολόγησης: Ελληνικά και Αγγλικά
Δύο εργασίες: μία ατομική και μία ομαδική
Τελική γραπτή εξέταση με τη χρήση ερωτήσεων πολλαπλής επιλογής και με τη επίλυση προβλημάτων σχετικών με τη διδακτέα/εξεταστές ύλη του μαθήματος

Recommended Bibliography

Recommended Bibliography through "Eudoxus"
  1. F. Provost, T. Faucett, "Η Επιστήμη των Δεδομένων για Επιχειρήσεις", Εκδόσεις Κλειδάριθμος, 1η Έκδοση, 2019, ISBN: 978-960-461-991-7, Κωδικός Ευδόξου: 86055865
  2. R. Witte, J. Witte, Γ. Ανδρουλάκης, Κ. Κανετάς, "Στατιστική: Ανάλυση Δεδομένων με Χρήση της R", Εκδόσεις Κριτική, 1η Έκδοση, 2019, ISBN: 978-960-586-309-8, Κωδικός Ευδόξου: 86055461
Complementary greek bibliography
  1. Β.Σ. Βερύκιος, Β. Καγκλής, Η.Κ. Σταυρόπουλος, "Η Επιστήμη των Δεδομένων μέσα από τη Γλώσσα R", Εκδόσεις ΣΕΑΒ: Ελληνικά Ακαδημαϊκά Συγγράμματα και Βοηθήματα,1η Έκδοση, 2015, ISBN: 978-960-603-394-0, Ανάκτηση από τη διεύθυνση: https://repository.kallipos.gr/bitstream/11419/2965/1/00_master_document.pdf
Complementary international bibliography
  1. Verzani J., Using R for Introductory Statistics, Chapman and Hall / CRC Press, 1st Edition, 2005, ISBN 1-58488-4509. Ανάκτηση από τη διεύθυνση: https://r4ds.had.co.nz/
  2. Wickham H., Grolemund G., R for Data Science: Import, Tidy, Transform, Visualize, and Model Data, O' Reilly, 1st Edition, 2017, ISBN 978-1-49191-0399