Introduction to Data Analytics

General

  • Course Code: 1741
  • Semester: 7th
  • Course Type: Scientific Area (SA)
  • Course Category: Compulsory Optional (CO-OP)
  • Scientific Field: Data Management - Artifial Inteligence (DMAI)
  • Lectures: 4 hours/week
  • ECTS units: 6
  • Teching and exams language: Greek, English
  • The course is offered to Erasmus students
  • Recommended prerequisite courses: (1301) Probability Theory and Statistics
  • Coordinator: Bratsas Charalampos
  • Instructors: Bratsas Charalampos

Educational goals

The course serves a twofold purpose: (a) to learn using the R/RStudio platform for data processing, and (b) to draw the student's attentio to the importance data preparation has in analytical processing. In this respect, the student acquires knowledge and skills on (a) integrating data from disparate sources, (b) handling missing values, (c) data cleaning, and (d) conducting exploratory analysis, explanatory analysis, and data visualization tasks. Considering the above, the course provides the background knowledge needed for the "Machine Learning Principles and Methods", and "Data Organization and Data Mining" courses that come later in the course curriculum. Upon successful completion, the student is able to:

  • Να περιγράφει τα βασικά χαρακτηριστικά και τις ιδιότητες που υπεισέρχονται στην κατανόηση και ερμηνεία των δεδομένων
  • Να ορίζει και να διακρίνει τα δεδομένα από την πληροφορία
  • Να αναπτύσσει και να εφαρμόζει σενάρια επεξεργασίας δεδομένων σε περιβάλλον R/RStudio
  • Να αναλύει το σύνθετο επιχειρηματικό πρόβλημα της διαχείρισης και της οργάνωσης των δεδομένων
  • Να προετοιμάζει, μετασχηματίζει, καθαρίζει και προσαρμόζει και να οργανώνει τα δεδομένα ενόψει της επικείμενης αναλυτικής τους επεξεργασίας
  • Να συγκρίνει και να αξιολογεί παραμέτρους και τιμές χαρακτηριστικών σε τρόπο ώστε να υποβοηθείται το έργο της επιλογής στρατηγικής εξόρυξης πληροφορίας
  • Να εφαρμόζει μεθόδους περιγραφικής στατιστικής και οπτικοποίησης σε σύνολα δεδομένων
General Skills
  • Ανάλυση του επιχειρηματικού προβλήματος της διαχείρισης και επεξεργασίας δεδομένων
  • Υποβοήθηση του έργου της διαδικασίας λήψης αποφάσεων
  • Απόκτηση τεχνογνωσίας στη χρήση τεχνολογιών αναλυτικής επεξεργασίας δεδομένων
  • Αυτόνομη εργασία
  • Ομαδική εργασία

Course Contents

The R/RStudio Environment
The Comprehensive R Archive Network (CRAN) Repository
Th eR Language:
— Data Types
— Objects
— Vectors and Lists
— Matrices
— DataFrames
— Vectorization
— The IF-ELSE Clause
— FOR, REPEAT, and WHILE Commands
— Functions
— Data Importing/Exporting
— RDBMS Coupling (MySQL, PostgreSQL)
Extract-Transform-Load (ETL) Operations
–Data Cleaning and Homogenization
— Noise
— Missing Values
— Data Discretization and Data Standardization
— Data Transformation
Descriptive Statistics / Exploratory Analysis
— Mean, Median, Standard Deviation
— Quartiles
— Interquartile Range (IQR)
— Frequency Tables
— Bar Charts
— Histograms
— Pie Charts
— Boxplots
— Scatter Plots
— Contingency Tables
Simulation of Data Distributions: Density Plots, Data Sampling
The Pearson Correlation Coefficient

Teaching Methods - Evaluation

Teaching Method
  • Πρόσωπο με πρόσωπο θεωρητική διδασκαλία
  • Επίδειξη πρακτικών θεμάτων και τεχνικών
  • Πρακτική εξάσκηση στο εργαστήριο
Use of ICT means
  • Χρήση Τ.Π.Ε. στη διδασκαλία
  • Χρήση εικονικής μηχανής (virtual machine) για την πρακτική εξάσκηση στον υπολογιστή
  • Χρήση βιντεοσκοπημένων διαλέξεων που διατίθενται στο διαδίκτυο
  • Διαθεσιμότητα εκπαιδευτικού υλικού μέσω CMS στο διαδίκτυο
  • Επικοινωνία με τους φοιτητές σε ώρες γραφείου, και μέσω του διαδικτύου (Email, ανακοινώσεις σε CMS)
Teaching Organization
Activity Semester workload
Lectures52
Preparation for laboratory exercises and projects20
Projects48
Individual study and analysis of literature60
Total 180
Students evaluation

Γλώσσα διδασκαλίας και αξιολόγησης: Ελληνικά και Αγγλικά
Δύο εργασίες: μία ατομική και μία ομαδική
Τελική γραπτή εξέταση με τη χρήση ερωτήσεων πολλαπλής επιλογής και με τη επίλυση προβλημάτων σχετικών με τη διδακτέα/εξεταστές ύλη του μαθήματος

Recommended Bibliography

Recommended Bibliography through "Eudoxus"
  1. F. Provost, T. Faucett, "Η Επιστήμη των Δεδομένων για Επιχειρήσεις", Εκδόσεις Κλειδάριθμος, 1η Έκδοση, 2019, ISBN: 978-960-461-991-7, Κωδικός Ευδόξου: 86055865
  2. R. Witte, J. Witte, Γ. Ανδρουλάκης, Κ. Κανετάς, "Στατιστική: Ανάλυση Δεδομένων με Χρήση της R", Εκδόσεις Κριτική, 1η Έκδοση, 2019, ISBN: 978-960-586-309-8, Κωδικός Ευδόξου: 86055461
Complementary greek bibliography
  1. Β.Σ. Βερύκιος, Β. Καγκλής, Η.Κ. Σταυρόπουλος, "Η Επιστήμη των Δεδομένων μέσα από τη Γλώσσα R", Εκδόσεις ΣΕΑΒ: Ελληνικά Ακαδημαϊκά Συγγράμματα και Βοηθήματα,1η Έκδοση, 2015, ISBN: 978-960-603-394-0, Ανάκτηση από τη διεύθυνση: https://repository.kallipos.gr/bitstream/11419/2965/1/00_master_document.pdf
Complementary international bibliography
  1. Verzani J., Using R for Introductory Statistics, Chapman and Hall / CRC Press, 1st Edition, 2005, ISBN 1-58488-4509. Ανάκτηση από τη διεύθυνση: https://r4ds.had.co.nz/
  2. Wickham H., Grolemund G., R for Data Science: Import, Tidy, Transform, Visualize, and Model Data, O' Reilly, 1st Edition, 2017, ISBN 978-1-49191-0399