Μαρκαντώνης Σταύρος (Υποψήφιος Διδάκτορας)

Τίτλος διατριβής: Αλγόριθμοι ενισχυτικής εκμάθησης και αρχιτεκτονικές συνδυασμού εμπειρογνωμόνων για την αποδοτική επίλυση προβλημάτων επεισοδιακής Μαρκοβιανής διαδικασίας αποφάσεων με πολύ μεγάλους χώρους καταστάσεων
Επιβλέπων: Διαμαντάρας Κωνσταντίνος
Μέλη Συμβουλευτικής Επιτροπής:
Γουλιάνας Κωνσταντίνος, Καθηγητής, Τμήμα Μηχανικών Πληροφορικής & Ηλεκτρονικών Συστημάτων,ΔΙΠΑΕ
Τέφας Αναστάσιος, Καθηγητής, Τμήμα Πληροφορικής, ΑΠΘ
Περίληψη:

Στόχος της έρευνας που θα διεξαχθεί είναι η υλοποίηση αλγόριθμων Ενισχυτικής Μάθησης που θα εξερευνούν αποτελεσματικά τον χώρο καταστάσεων πολύπλοκων στοχαστικών προβλημάτων και που θα αποδίδουν στις καταστάσεις αυτές αξία κοντά στην πραγματική. Οι αλγόριθμοι δεν θα αξιοποιούν χειροποίητα ειδικά χαρακτηριστικά, δεν θα εφαρμόζουν προορατικές αναζητήσεις και δεν θα απαιτούν υψηλό υπολογιστικό κόστος εκπαίδευσης. Τα αποτελέσματα των αλγορίθμων αυτών θα χρησιμοποιηθούν για την εκπαίδευση διαφόρων λύσεων Μείγματος Εμπειρογνωμόνων προς αναζήτηση της βέλτιστης αρχιτεκτονικής.

Για τον έλεγχο των αποτελεσμάτων των παραγμένων αλγορίθμων και αρχιτεκτονικών προτείνεται η εφαρμογή τους σε στοχαστικά παίγνια με μεγάλους χώρους καταστάσεων. Εξετάζεται η χρήση του ταβλιού το οποίο συνιστάται ιδιαιτέρως για δοκιμές μεθόδων αναγνώρισης προτύπων σε θορυβώδεις, στοχαστικές συνθήκες. Η ισοπαλία είναι αδύνατη, το παιχνίδι τελικά θα τερματιστεί ακόμη και παίζοντας στην τύχη και η τυχαιότητα των ζαριών οδηγεί την εξερεύνηση σε πολύ μεγαλύτερο μέρος του χώρου καταστάσεων από ότι θα ήταν πιθανό σε ένα αιτιοκρατικό παιχνίδι. Τα παραγόμενα μοντέλα μπορούν να δοκιμαστούν ενάντια στο Pubeval, στο GNU Backgammon με αντιπάλους διαφορετικών επιπέδων και στο Computer Olympiad του International Computer Games Association.