Μεταπτυχιακές Εργασίες

Μόνιμο URI για αυτήν τη συλλογήhttps://beta-pyxida.aueb.gr/handle/123456789/6

Νέα

Αυτή είναι η συλλογή από το παλιό σύστημα με ID:cid:3

Περιηγούμαι

Τώρα δείχνει 1 - 20 από 1101

Πλαίσιο κυβερνοασφάλειας στον ενεργειακό τομέα
(22-02-2023) Μητρόπουλος, Γεώργιος; Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής; Στεργιόπουλος, Γεώργιος; Γκρίτζαλης, Δημήτριος; Ντούσκας, Θεόδωρος
Ο σκοπός αυτής της διπλωματικής εργασίας είναι η καλύτερη κατανόηση και ανάλυση του κλάδου της ενέργειας, όσον αφορά τα βιομηχανικά συστήματα που χρησιμοποιούνται και το επίπεδο ασφάλειάς τους, έτσι ώστε να δημιουργηθεί ένα στρατηγικό πλαίσιο κυβερνοασφάλειας που θα μπορεί να ακολουθηθεί από τους οργανισμούς παροχής ενέργειας. Αρχικά, πραγματοποιήθηκε παρουσίαση και ανάλυση του κλάδου ενέργειας και των εφαρμογών του μέσα από έρευνες και άρθρα, και στη συνέχεια έγινε η σύνδεσή του με την κυβερνοασφάλεια, σε επίπεδο κανονιστικό και νομοθετικό. Επιπρόσθετα, πραγματοποιήθηκε ανάλυση των ευρύτερων συστημάτων βιομηχανικού ελέγχου που χρησιμοποιούνται σε υποδομές ενέργειας και της αρχιτεκτονικής τους, με σκοπό την κατανόηση των απαιτήσεων ασφάλειας που θα πρέπει να πληροί ένας οργανισμός. Από την ευρεία ανάλυση του κλάδου, σε επίπεδο εφαρμογών και ασφάλειας, παρουσιάστηκαν τα απαραίτητα μέτρα που πρέπει να υιοθετούν οι οργανισμοί ενέργειας, τα οποία διαχωρίστηκαν σε νομικά, τεχνικά, οργανωτικά, ενίσχυσης δεξιοτήτων, και συνεργασίας. Τέλος, με τη δημιουργία και παρουσίαση του στρατηγικού πλαισίου και του οδηγού υλοποίησης, προβάλλεται μια πιο ολοκληρωμένη εικόνα για τις ενέργειες που πρέπει να πραγματοποιήσει ένας οργανισμός, στοχεύοντας στην βελτίωση του επιπέδου κυβερνοασφάλειάς του.
Ψηφιακά πειστήρια κινητών συσκεύων: μεθοδολογίες και τεχνικές
(22-02-2023) Τσατσαλμάς, Βασίλειος; Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής; Στεργιόπουλος, Γεώργιος; Γκρίτζαλης, Δημήτριος; Ντούσκας, Θεόδωρος
Στην παρούσα εργασία θα αναλύσουμε τεχνικές και μεθόδους ψηφιακών πειστήριων και πιο συγκεκριμένα την κατηγορία των κινητών συσκευών τύπου έξυπνου κινητού (smartphone). Η έρευνα αυτή έγινε σύμφωνα με τις οδηγίες (guidelines) των πιο εξιδεικευμένων ινστιτούτων ψηφιακών πειστήριων που υπάρχουν όπως του National Institute of Standards and Technology (NIST), Interpol, European Union Agency for Cybersecurity (ENISA), Association of Chief Police Officers (ACPO), SANS αλλά και μη εξειδικευμένων ινστιτούτων άλλων ιδρυμάτων όπως του Naval Postgraduate School (NPS).Θα πρέπει να επισημανθεί ότι, στην παρούσα εργασία οι ορισμοί των τεχνολογιών και οποιονδήποτε ορισμών πάνω σε οτιδήποτε θα αναφέρεται στα αγγλικά για αποφύγει τυχόν παρερμηνεύσεις τους εάν μεταφραστούν πλήρως στην Ελληνική γλώσσα.Η ανάλυση στηρίζεται σε πέντε κεφάλαια, στην πρώτη ενότητα θα παρουσιαστούν εισαγωγικά θέματα όσον αφορά την επιστήμη των ψηφιακών πειστήριων κινητών συσκευών. Η αναφορά αυτή βασίζεται γενικά για το πως συμβάλουν στην εξιχνίαση εγκλημάτων (έγκλημα ή παραβίαση).Εν συνεχεία, στην τρίτη ενότητα θα γίνει ανάλυση των ποιων διαδεδομένων λογισμικών κινητών συσκευών που υπάρχουν στην αγορά την συγκεκριμένη χρονική περίοδο, καθώς και πως αυτά λειτουργούν σε κάθε συσκευή μαζί με τα χαρακτηριστικά τους.Τέλος, στην τέταρτη και πέμπτη ενότητα, θα αναφερθούν μεθοδολογίες και τεχνικές για το πως γίνεται όλη η πορεία διαχείρισης ψηφιακών πειστήριων από την αρχή που είναι η συγκρότηση της ομάδας μέχρι την έκδοση αναφοράς για το έγκλημα που διαπράχτηκε , καθώς και μελέτη περίπτωσης σχετικά με την ανάλυση του εκάστοτέ λογισμικού.
Mobile application penetration testing methods and techniques
(22-02-2023) Πετρόπουλος, Γεώργιος; Petropoulos, George; Athens University of Economics and Business, Department of Informatics; Stergiopoulos, George; Gkritzalis, Dimitrios; Ntouskas, Theodoros
Η Δοκιμή Διείσδυσης είναι μια διαδικασία που χρησιμοποιείται από επαγγελματίες κυβερνοασφάλειας η οποία προσομοιώνει μια επίθεση όπως θα ήταν από την οπτική γωνία ενός κακόβουλου παράγοντα. Ο σκοπός αυτής της διαδικασίας είναι να εντοπίσει τις αδυναμίες ασφαλείας και να τις διορθώσει πριν τις βρουν κακόβουλοι παράγοντες και τις εκμεταλλευτούν. Οι στόχοι της διαδικασίας μπορεί να είναι απλές εφαρμογές ή ακόμα και ολόκληρες υποδομές. Οι εφαρμογές για φορητές συσκευές δεν διαφέρουν από άλλα προγράμματα υπολογιστών στο κομμάτι της εισαγωγής τρωτών σημείων, η εκμετάλλευση των οποίων μπορεί να οδηγήσει σε σημαντικό αντίκτυπο. Στόχος αυτής της εργασίας είναι να παρουσιάσει τις μεθόδους και τις τεχνικές που ακολουθούνται κατά τον έλεγχο εφαρμογών για κινητά για θέματα ασφάλειας, με βάση τις απαιτήσεις για ασφαλείς εφαρμογές που έχουν οριστεί από το OWASP (Open Web Application Project) Foundation ως βιομηχανικό πρότυπο. Πιο συγκεκριμένα, η δομή αποτελείται από μια σύντομη εισαγωγή στους τύπους εφαρμογών για κινητά, τη μεθοδολογία δοκιμής διείσδυσης, το μοντέλο ασφάλειας εφαρμογών για κινητά, τους κινδύνους και τους τομείς εστίασης. Ακολουθεί μια λεπτομερής αναφορά των τρόπων δοκιμής αυτών των τομέων εστίασης σύμφωνα με το OWASP, στα πλαίσια μη συγκεκριμένης πλατφόρμας, καθώς και σε συγκεκριμένης πλατφόρμας που περιλαμβάνει Android και iOS, όντας οι πιο δημοφιλείς πλατφόρμες για κινητά. Τέλος, ορισμένες περιπτώσεις των ζητημάτων ασφαλείας που μπορεί να προκύψουν επιδεικνύονται χρησιμοποιώντας ευάλωτες εφαρμογές στην πλατφόρμα Android ως στόχους. Ζητήματα ασφάλειας προκύπτουν, παρόλο που οι πλατφόρμες για κινητές συσκευές είναι πιο ασφαλείς, ειδικά όταν οι εφαρμογές δεν έχουν σχεδιαστεί σωστά. Για αυτόν το λόγο και λαμβάνοντας υπόψιν την ευρεία υιοθέτηση και χρήση τους, η ασφάλεια εφαρμογών για κινητά είναι επιτακτική.
Attack detection and digital forensics analysis in mobile Ad Hoc Networks (MANETs)
(15-02-2023) Δρούγκα, Σοφία; Drougka, Sofia; Athnes University of Economics and Business, Department of Informatics; Polyzos, George; Gkritzalis, Dimitrios; Koutsopoulos, Iordanis
Σκοπός της παρούσας πτυχιακής εργασίας είναι η εξέταση διαφόρων τύπων δικτυακών επιθέσεων και πιο συγκεκριμένα εκείνων που στοχεύουν σε Κινητά Ad Hoc Δίκτυα (MANETs), καθώς και η έγκαιρη και αποτελεσματική διερεύνηση και ανίχνευση των επιθέσεων αυτών. Τα MANETs είναι κατανεμημένα ασύρματα κινητά Ad Hoc δίκτυα που χρησιμοποιούνται σε πολλές σύγχρονες υπηρεσίες, συμπεριλαμβανομένης της τηλεϊατρικής, της άμυνας, της πλοήγησης οχημάτων και του Διαδικτύου των Πραγμάτων χάρη στα οφέλη που προσφέρουν σε σύγκριση με τα συμβατικά δίκτυα. Επιπλέον, η έρευνα έχει ως κύριο στόχο της την ανίχνευση, καθώς και τον εντοπισμό συγκεκριμένων τύπων επιθέσεων δικτύου με έγκαιρο και αποτελεσματικό τρόπο. Η ανίχνευση επιθέσεων πραγματοποιείται μετά από εκτεταμένη μελέτη της συμπεριφοράς των κόμβων που υπάρχουν στο δίκτυο, τόσο όταν βρίσκεται σε κανονική κατάσταση λειτουργίας όσο και όταν ένας ή περισσότεροι κόμβοι πραγματοποιούν επίθεση. Για όλους τους παραπάνω λόγους, στην παρούσα εργασία διεξάγεται μια ολοκληρωμένη μελέτη που αφορά το σχεδιασμό διαφόρων σεναρίων επίθεσης, αλλά και την υλοποίηση διαφόρων πειραμάτων στο δίκτυο. Πιο συγκεκριμένα, τα πειράματα αυτά αφορούν δύο κατηγορίες δικτυακών επιθέσεων, οι οποίες λαμβάνουν χώρα στο Επίπεδο Μεταφοράς του μοντέλου OSI, χρησιμοποιώντας το πρωτόκολλο TCP και UDP.Η εισαγωγή και τα επόμενα κεφάλαια αυτής της διατριβής περιλαμβάνουν περισσότερες λεπτομέρειες σχετικά με τις επιθέσεις άρνησης υπηρεσίας και τις κατανεμημένες επιθέσεις άρνησης υπηρεσίας. Επίσης, θα αξιολογηθεί η σημασία του πρωτοκόλλου OLSR, των MANETs και της λειτουργίας τους. Αξίζει να σημειωθεί ότι τα πειράματα πραγματοποιήθηκαν χρησιμοποιώντας το εργαλείο CORE Emulator, το οποίο είναι ένα λογισμικό για την δημιουργία εικονικών δικτύων και λειτουργεί ως εξομοιωτής πραγματικών δικτύων. Επιπλέον, η ανάλυση και ταυτοποίηση των επιθέσεων πραγματοποιήθηκε με τη βοήθεια μεθοδολογιών ψηφιακής εγκληματολογίας, καθώς και με τη βοήθεια του περιβάλλοντος ELK Stack. Στο τελευταίο κεφάλαιο της εργασίας, παρουσιάζεται μια πρόταση για περαιτέρω εμβάθυνση στην έρευνα όσον αφορά την δημιουργία ενός συστήματος ανίχνευσης δικτυακών επιθέσεων βασισμένο στη μηχανική μάθηση.
Route optimization for waste collectors in smart cities
Σπίνος, Αλκιβιάδης; Spinos, Alkiviadis; Athens University of Economics and Business, Department of Informatics; Dimakis, Antonios; Kalogeraki, Vana
Με τη βελτίωση της τεχνολογίας, κατέστη δυνατό να υπάρχουν περισσότερες λύσεις με στόχο τη βελτίωση της ζωής των πολιτών. Ο στόχος των έξυπνων πόλεων είναι να χρησιμοποιούν αυτές τις τεχνολογίες για την επίλυση προβλημάτων που σχετίζονται με την οικονομία, την κατανάλωση ενέργειας και την ευημερία των πολιτών. Μία από τις πτυχές που πρέπει να αντιμετωπίσουν αυτές οι έξυπνες λύσεις είναι η μείωση των εκπομπών αερίων και του κόστους λειτουργίας των απορριμματοφόρων. Χρησιμοποιώντας αισθητήρες, μπορούμε να αναβαθμίσουμε τους κάδους απορριμμάτων για να παρακολουθούμε και να ελέγχουμε την αναλογία πληρότητας του κάδου και να στέλνονται τα δεδομένα σε έναν κεντρικό διακομιστή. Ο κεντρικός διακομιστής θα χρησιμοποιεί μηχανική εκμάθηση (ML) για να υπολογίσει πότε ο κάδος θα γεμίσει και σχεδιάζει την πιο αποτελεσματική διαδρομή. Τέλος ενημερώνει τους απορριμματοσυλλέκτες και εκτελούν τα προγραμματισμένα δρομολόγια. Ο στόχος αυτής της έρευνας είναι να παρέχει μια εύκολη, βήμα προς βήμα εξήγηση της «έξυπνης διαχείρισης απορριμμάτων» και να δημιουργήσουμε έναν αλγόριθμο που υπολογίζει την πιο αποτελεσματική διαδρομή
Toxicity classification for the detection of ageism on social media
(30-12-2022) Πετεινού, Ελένη; Peteinou, Eleni; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Louridas, Panagiotis; Pavlopoulos, Ioannis
Η παρούσα διπλωματική έρευνα αφορά τον κλάδο της Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing). Πιο συγκεκριμένα, διερευνά το θέμα της Ταξινόμησης Τοξικού Λόγου (Toxicity Classification), μια διεργασία κατά την οποία ένας αλγόριθμος Μηχανικής Μάθησης, αφού εκπαιδευτεί πάνω σε σχετικά δεδομένα, καλείται να ανιχνεύσει εάν ένα κείμενο περιέχει τοξικό λόγο. Ως τοξικός λόγος νοείται οποιουδήποτε είδους λεκτική επικοινωνία χρησιμοποιεί προσβλητικό ή χυδαίο λεξιλόγιο και έχει στόχο να θίξει ή να στιγματίσει ένα άτομο ή μια κοινωνική ομάδα. Η μεγαλύτερη πρόκληση που καλούνται να αντιμετωπίσουν τα Συστήματα Ανίχνευσης Τοξικού Λόγου (Toxic Speech Detection Systems) είναι το να εντοπίσουν όχι μόνο τις πιο προφανείς μορφές τοξικότητας, που διατυπώνονται μέσω υβριστικού λεξιλογίου, αλλά και τις πιο υποδόριες εκδοχές της, οι οποίες πραγματώνονται μέσα από τη χρήση ειρωνείας και σαρκασμού ή απαιτούν γνώση περικειμενικών στοιχείων (context) μιας συνομιλίας ώστε να γίνουν κατανοητές. Ένα από τα περιβάλλοντα όπου συχνά παρατηρείται χρήση τοξικού λόγου είναι τα μέσα κοινωνικής δικτύωσης. Πλατφόρμες οι οποίες θα έπρεπε να αποτελούν σημεία ανταλλαγής γόνιμων συζητήσεων και αποδοχής της διαφορετικότητας γίνονται συχνά πεδίο ανταλλαγής κακόβουλων μηνυμάτων και λεκτικής κακοποίησης από χρήστες που επιλέγουν να εκφραστούν επιθετικά εναντίον άλλων χρηστών. Πολλές είναι οι έρευνες που έχουν επιχειρήσει να κατασκευάσουν ακριβή Συστήματα Ανίχνευσης Τοξικού Λόγου για τα μέσα κοινωνικής δικτύωσης. Στην πλειοψηφία τους, τα συστήματα αυτά είναι προσαρμοσμένα για την αγγλική γλώσσα μιας και η χρήση της είναι ιδιαίτερα δημοφιλής στο διαδίκτυο, ακόμη και από μη φυσικούς ομιλητές. Ενώ υπάρχουν και αρκετές έρευνες που εξειδικεύονται στην ανίχνευση φαινομένων τοξικού λόγου που αφορούν ένα συγκεκριμένο είδος τοξικότητας (π.χ. σεξισμός, εθνικιστικά σχόλια). Η διαφοροποίηση της παρούσας μελέτης έγκειται στο γεγονός ότι επικεντρώνεται στην ανίχνευση ενός όχι τόσο προβεβλημένου είδους τοξικού λόγου, του ηλικιακού ρατσισμού. Αν και όχι τόσο ευρέως μελετημένος όσο άλλα είδη διάκρισης, ο ηλικιακός ρατσισμός, σύμφωνα και με τον Διεθνή Οργανισμό Υγείας (World Health Organization) μετρά πολυάριθμες συνέπειες για όσους γίνονται στόχοι του. Συνεπώς, η συμβολή αυτής της έρευνας μπορεί να συνοψιστεί στα εξής σημεία: τη μελέτη ενός ιδιαίτερα επικίνδυνου είδους τοξικού λόγου, που δεν έχει μέχρι στιγμής λάβει την προσοχή που του αρμόζει, τη διερεύνηση ενός συνόλου δεδομένων (προερχόμενου από τους Fraser et al., 2022) που αφορούν τον ηλικιακό ρατσισμό και την επισημείωση ενός μικρού δείγματος από αυτά. Τέλος την παραγωγή αποτελεσμάτων που υποδηλώνουν ότι ένα Σύστημα Ανίχνευσης Τοξικού Λόγου, με ικανοποιητική απόδοση σε πιο γενικευμένες περιπτώσεις τοξικότητας, αδυνατεί να αναγνωρίσει τοξικά μηνύματα που περιέχουν ηλικιακό ρατσισμό, με αποτέλεσμα να κρίνεται χρήσιμη η δημιουργία συστημάτων, εξειδικευμένων στην ανίχνευση του συγκεκριμένου είδους.
Capstone project: AI driven minute taker
(14-12-2022) Φλούδας, Λάμπρος; Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής; Βασσάλος, Βασίλειος; Παυλόπουλος, Ιωάννης; Λουρίδας, Παναγιώτης
Στη σημερινή εποχή, για την αποτελεσματική λειτουργία επιχειρήσεων, πραγματοποιούνται πολλές συναντήσεις μεταξύ εργαζομένων στις εταιρίες καθώς και μεταξύ εταιριών με πελάτες τους. Καθένας από αυτούς πλέον λαμβάνει μέρος σε τεράστιο αριθμό συναντήσεων καθημερινά. Αυτό έχει ως αποτέλεσμα την ανάγκη για ανάπτυξη αυτόματων βοηθών συναντήσεων μέσω της χρήσης τεχνητής νοημοσύνης (ΤΝ). Αυτοί οι αυτόματοι βοηθοί είναι νέα τεχνολογία η οποία ωστόσο βρίσκει πλέον ευρεία εφαρμογή στις εταιρίες. Επιτρέπουν τη γρήγορη μεταφορά γνώσης μέσα σε οργανισμούς, ενώ παράλληλα γλιτώνουν πολύτιμο χρόνο τους εργαζομένους των εταιριών. Ο σκοπός του συγκεκριμένου Capstone ήταν να χτιστεί ένας τέτοιος βοηθός ΤΝ. Κάθε τέτοιος βοηθός ΤΝ είναι ικανός να εκτελεί πολλές λειτουργίες, δύο εκ των οποίων αποτελούν η αυτόματη περίληψη των πρακτικών των συναντήσεων και η ανάλυση συναισθημάτων των ομιλητών. Για τη δημιουργία ενός τέτοιου μοντέλου, ή Βοηθού Συναντήσεων μέσω ΤΝ, το οποίο θα εκτελεί αποτελεσματικά τις λειτουργίες αυτές θα πρέπει να ακολουθηθεί συγκεκριμένη διαδικασία. Αρχικά, θα πρέπει να αποφασιστεί ο τρόπος εισαγωγής των δεδομένων στο μοντέλο. Η εισαγωγή των δεδομένων θα μπορεί να γίνει είτε σε μορφή txt αρχείου είτε σαν κείμενο από πρακτικά των συναντήσεων. Σε συνέχεια, το μοντέλο θα παράγει αυτόματα μια σύντομη επικεφαλίδα της συνάντησης, μια περίληψη της και ανάλυση συναισθημάτων των συμμετεχόντων. Για τη δημιουργία του συγκεκριμένου μοντέλου είναι απαραίτητη η εισαγωγή δύο κύριων λειτουργιών. Της Αυτόματης Περίληψης Κειμένου και της Αυτόματης Ανάλυσης Συναισθημάτων. Υπάρχει ήδη ένας τεράστιος αριθμός εκπαιδευμένων μοντέλων τα οποία εκτελούν αποτελεσματικά τις συγκεκριμένες λειτουργίες. Ωστόσο, για την αποτελεσματικότερη και καλύτερη δυνατή λειτουργία του μοντέλου, διαφορετικά μοντέλα έπρεπε να συγκριθούν μεταξύ τους, οδηγώντας στην επιλογή του καταλληλότερου. Για την Αυτόματη περίληψη, τα μοντέλα συγκρίθηκαν μέσω του ROUGE metric, το οποίο συγκρίνει n-γράμματα και ακολουθίες λέξεων μεταξύ μιας περίληψης που έχει δοθεί σε ένα κείμενο και μιας αυτόματα παραγμένης περίληψης από κάθε μοντέλο. Όσον αφορά την Ανάλυση Συναισθημάτων, χρησιμοποιήθηκαν δύο σύνολα δεδομένων για την εκτίμηση των μοντέλων τα οποία προβλέπουν είτε αρνητικά είτε θετικά συναισθήματα, με τα Accuracy και F1 Score να συγκρίνονται για κάθε μοντέλο σε σύγκριση με ήδη δοσμένα συναισθήματα σε κάθε κείμενο ή παράγραφο. Επισημαίνεται ότι οι Transformers αποτελούν πλέον τελευταίας τεχνολογίας μοντέλα για Επεξεργασία Φυσικής Γλώσσας. Τα μοντέλα αυτά έχουν εκπαιδευτεί σε τεράστιες βάσεις δεδομένων, ενώ χρησιμοποιούν μια νέα έννοια, αυτή της «αυτοπροσοχής» (Self-attention), η οποία επιτρέπει στο μοντέλο να καταλάβει και τη συσχέτιση μεταξύ διαδοχικών στοιχείων τα οποία απέχουν μεταξύ τους, καθιστώντας ευκολότερη και ακριβέστερη την Επεξεργασία Γλώσσας. Όπως αναμενόταν, οι Transformers παράγουν τα καλύτερα αποτελέσματα και στις δύο λειτουργίες. Συγκεκριμένα, τα μοντέλα που επιλέχθηκαν ήταν ένα BERT-based μοντέλο το οποίο έχει εκπαιδευτεί επιπλέον σε δεδομένα από πρακτικά συναντήσεων και το RoBERTa για την πρόβλεψη συναισθημάτων. Έπειτα, χτίστηκε το τελικό μοντέλο με τρόπο ώστε να μπορεί να λαμβάνει και να επεξεργάζεται μέσω των συγκεκριμένων transformers οποιοδήποτε μήκος κειμένου και στη συνέχεια εξετάστηκε η λειτουργία του σε νέα, φρέσκα δεδομένα που προήλθαν από την ιστοσελίδα AMI Corpus η οποία περιέχει ένα μεγάλο αριθμό πρακτικών συναντήσεων. Παρότι η λειτουργία του μοντέλου είναι αποτελεσματική, περιέχει συγκεκριμένους περιορισμούς, οι οποίοι μπορούν να ξεπεραστούν με τη χρήση άλλων μοντέλων transformers για Speech-to-text επεξεργασία επιτρέποντας την εισαγωγή αρχείων ήχου από τις συναντήσεις και μεταφράσεις των περιλήψεων, καθώς και η δημιουργία διεπαφής χρήστη.
Compressing and accelerating the inference of transformer-based models
(29-12-2022) Μαρούδας, Στυλιανός; Maroudas, Stylianos; Athens University of Economics and Business, Department of Informatics; Markakis, Evangelos; Vassalos, Vasilios; Malakasiotis, Prodromos
Η εποχή της προεϰπαίδευσης (pre-training) ϰαι προσαρμογής (fine-tuning) τεράστιων γλωσσιϰών μοντέλων έδωσε την δυνατότητα στις επιχειρήσεις να μπορούν να επιλύουν πολύπλοϰα γλωσσιϰά προβλήματα με ευϰολία. Ωστόσο, όσον αφορά την εγϰατάσταση αυτών των μοντέλων (deployment), οι ογϰώδεις απαιτήσεις για την αποϑήϰευσή τους αυξάνουν την ανάγϰη υπολογιστιϰών πόρων σε μεγάλο βαϑμό, με άμεσο επαϰόλουϑο την επιβολή ανεπιϑύμητων οιϰονομιϰών συνεπειών. Η πρόϰληση αυτή μπορεί να αντιμετωπιστεί με τη συμπίεση μοντέλων. Στην παρούσα εργασία, πρώτα παρουσιάζονται οι τρεις πιο δημοφιλείς τεχνιϰές συμπίεσης μοντέλων, δηλαδή το ϰλάδεμα (pruning), η ϰβαντοποίηση (quantization) ϰαι η διύλιση γνώσης (knowledge distillation), ϰαϑώς ϰαι η εφαρμογή τους σε μοντέλα που βασίζονται σε μετασχηματιστές (transformers). Στη συνέχεια, αναπτύσσουμε τη Σταδιαϰή Συμπίεση, έναν ειδιϰών-προβλημάτων (task specific) αγωγό (pipeline) συμπίεσης που συνδυάζει όλες τις προαναφερϑείσες τεχνιϰές, για την δημιουργία πιο αποτελεσματιϰών (ελαφρύτερων ϰαι ταχύτερων) μοντέλων που εγϰαϑίστανται ευϰολότερα στην παραγωγή, χωρίς να ϑυσιάζεται πολύ από την αρχιϰή τους απόδοση. Αρχιϰά αξιολογούμε τον προτεινόμενο αγωγό συμπίεσης σε 5 διαφορετιϰά προβλήματα (down-stream tasks), που ϰυμαίνονται από την ϰατηγοριοποίηση εγγράφων, έως την ϰατηγοριοποίηση προτάσεων ϰαι συμβόλων (tokens). Στη συνέχεια, παρέχουμε πρόσϑετες αποδείξεις για το ότι η συμπίεση μοντέλων είναι πολύ πιο αποτελεσματιϰή από την εξαρχής (from-scratch) προεϰπαίδευση ϰαι προσαρμογή μιϰρότερων μοντέλων. Τέλος, υποστηρίζουμε ότι όταν υιοϑετείται μία σταδιαϰή αντί για μία πιο «άμεση» προσέγγιση συμπίεσης, η αντιστάϑμιση συμπίεσης/απόδοσης μπορεί να βελτιωϑεί σημαντιϰά.
Μοντελοποίηση θεατρικών αρχείων: χρήση συνδεδεμένων δεδομένων στη μηχαναγνώσιμη αναπαράσταση θεατρικής πληροφορίας
(30-01-2023) Κούρου, Βασιλική; Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής; Καπέτης, Χρυσόστομος; Μπενάρδου, Αγιάτις; Κωνσταντόπουλος, Πάνος
Η παρούσα διπλωματική εργασία ασχολείται με τη σημασιολογική διασύνδεση ψηφιακών πηγών πληροφοριών για το ελληνικό θέατρο με πυρήνα το Ψηφιοποιημένο Αρχείο του Εθνικού Θεάτρου, ώστε, με τη χρήση Συνδεδεμένων (Ανοιχτών) Δεδομένων, να δημιουργηθεί μια εικονική εγκυκλοπαιδική πηγή θεατρικών γνώσεων.Η ανάγκη για πιο εκτεταμένη χρήση των Συνδεδεμένων Δεδομένων είναι αισθητή, αν αναλογιστεί κανείς την έλλειψη συσχέτισης των δεδομένων των πολιτιστικών φορέων και τη σημασία που θα είχε για τον πολιτισμό και δη το θέατρο η διασύνδεση των πηγών στο Σημασιολογικό Ιστό.Αρχικά, μελετώνται οι υπάρχουσες ψηφιακές πηγές θεατρικών πληροφοριών και πληροφοριακές ανάγκες, των οποίων η εξυπηρέτηση θα απαιτούσε συνδυαστική πρόσβαση στο σύνολο των πηγών. Παρουσιάζεται ένα εννοιολογικό σχήμα, που δημιουργήθηκε λαμβάνοντας υπόψιν όλες τις διαθέσιμες, προς σύνδεση πληροφορίες. Συμβατό με την αντικειμενοστρεφή βιβλιοθηκονομική οντολογία FRBRoo, εναρμονισμένη με το διεθνές πρότυπο πολιτισμικής τεκμηρίωσης CIDOC CRM, το σχήμα περιλαμβάνει οντότητες και νοηματικές συσχετίσεις μεταξύ τους, ικανές να υποστηρίξουν τις πληροφοριακές ανάγκες.Εν συνεχεία, το εννοιολογικό σχήμα, κωδικοποιείται σε RDF Schema με τη βοήθεια του εργαλείου ανάπτυξης οντολογιών, Protégé. Έπειτα, σχεδιάζονται στοχευμένες επερωτήσεις στη σημασιολογική ερωτηματική γλώσσα SPARQL, οι οποίες εκφράζουν προβλεπόμενες αναζητήσεις χρηστών, με σκοπό την σύντομη επίδειξη μέρους της λειτουργικότητας της εικονικής θεατρικής «εγκυκλοπαίδειας», οι οποίες υποβάλλονται στο πρόσθετο εργαλείο του Protégé «SPARQL Query».
Positive correlations between campaigns for influence maximization
(09-12-2022) Αλχίρχ, Πάντια-Μαρίνα; Alchirch, Pantia-Marina; Athens University of Economics and Business, Department of Informatics; Markakis, Evangelos; Toumpis, Stavros; Kalogeraki, Vana
Διαφημιστικές και πολιτικές καμπάνιες χρησιμοποιούνται ευρέως στα Μέσα Κοινωνικής Δικτύωσης με στόχο να επηρεάσουν τους χρήστες αυτών των πλατφορμών στο να αγοράσουν τα προϊόντα τους ή να υιοθετήσουν τις πολιτικές τους ιδέες και στάσεις. Αυτές οι καμπάνιες συχνά μοιράζονται μια πληθώρα χαρακτηριστικών, όπως το ίδιο κοινό που έχουν ως στόχο ως προς την ηλικία, το φύλο και τις προτιμήσεις. Σε αυτή την διατριβή, εκμεταλλευόμαστε αυτά τα κοινά χαρακτηριστικά και προσπαθούμε να βρούμε πιθανές συσχετίσεις, οι οποίες εντέλει θα βοηθήσουν στη μεγιστοποίηση της επιρροής που ασκούν αυτές οι καμπάνιες στο κοινό. Γι’ αυτό, υλοποιήσαμε έναν εκθετικό μηχανισμό που βρίσκει τα καλύτερα υποσύνολα από καμπάνιες όσον αφορά τις συχετίσεις μεταξύ τους, ενώ παράλληλα εκτελούμε μια διαδικασία εύρεσης πολλαπλών χρηστών. Ο όρος ”πολλαπλών” εδώ αναφέρεται στο γεγονός ότι επιλέγουμε έναν αριθμό n από υποψήφιους διάσημους χρήστες, όπου ο αριθμός n, έχει ήδη προέλθει από τον αριθμό των πιθανών υποσυνόλων από καμπάνιες. Ο αριθμός n είναι αποτέλεσμα του μηχανισμού της συσχέτισης των καμπανιών. Ακόμα, υλοποιούμε έναν μηχανισμό που μιμείται το Minimum Set Cover πρόβλημα, με σκοπό να αναθέσουμε κάθε υποσύνολο από καμπάνιες στον πιο κατάλληλο υποψήφιο, σύμφωνα με τα κοινά τους χαρακτηριστικά καθώς και ενός δοθέντος προϋπολογισμού B. Συνεπώς, ασχολούμαστε με το πρόβλημα της Μεγιστοποίησης της Επιρροής σε ένα περιβάλλον με πολλαπλές καμπάνιες και πολλαπλούς χρήστες και παρουσιάζουμε τα πειραματικά μας αποτελέσματα.
Simulation and analysis of cyberattacks in smart grid environments
(15-01-2023) Κάντας, Παναγιώτης; Kantas, Panagiotis; Athens University of Economics and Business, Department of Informatics; Stergiopoulos, George; Ntouskas, Theodoros; Gkritzalis, Dimitrios
Το ηλεκτρικό δίκτυο είναι το σύνθετο σύστημα που έχει σχεδιαστεί για να παρέχει ηλεκτρική ενέργεια από το σημείο παραγωγής στους καταναλωτές. Οι συνεχώς μεταβαλλόμενες απαιτήσεις κατανάλωσης ενέργειας καθώς και η τεχνολογική εξέλιξη, επιβάλλουν και ανοίγουν το δρόμο για την αναβάθμιση του ηλεκτρικού δικτύου. Η λύση στο προαναφερθέν ζήτημα ονομάζεται «Έξυπνο Δίκτυο», το οποίο είναι μια εκσυγχρονισμένη και ψηφιοποιημένη αναβάθμιση του τρέχοντος ηλεκτρικού δικτύου. Σκοπός της παρούσας διπλωματικής εργασίας είναι να παράσχει μια ανάλυση της αρχιτεκτονικής του Έξυπνου Δικτύου, των βασικών στοιχείων και των τεχνολογιών του, διερευνώντας παράλληλα τις διάφορες απειλές, τρωτά σημεία και επιθέσεις στον κυβερνοχώρο που στοχεύουν τέτοιες υποδομές. Επιπλέον, προτείνουμε πρακτικές και μέτρα ασφάλειας στον κυβερνοχώρο προκειμένου να μειωθεί η επιφάνεια επίθεσης. Τέλος, προσομοιώνουμε τις συνθήκες ενός περιβάλλοντος Έξυπνου Δικτύου, αναλύοντας περιπτώσεις χρήσης που περιγράφουν διαφορετικά σενάρια λειτουργίας του Έξυπνου Δικτύου και αναπτύσσοντας διαγράμματα ροής δεδομένων για κάθε περίπτωση χρήσης.
Electricity consumption timeseries forecasting: statistical, machine and deep learning methods
(13-12-2022) Κουμεντάκος, Άγις-Γεώργιος; Koumentakos, Agis-Georgios; Athens University of Economics and Business, Department of Informatics; Pavlopoulos, Ioannis; Papastamoulis, Panagiotis; Vassalos, Vasilios
Η καθυστέρηση της εξάπλωσης των έξυπνων μετρητών στους καταναλωτές χαμηλής τάσης πανευρωπαϊκά, παρατείνει το πρόβλημα πρόβλεψης της κατανάλωσης ηλεκτρικής ενέργειας. Ανάμεσα στους άμεσα επηρεαζόμενους βρίσκονται και οι προμηθευτές ηλεκτρικής ενέργειας της Λιανικής Αγοράς (Προμηθευτές), οι οποίοι προμηθεύουν με ρεύμα τους τελικούς καταναλωτές. Η παρούσα μελέτη αναπτύσσει ένα μοντέλο πρόβλεψης της μηνιαίας κατανάλωσης ηλεκτρικής ενέργειας για τον μεγαλύτερο Προμηθευτή στην Ελληνική Δημοκρατία (Ελλάδα). Ο Προμηθευτής διαθέτει ένα χαρτοφυλάκιο με περισσότερους από 4,6 εκατομμύρια μετρητές (παροχές), οι οποίοι επί του παρόντος τιμολογούνται κάθε δύο μήνες με βάση τις εκτιμήσεις κατανάλωσης και κάθε τέσσερις μήνες με βάση τη μέτρηση του Διαχειριστή του Ελληνικού Συστήματος Διανομής (ΔΣΔ). Ελλείψει έξυπνων μετρητών, τα πραγματικά δεδομένα κατανάλωσης είναι διαθέσιμα μόνο μέσω της επιτόπιας καταμέτρησης από κλιμάκια του ΔΣΔ. Ως αποτέλεσμα τα δεδομένα αποτελούνται από καταμετρήσεις που ποικίλουν τόσο ως προς την περίοδο αναφοράς όσο και ως προς τη διάρκεια της περιόδου αυτής για κάθε καταναλωτή. Σε αντίθεση με την πλειονότητα της υπάρχουσας βιβλιογραφίας, σχετικά με την πρόβλεψη χρονοσειρών κατανάλωσης ηλεκτρικής ενέργειας, η οποία είτε κάνει πρόβλεψη μιας μονοδιάστατης χρονοσειράς, είτε πολλών ‘παράλληλων’ χρονοσειρών με τι μορφή μίας πολυδιάστατης χρονοσειράς, η παρούσα μελέτη χρησιμοποιεί τη μέθοδο των πολλαπλών μονοδιάστατων / πολυδιάστατων χρονοσειρών. Αυτή η μέθοδος δίνει την δυνατότητα της εκπαίδευσης ενός μοντέλου επί πολλαπλών χρονοσειρών διαφορετικού μεγέθους και περιόδου αναφοράς, καθιστώντας την ιδανική για το παρόν πρόβλημα. Το πρόβλημα μοντελοποιείται ως πρόβλεψη πολλαπλών χρονοσειρών (multiple timeseries) μηνιαίων δεδομένων κατανάλωσης ηλεκτρικής ενέργειας, σε δείγμα περίπου εννέα χιλιάδων πραγματικών καταναλωτών, με δεδομένα κατανάλωσης από το 2018 έως το 2022. Η ανάγκη του Προμηθευτή για μηνιαίες προβλέψεις, συν του γεγονότος ότι οι μετρήσεις γίνονται αθροιστικά σε τετραμηνιαίες περιόδους, απαιτεί την επαύξηση-μετασχηματισμό (augmentation) των αρχικών δεδομένων σε μηνιαία. Η παρούσα μελέτη εξετάζει τόσο τις κλασικές μεθόδους στατιστικής, όσο και αυτές της μηχανικής μάθησης (MM) και της βαθιάς μάθησης (BM). Τα αποτελέσματα δείχνουν ότι ένα μοντέλο πολλαπλών μονοδιάστατων χρονοσειρών LightGBM, ξεπερνά το υπάρχον μοντέλο του ΔΣΔ, καθώς και μοντέλα μηχανικής και βαθιάς μάθησης, επιτυγχάνοντας περίπου 23% και 14% βελτίωση της πρόβλεψης όσον αφορά τις μετρικές RMSE και MAPE αντίστοιχα, σε εκτός δείγματος δεδομένα. Επιπλέον, τα αποτελέσματα υποδεικνύουν ότι τα μοντέλα πολλαπλών χρονοσειρών επιτυγχάνουν καλύτερες επιδόσεις, από τα μοντέλα μονής χρονοσειράς, τόσο όσον αφορά τις προβλέψεις δεδομένων εκτός δείγματος όσο και στον χρόνο εκτέλεσης (συμπεριλαμβανομένων των χρόνων εκπαίδευσης και πρόβλεψης).
Product sales estimation in online shops
(13-12-2022) Φασουλής, Αναστάσιος-Θεοφάνης; Fasoulis, Anastasios-Theofanis; Athens University of Economics and Business, Department of Informatics; Ntzoufras, Ioannis; Vassalos, Vasilios; Karlis, Dimitrios
Η πρόβλεψη πωλήσεων των προϊόντων είναι ένα θέμα που παρουσιάζει μεγάλο ενδιαφέρον τόσο στην ακαδημαϊκή όσο και στην εμπορική κοινότητα. Ειδικότερα τα τελευταία χρόνια, η τεράστια ανάπτυξη του ηλεκτρονικού εμπορίου σε συνδυασμό με τον συνεχώς αυξανόμενο όγκο δεδομένων που είναι διαθέσιμα, έχουν μετατρέψει την εύρεση ενός αποδοτικού μοντέλου πρόβλεψης πωλήσεων σε ένα αρκετά απαιτητικό πρόβλημα. Σκοπός της παρούσας διπλωματικής είναι να υλοποιήσει έναν αλγόριθμο μηχανικής μάθησης που θα προβλέπει τις ημερήσιες πωλήσεις ενός προϊόντος, χρησιμοποιώντας διάφορες επεξηγηματικές μεταβλητές. Μια σημαντική πτυχή της συγκεκριμένης μελέτης, είναι ότι για κάποια προϊόντα δεν υπάρχουν πραγματικά δεδομένα για τις πωλήσεις τους. Αυτό σημαίνει, ότι η πρόβλεψη θα πρέπει να στηριχθεί εξ ολοκλήρου στις υπόλοιπες μεταβλητές που είναι διαθέσιμες. Επιπλέον, ένα ακόμη ενδιαφέρον ζήτημα που ανακύπτει από τη συγκεκριμένη συνθήκη είναι η εύρεση ενός τρόπου για να αξιολογηθούν έμμεσα οι προβλέψεις για αυτά τα προϊόντα. Διάφορα μοντέλα γραμμικής παλινδρόμησης καθώς και δύο νευρωνικά δίκτυα (ένα με feed forward MLP νευρώνες και ένα με LSTM νευρώνες) εφαρμόστηκαν και αξιολογήθηκαν. Επίσης, τα προϊόντα ομαδοποιήθηκαν χρησιμοποιώντας τον αλγόριθμο K-Means με την Dynamic Time Warping (DTW) ως συνάρτηση απόστασης και εξετάστηκε η επίδραση της ομαδοποίησης στις προβλέψεις. Τέλος, ένας έμμεσος τρόπος αξιολόγησης των προβλέψεων για προϊόντα χωρίς πραγματικές πωλήσεις προτείνεται, συγκρίνοντας τις προβλέψεις με την μείωση του αποθέματος κατά την ίδια χρονική περίοδο. Τα αποτελέσματα έδειξαν ότι το μοντέλο γραμμικής παλινδρόμησης και το MLP έχουν παρόμοια συμπεριφορά, δίνοντας προβλέψεις με χαμηλή μεταβλητότητα, ενώ το μοντέλο που χρησιμοποιεί LSTM νευρώνες είχε καλύτερη απόδοση σε περιόδους όπου αναμένονται υψηλότερες πωλήσεις.
Computational analysis of Greek Parliamentary Minutes of the period 1946-1947
(13-12-2022) Μπαρμπούνης, Επαμεινώνδας-Κωνσταντίνος; Barmpounis, Epameinondas-Konstantinos; Athens University of Economics and Business, Department of Informatics; Androutsopoulos, Ion; Louridas, Panagiotis; Pavlopoulos, Ioannis
Σκοπός της παρούσας μεταπτυχιακής εργασίας είναι να μελετηθεί η αποδοχή του κοινού της Βουλής των Ελλήνων στα λεχθέντα των από του βουλευτικού βήματος ρητόρων κατά τη διάρκεια των ετών 1946 και 1947. Οι στόχοι είναι πολλαπλοί. Αρχικά επιδιώκεται η δημιουργία ενός μηχαναγνώσιμου corpus κειμένων που θα αποτελείται από τα ίδια τα πρακτικά. Δεύτερον η καταγραφή των ονομάτων των ρητόρων που με τα λόγια τους και με τα θέματα που προσέγγισαν προκάλεσαν την αποδοχή της Βουλής. Τελικά η καταγραφή των ίδιων των θεμάτων που φαίνεται να αποδέχεται (συνήθως με ενθουσιασμό), το κοινό. Σε μια τόσο τεταμένη και ασταθή περίοδο όσο αυτή των πρώτων μεταπολεμικών χρόνων, η ένταξη των θεμάτων αυτών στον ιστορικό χρόνο που προσεγγίζεται, βοηθά στην ευρύτερη κατανόηση της κοινωνίας της περιόδου. Ύστερα τα ονόματα των βουλευτών βοηθούν στην κατανόηση των θέσεων των διάφορων κομμάτων της περιόδου. Για τον πρώτο στόχο χρησιμοποιήθηκαν πρακτικά της Βουλής που υπάρχουν στο διαδίκτυο σε μορφή PDF, και τα οποία μεταφορτώθηκαν μαζικά από την ιστοσελίδα της Βιβλιοθήκης της Βουλής με χρήση κώδικα (scraper). Σε αυτά εφαρμόστηκε OCR για την εξαγωγή του κειμένου. Για τον δεύτερο και τον τρίτο στόχο αξιοποιήθηκαν τεχνικές Επεξεργασίας Φυσικής Γλώσσας.
Automatic detection of sections and paragraphs in legal documents
(14-12-2022) Βλάχος, Χρήστος; Vlachos, Christos; Athens University of Economics and Business, Department of Informatics; Kotidis, Yannis; Vassalos, Vasilios; Androutsopoulos, Ion
Η ανάλυση εγγράφων είναι μία διαδικασία που εστιάζει στην επεξεργασία εγγράφων, με σκοπό να εξάγει λεπτομέρειες που σχετίζονται με πληροφορίες όπως συναλλαγές, εμπλεκόμενα μέλη, στόχους κ.λπ. Πρόκειται για ένα θέμα, όλο και ποιο επίκαιρο στη σύγχρονη κοινωνία, λόγω της αυξανόμενης ανάγκης για μία γρήγορη, εύκολη και σαφή επεξήγηση των περιεχομένων τους, όπως στη περίπτωση των νομικών εγγράφων. Όμως, η χρήση τεχνικών Βαθιάς Μάθησης, οι οποίες θα μπορούσαν να απλοποιήσουν διαδικασίες όπως η ανάλυση διάταξης, η ταξινόμηση τομέων, κ.λπ., αποτελεί ένα σχετικά πρόσφατο θέμα. Μέχρι πρότινος, η ανάλυση εγγράφων γινόταν κατά κύριο λόγο χειρωνακτικά ή μέσω χρήσης προκαθορισμένων κανόνων. Στην παρούσα εργασία χρησιμοποιούνται τεχνικές Βαθιάς Μάθησης για την ολοκλήρωση δύο έργων σχετικών με την ανάλυση εγγράφων. Το πρώτο αφορά τον εντοπισμό παραγράφων και τίτλων σε εικόνες νομικών εγγράφων με τη χρήση τεχνικών Υπολογιστικής Όρασης και Επεξεργασίας Φυσικής Γλώσσας. Για τους σκοπούς του, έμφαση θα δοθεί σε δύο μοντέλα Υπολογιστικής Όρασης, συγκεκριμένα στα YOLOv5 και RetinaNet, τα οποία θα εκπαιδευτούν στον εντοπισμό συγκεκριμένων περιοχών κειμένου. Μετά τη διαδικασία εντοπισμού θα ακολουθήσει ένα βήμα µετα-επεξεργασίας κατά το οποίο οι περιοχές κειμένου θα ταξινομηθούν επιπλέον σε μία από τις κατηγορίες "παράγραφος" ή "τίτλος", μέσω εφαρμογής μίας απλής προσέγγισης Επεξεργασίας Φυσικής Γλώσσας με τη χρήση κανόνων. Το δεύτερο έργο σχετίζεται µε την ταξινόμηση ζωνών κειμένων. Για την επίτευξη του, δύο μοντέλα Επεξεργασίας Φυσικής Γλώσσας θα εκπαιδευτούν. Αυτά τα μοντέλα περιλαμβάνουν το RoBERTa καθώς και ένα ιεραρχικό. Το ιεραρχικό μοντέλο θα βασιστεί στις προβλέψεις του RoBERTa και θα προσπαθήσει να βελτιώσει περεταίρω τα αποτελέσματα του, συνδυάζοντάς τες με ένα επιπλέον μοντέλο. Στη διπλωματική αυτή, λεπτομέρειες θα δοθούν σχετικά με τα δεδομένα που χρησιμοποιήθηκαν, τη μεθοδολογία που ακολουθήθηκε και τα αποτελέσματα του εκάστοτε μοντέλου, σε συνδυασμό με τις δυνατότητές τους. Τέλος, επιπλέον πιθανές βελτιώσεις ή εναλλακτικές θα προταθούν.
Voice of your customer analytics: gather customer's feedback and turn it into valuable data and insights at scale
(30-11-2022) Κωνσταντινίδης, Νικόλαος; Konstantinidis, Nikolaos; Athens University of Economics and Business, Department of Informatics; Ntzoufras, Ioannis; Repoussis, Panagiotis
Υπάρχουν πολλοί τρόποι να αποκτηθούν σχόλια πελατών, αλλά έτσι προκύπτει ανάγκη αποτελεσματικού τρόπου χρήσης τους. Εδώ παρουσιάζεται το πρόβλημα της πιθανής ύπαρξης μεγάλου όγκου δεδομένων, καθιστώντας αδύνατη τη χειροκίνητη επεξεργασία και μελέτη τους, ώστε να φτάσει σε ορθές επιχειρηματικές αποφάσεις. Το Voice of Customer Analytics στοχεύει να λύσει ακριβώς αυτό. Με τη χρήση τεχνικών μηχανικής μάθησης είναι δυνατό να απλοποιηθούν και να κατανοηθούν μεγάλος όγκος δεδομένων και να γίνει εξαγωγή γνώσης μέσα από αυτά. Τα δεδομένα που θα χρησιμοποιηθούν μπορεί να έχουν διάφορες μορφές. Μπορούν να είναι βαθμολογίες σε κάποιο ερωτηματολόγιο ή γραπτές κριτικές ή ακόμα και ηχογραφημένες κλήσεις και μηνύματα. Στην περίπτωσή μας, τα δεδομένα ήταν κριτικές για μία εταιρεία λιανικού εμπορίου και ηλεκτρονικού λιανικού εμπορίου από διάφορες ιστοσελίδες. Η συλλογή τους έγινε με χρήση της γλώσσας προγραμματισμού Python και της βιβλιοθήκης Selenium. Δεν συλλέχθηκαν αναγνωριστικά χρηστών που σχετίζονται με τους ιστότοπους, επομένως δεν γίνεται να αναγνωριστεί κάποιος από τους χρήστες που έγραψαν τις κριτικές μέσω αυτών.Το επόμενο βήμα ήταν η ανάλυση των δεδομένων προκειμένου να αναγνωριστούν τα συναισθήματα και οι σκέψεις των καταναλωτών σχετικά με τη συγκεκριμένη επιχείρηση λιανικού εμπορίου και την εμπειρία τους με αυτή. Για να επιτευχθεί αυτό, η μετάφραση των σχολίων στα αγγλικά βοήθησε πολύ, γιατί μετέτρεψε τα δεδομένα από πολύγλωσσα σε μονόγλωσσα. Έπειτα, η μαθηματική απεικόνιση των προτάσεων των κριτικών επέτρεψε την εύρεση των πιο τυπικών θεμάτων για τα οποία μιλάει ο κόσμος να γίνει με μέθοδο βασισμένη σε γράφο. Η ανάλυση έδωσε χρήσιμες πληροφορίες ως προς το ποια τμήματα της επιχειρησιακής δραστηριότητας της εταιρείας «Πλαίσιο» αφήνουν θετική εντύπωση στους πελάτες και ποια καταλήγουν σε παράπονα. Από επιχειρηματική άποψη, αυτό σημαίνει ότι η ανάλυση μπορεί να δείξει στην επιχείρηση ποια μέρη του τρόπου λειτουργίας της χρήζουν αλλαγών προκειμένου να προσελκύσουν περισσότερους πελάτες μέσω της καλής εμπειρίας που θα παρέχει δε αυτούς.
Product matching via supervised machine learning techniques
(14-12-2022) Παπαδόπουλος, Νικόλαος; Papadopoulos, Nikolaos; Athens University of Economics and Business, Department of Informatics; Koutroumbas, Konstantinos; Vassalos, Vasilios; Repoussis, Panagiotis
Στον τομέα του ηλεκτρονικού επιχειρείν και της παροχής συμβουλών, η καθημερινή ανάλυση μεγάλου όγκου πληροφοριών είναι απαραίτητη για την εξαγωγή συμπερασμάτων και την διερμηνεία καταστάσεων. Παρόλο που το ίδιο προϊόν μπορεί να περιγράφεται διαφορετικά από πολλούς πωλητές (retailers), είναι απαραίτητη η σύνδεση των διαφορετικών ερμηνειών/αναφορών ενός προϊόντος σε μια ενιαία οντότητα για μια επιτυχή ανάλυση. Σε αυτή τη διατριβή, έχουμε πειραματιστεί στη δημιουργία ενός αλγορίθμου και μοντέλου για να λύσουμε το πρόβλημα αντιστοίχισης προϊόντων (Product Matching). Για αυτό τον σκοπό, μας παρέχεται ένα σύνολο δεδομένων που αποτελείται από πολλά προϊόντα και την πραγματική αντιστοίχιση με ένα προϊόν στη βάση δεδομένων της εταιρείας. Αρχικά επιχειρούμε να προσεγγίσουμε το πρόβλημα ως πρόβλημα ταξινόμησης πολλαπλών κλάσεων, όπου κάθε προϊόν στα δεδομένα μας (Κομμάτι της βάσης δεδομένων της εταιρείας) έχει ένα μοναδικό αναγνωριστικό που χρησιμεύει ως τιμή στόχος για έναν ταξινομητή που χρησιμοποιεί το TF-IDF ως τεχνική εκπροσώπησης λέξεων. Οι αλγόριθμοι μηχανικής εκμάθησης που χρησιμοποιήθηκαν ήταν οι : Random Forest Classifier, KNearestNeigbors και RadiusNearestNeighbors. Τα αποτελέσματα της προσπάθειάς να λύσουμε το πρόβλημα ως εργασία ταξινόμησης πολλαπλών ετικετών δεν είναι ικανοποιητικά και δεδομένου ότι νέα προϊόντα εισάγονται καθημερινά, θα είναι ακόμη πιο δύσκολο να εκπαιδεύουμε πάλι τον ταξινομητή όταν λαμβάνουμε νέα προϊόντα κάτι που το καθιστά δύσκολο για να είναι η λύση στο πρόβλημα μας. Έπειτα, προσεγγίζουμε το πρόβλημα σαν ένα πρόβλημα της σύγκρισης προϊόντων ανά ζευγάρια (Με αποτέλεσμα 1 αν αντιπροσωπεύουν το ίδιο προϊόν ή 0 αν όχι) και εφαρμόζουμε ένα σχήμα ομαδοποίησης που βασίζεται στην επωνυμία του προϊόντος που εξάγουμε χρησιμοποιώντας το κείμενο της περιγραφής με έναν προσαρμοσμένο αλγόριθμο δημιουργίας μας. Με αυτό τον τρόπο αποφεύγουμε την σύγκριση κάθε προϊόντος με όλα τα προϊόντα της βάσης (τετραγωνική πολυπλοκότητα) και βάση αυτού, είμαστε σε θέση να εκχωρήσουμε σε οποιοδήποτε νέο προϊόν, τους πιθανούς υποψηφίους του από τη βάση δεδομένων μας. Έτσι, από ένα σύνολο δεδομένων (αρχικά δεδομένα) που αποτελούνταν μόνο από αντιστοιχίσεις, δημιουργήσαμε ένα εξαιρετικά ανισόρροπο σύνολο δεδομένων, που όμως μοιάζει με το πραγματικό σενάριο, με αντιστοιχίσεις και μη αντιστοιχίσεις που θα χρησιμοποιηθούν για εκπαίδευση των μοντέλων βαθιάς μάθησης. Σαν βάση απόδοσης (baseline) χρησιμοποιούμε μια βιβλιοθήκη που σχετίζεται με την ομοιότητα κειμένου σε επίπεδο λέξεων (Βασίζεται στην απόσταση Levenshtein). Στη συνέχεια, κατασκευάζουμε ένα Siamese BiLSTM δίκτυο και προσθέτουμε ένα προσαρμοσμένο νευρωνικό δίκτυο που λαμβάνει μια βαθμολογία ομοιότητας το οποίο, σε συνδυασμό με το πρώτο, θα καθορίζει εάν το ζευγάρι περιγραφών αναφέρεται στο ίδιο προϊόν. Για την τελική μας στρατηγική, χρησιμοποιούμε μοντέλα που βασίζονται σε μετασχηματιστές (transformers), συγκεκριμένα τα GreekBERT, και XLM-RoBERTa και μια προσαρμογή αυτών με προσαρμοσμένη κεφαλή ταξινόμησης (custom classification head) τα οποία αποτελούν βελτιώσεις σε σχέση με την προηγούμενη πρόταση, με το προσαρμοσμένο μοντέλο να καταλαμβάνει την πρώτη θέση σύμφωνα με τις μετρήσεις αξιολόγησής μας. Διεξάγοντας πολλές δοκιμές με διαφορετικές μεθόδους και μοντέλα σε μια προσπάθεια να αντιμετωπίσουμε το πρόβλημα αντιστοίχισης προϊόντων, μπορούμε να συμπεράνουμε ότι η προσέγγιση του προβλήματος ως ένα πρόβλημα δυαδικής ταξινόμησης (Binary Classification) και η υιοθέτηση των τεράστιων μοντέλων γλώσσας φαίνεται γενικά να είναι η βέλτιστη επιλογή. Τέλος, δείχνουμε πως η δημιουργία ενός προσαρμοσμένου επιπέδου ταξινόμησης (custom layer) μπορεί να βοηθήσει στη βελτίωση των επιδόσεων των μοντέλων.
Exploring machine learning approaches to decide how to position slot games on a website to maximize performance
(14-12-2022) Σταύρου, Ανδρέας; Stavrou, Andreas; Athens University of Economics and Business, Department of Informatics; Repoussis, Panagiotis; Vassalos, Vasilios; Lappas, Theodoros
Η τοποθέτηση προϊόντων έχει καταστεί ένας ολοένα και αυξανόμενος σημαντικός τρόπος για τις εταιρίες με σκοπό να προσεγγίσουν το κοινό τους με διακριτικούς τρόπους. Οργανισμοί χρησιμοποιούν την τοποθέτηση προϊόντων για να αυξήσουν τις πωλήσεις, την αναγνωρισιμότητα, και να προσελκύσουν πελάτες – όλα αυτά χωρίς «παραδοσιακές» διαφημίσεις. Είναι η τέχνη του να καθορίζεις που θα εμφανιστούν τα προϊόντα σε ένα φυσικό κατάστημα ή σε μία ιστοσελίδα μέσω της οργάνωσης, διαπραγμάτευσης και σχεδιασμού. Μελέτες της συμπεριφορικής επιστήμης δείχνουν ότι η σωστή τοποθέτηση προϊόντων μπορεί να έχει θετική επίδραση στην επίδοση προϊόντων και στην αναγνωρισιμότητα των εταιριών. Το ερώτημα είναι, έχουμε τη δυνατότητα να ανακαλύψουμε τη βέλτιστη θέση που πρέπει να τοποθετηθεί ένα προϊόν ώστε να προσελκύσει περισσότερους από το αναμενόμενο πελάτες; Στην παρούσα διπλωματική, ερευνήθηκαν αρκετές προσεγγίσεις μηχανικής μάθησης για να αναγνωρίσουν την καλύτερη θέση ενός παιχνιδιού σε κάποια ιστοσελίδα, με σκοπό την μεγιστοποίηση του τζίρου, του αριθμού των στοιχημάτων και την αφοσίωση του πελάτη.Για να επιτευχθούν τα παραπάνω, εφαρμόστηκε μία μέθοδο τριών σημείων. Σαν μία στοιχειώδη εισαγωγή, το πρώτο σημείο αφορά την χρήση διάφορων αλγορίθμων με σκοπό εκτίμηση του τζίρου ενός παιχνιδιού βασιζόμενη στα μοναδικά χαρακτηριστικά του και στη θέση του. Ακολούθως, το δεύτερο σημείο είναι η αναγνώριση των βασικών χαρακτηριστικών που επηρεάζουν την απόφαση του αλγόριθμου με σκοπό την δημιουργία ενός καναλιού που θα εξάγει αναλυτική εξήγηση της σπουδαιότητας των συντελεστών. Στο τελευταίο σημείο, χρησιμοποιήθηκαν επεξηγήσεις counterfactuals οι οποίες συνδυαστικά με τον αλγόριθμο του πρώτου σημείου αποτελούν το σύστημα που θα προτείνει την κατάλληλη θέση κάθε παιχνιδιού δοσμένου ενός συγκεκριμένου στόχου.Αυτή η διπλωματική εργασία χωρίζεται σε τρία μέρη, το καθένα του οποίου αναλύει καθένα από τα τρία σημεία που αναφέρθηκαν παραπάνω.
Conflict detection in music knowledge graph: a study on deep learning with large graphs
(14-12-2022) Δουδός, Παναγιώτης; Doudos, Panagiotis; Athens University of Economics and Business, Department of Informatics; Pavlopoulos, Ioannis; Vassalos, Vasilios; Louridas, Panagiotis
΄Ενα από τα σημαντικότερα ζητήματα στη μουσική βιομηχανία είναι η σωστη διαχείριση διενέξεων για θέματα πνευματικών δικαιωμάτων. Η λανθασμένη συσχέτιση των τραγουδιών με μουσικές συνθέσεις αποτελεί αποτελεί ένα διαχρονικό πρόβλημα της μουσικής βιομηχανίας. Τόσο οι ηχογραφήσεις όσο και άλλοι παράγοντες της μουσικής βιομηχανίας μπορούν να αναπαρασταθούν ως ένας γράφος συσχέτισης μεγάλης κλίμακας. Με βάση αυτόν, αυτή η διπλωματική εργασία επικεντρώνεται στην πρόβλεψη των κόμβων-ηχογραφήσεων οι οποίοι θα γίνουν αντικείμενα τέτοιων διενέξεων, με βάση μόνο κάποια δομικά χαρακτηριστικά του γράφου. Μέθοδοι βαθειάς μάθησης με χρήση γράφων χρησιμοποιούνται στην προσέγγιση του προβλήματος, σε τρία επίπεδα πολυπλοκότητας, με το κάθε ένα να χρειάζεται περισσότερους υπολογιστικούς πόρους από το προηγούμενο. Για τα πρώτα δυο επίπεδα χρησιμοποιούνται αυτοσχέδια χαρακτηριστικά εκπαιδευσης, ενώ το τρίτο εκμεταλλεύεται τη μέθοδο αλγευρικής αναπαράστασης των κόμβων (node embeddings) για την αλγοριθμική παραγωγή χαρακτηριστικών. Με βάση την αποτελεσματικότητα των τελευταίων, θα γίνει μια σύντομη κριτική στις δημοφιλείς μεθόδους παραγωγής embeddings και σε τυχόν ζητήματα στη φύση των αλγορίθμων που τα παράγουν.
Διερεύνηση, σχεδιασμός και ανάπτυξη επιστολικών βάσεων δεδομένων: τα επιστολικά σώματα κειμένων της Δημοκρατίας των Γραμμάτων και η περίπτωση της αλληλογραφίας του Αδαμάντιου Κοραή
Πετικάς, Βασίλης; Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής; Παπαθεοδώρου Χρήστος; Μπουσές, Σταμάτης; Κωνσταντόπουλος, Πάνος
Τα τελευταία είκοσι χρόνια έχουν πραγματοποιηθεί σημαντικές ερευνητικές προσπάθειες γύρω από τη μελέτη ποικίλων φαινομένων του Ευρωπαϊκού Διαφωτισμού με τη χρήση υπολογιστικών εργαλείων και ψηφιακών μέσων. Η συσσώρευση τεράστιων όγκων δεδομένων, μεταξύ αυτών και επιστολικών, αναμφίβολα οδήγησε τους μελετητές και τις μελετήτριες των πεδίων των ανθρωπιστικών και κοινωνικών επιστημών στην αναζήτηση καινοτόμων τεχνικών και μεθοδολογιών με σκοπό τη μελέτη της πνευματικής ιστορίας της πρώιμης νεωτερικότητας. Μια από τις πρωτοβουλίες των εμπλεκόμενων στο αναδυόμενο πεδίο των ψηφιακών ανθρωπιστικών επιστημών ήταν και η οργάνωση σημαντικών ψηφιακών επιστολικών βάσεων δεδομένων με στόχο τη διερεύνηση της δράσης εκατοντάδων χιλιάδων προσωπικοτήτων, κοινοτήτων, θεσμών και οργανισμών σε μικροϊστορικό και μακροϊστορικό επίπεδο και την πολυεπίπεδη ανάδειξη των σχέσεων τους στον πολιτισμικό σχηματισμό της Δημοκρατίας των Γραμμάτων. Εκκινώντας από τη διερεύνηση των δυνατοτήτων των διεθνών ερευνητικών εγχειρημάτων οργάνωσης, σχεδιασμού και κατασκευής επιστολικών βάσεων δεδομένων, κύριος σκοπός της παρούσας εργασίας είναι η σχεδίαση ενός εννοιολογικού σχήματος και η υλοποίηση μιας επιστολικής βάσης δεδομένων για την Αλληλογραφία του Αδαμάντιου Κοραή (1748-1833), του σπουδαιότερου Έλληνα Διαφωτιστή. Ελλείψει μιας προϋπάρχουσας ψηφιακής βάσης, η προσπάθειά μας βασίζεται σε δυο άξονες: πρωταρχικά στην ανάδειξη των σημαντικότερων δεδομένων και μεταδεδομένων που απαιτούνται για τη δημιουργία μιας επαρκούς επιστολικής βάσης δεδομένων, ώστε να καθίστανται λειτουργικά, διαλειτουργικά και επαναχρησιμοποιήσιμα σύμφωνα με τα διεθνή πρότυπα, και δευτερευόντως στην υλοποίηση και στον εμπλουτισμό ενός σημασιολογικού μοντέλου αρχειακής τεκμηρίωσης, αξιοποιώντας ως βάση τις δυνατότητες που προσφέρουν το πρότυπο αρχειακής πολιτισμικής τεκμηρίωσης CIDOC-CRM, η προσωπογραφική επέκτασή του Bio-CRM και τα φιλανδικής προέλευσης οντολογικά σχήματα Sampo. Ο σχεδιασμός της νέας οντολογίας πραγματοποιείται με την αρωγή του εργαλείου Protégé, εντός του οποίου υλοποιείται μια δοκιμαστική επιστολική βάση δεδομένων, στοχεύοντας στην ανάδειξη της λειτουργικότητας του μοντέλου και της ικανότητάς του να υποστηρίζει ερευνητικούς σκοπούς μέσω της πραγματοποίησης επερωτήσεων από τους χρήστες σε γλώσσα SPARQL.

Περιηγούμαι

Πρόσφατες Υποβολές