Compressing and accelerating the inference of transformer-based models

dc.contributor.degreegrantinginstitutionAthens University of Economics and Business, Department of Informaticsen
dc.contributor.examinerMarkakis, Evangelosen
dc.contributor.examinerVassalos, Vasiliosen
dc.contributor.supervisorMalakasiotis, Prodromosen
dc.creatorΜαρούδας, Στυλιανόςel
dc.creatorMaroudas, Stylianosen
dc.date.accessioned2024-08-07T14:47:37Z
dc.date.issued29-12-2022
dc.date.submitted2023-02-12 12:08:40
dc.description.abstractΗ εποχή της προεϰπαίδευσης (pre-training) ϰαι προσαρμογής (fine-tuning) τεράστιων γλωσσιϰών μοντέλων έδωσε την δυνατότητα στις επιχειρήσεις να μπορούν να επιλύουν πολύπλοϰα γλωσσιϰά προβλήματα με ευϰολία. Ωστόσο, όσον αφορά την εγϰατάσταση αυτών των μοντέλων (deployment), οι ογϰώδεις απαιτήσεις για την αποϑήϰευσή τους αυξάνουν την ανάγϰη υπολογιστιϰών πόρων σε μεγάλο βαϑμό, με άμεσο επαϰόλουϑο την επιβολή ανεπιϑύμητων οιϰονομιϰών συνεπειών. Η πρόϰληση αυτή μπορεί να αντιμετωπιστεί με τη συμπίεση μοντέλων. Στην παρούσα εργασία, πρώτα παρουσιάζονται οι τρεις πιο δημοφιλείς τεχνιϰές συμπίεσης μοντέλων, δηλαδή το ϰλάδεμα (pruning), η ϰβαντοποίηση (quantization) ϰαι η διύλιση γνώσης (knowledge distillation), ϰαϑώς ϰαι η εφαρμογή τους σε μοντέλα που βασίζονται σε μετασχηματιστές (transformers). Στη συνέχεια, αναπτύσσουμε τη Σταδιαϰή Συμπίεση, έναν ειδιϰών-προβλημάτων (task specific) αγωγό (pipeline) συμπίεσης που συνδυάζει όλες τις προαναφερϑείσες τεχνιϰές, για την δημιουργία πιο αποτελεσματιϰών (ελαφρύτερων ϰαι ταχύτερων) μοντέλων που εγϰαϑίστανται ευϰολότερα στην παραγωγή, χωρίς να ϑυσιάζεται πολύ από την αρχιϰή τους απόδοση. Αρχιϰά αξιολογούμε τον προτεινόμενο αγωγό συμπίεσης σε 5 διαφορετιϰά προβλήματα (down-stream tasks), που ϰυμαίνονται από την ϰατηγοριοποίηση εγγράφων, έως την ϰατηγοριοποίηση προτάσεων ϰαι συμβόλων (tokens). Στη συνέχεια, παρέχουμε πρόσϑετες αποδείξεις για το ότι η συμπίεση μοντέλων είναι πολύ πιο αποτελεσματιϰή από την εξαρχής (from-scratch) προεϰπαίδευση ϰαι προσαρμογή μιϰρότερων μοντέλων. Τέλος, υποστηρίζουμε ότι όταν υιοϑετείται μία σταδιαϰή αντί για μία πιο «άμεση» προσέγγιση συμπίεσης, η αντιστάϑμιση συμπίεσης/απόδοσης μπορεί να βελτιωϑεί σημαντιϰά.el
dc.description.abstractThe era of pre-training and fine-tuning enormous Language Models has made it possible for businesses to solve complex language problems with ease. However, when it comes to their deployment, their massive storage requirements create the need for high computational resources, which subsequently impose undesired economic consequences. This challenge can be dealt by model compression. In this work, we first present the three most popular model compression techniques, namely, pruning, quantization and knowledge distillation, as well as their application on transformer-based models. We then develop Gradual Compression, a task-specific compression pipeline that combines all the aforementioned techniques to produce more efficient (lighter and faster) models that are easier to deploy into production, without sacrificing a lot of their original performance. We first evaluate our proposed compression pipeline on 5 different down-stream tasks, ranging from document, to sentence and token classification. We then provide additional evidence that compressing a model is much more effective than pre-training and fine-tuning a smaller one from scratch. Finally, we argue that when a gradual instead of a more "direct" compression approach is adopted, the compression/performance trade-off significantly improves.en
dc.embargo.expire2023-02-12T00:00:00Z
dc.embargo.ruleOpen access
dc.format.extent60p.
dc.identifierhttp://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10032
dc.identifier.urihttps://beta-pyxida.aueb.gr/handle/123456789/10187
dc.languageen
dc.rights.licensehttps://creativecommons.org/licenses/by/4.0/
dc.subjectΕπεξεργασία φυσικής γλώσσαςel
dc.subjectΒαθιά μάθησηel
dc.subjectΜετασχηματιστέςel
dc.subjectΣυμπίεσηel
dc.subjectNatural Language Processing (NLP)en
dc.subjectDeep learningen
dc.subjectTransformersen
dc.subjectCompressionen
dc.titleCompressing and accelerating the inference of transformer-based modelsen
dc.title.alternativeΣυμπίεση και επιτάχυνση της εξαγωγής συμπερασμάτων σε μοντέλα που βασίζονται σε μετασχηματιστέςel
dc.typeText

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Maroudas_2022.pdf
Μέγεθος:
2.21 MB
Μορφότυπο:
Adobe Portable Document Format