Compressing and accelerating the inference of transformer-based models

Μαρούδας, Στυλιανός; Maroudas, Stylianos

Compressing and accelerating the inference of transformer-based models

dc.contributor.degreegrantinginstitution	Athens University of Economics and Business, Department of Informatics	en
dc.contributor.examiner	Markakis, Evangelos	en
dc.contributor.examiner	Vassalos, Vasilios	en
dc.contributor.supervisor	Malakasiotis, Prodromos	en
dc.creator	Μαρούδας, Στυλιανός	el
dc.creator	Maroudas, Stylianos	en
dc.date.accessioned	2024-08-07T14:47:37Z
dc.date.issued	29-12-2022
dc.date.submitted	2023-02-12 12:08:40
dc.description.abstract	Η εποχή της προεϰπαίδευσης (pre-training) ϰαι προσαρμογής (fine-tuning) τεράστιων γλωσσιϰών μοντέλων έδωσε την δυνατότητα στις επιχειρήσεις να μπορούν να επιλύουν πολύπλοϰα γλωσσιϰά προβλήματα με ευϰολία. Ωστόσο, όσον αφορά την εγϰατάσταση αυτών των μοντέλων (deployment), οι ογϰώδεις απαιτήσεις για την αποϑήϰευσή τους αυξάνουν την ανάγϰη υπολογιστιϰών πόρων σε μεγάλο βαϑμό, με άμεσο επαϰόλουϑο την επιβολή ανεπιϑύμητων οιϰονομιϰών συνεπειών. Η πρόϰληση αυτή μπορεί να αντιμετωπιστεί με τη συμπίεση μοντέλων. Στην παρούσα εργασία, πρώτα παρουσιάζονται οι τρεις πιο δημοφιλείς τεχνιϰές συμπίεσης μοντέλων, δηλαδή το ϰλάδεμα (pruning), η ϰβαντοποίηση (quantization) ϰαι η διύλιση γνώσης (knowledge distillation), ϰαϑώς ϰαι η εφαρμογή τους σε μοντέλα που βασίζονται σε μετασχηματιστές (transformers). Στη συνέχεια, αναπτύσσουμε τη Σταδιαϰή Συμπίεση, έναν ειδιϰών-προβλημάτων (task specific) αγωγό (pipeline) συμπίεσης που συνδυάζει όλες τις προαναφερϑείσες τεχνιϰές, για την δημιουργία πιο αποτελεσματιϰών (ελαφρύτερων ϰαι ταχύτερων) μοντέλων που εγϰαϑίστανται ευϰολότερα στην παραγωγή, χωρίς να ϑυσιάζεται πολύ από την αρχιϰή τους απόδοση. Αρχιϰά αξιολογούμε τον προτεινόμενο αγωγό συμπίεσης σε 5 διαφορετιϰά προβλήματα (down-stream tasks), που ϰυμαίνονται από την ϰατηγοριοποίηση εγγράφων, έως την ϰατηγοριοποίηση προτάσεων ϰαι συμβόλων (tokens). Στη συνέχεια, παρέχουμε πρόσϑετες αποδείξεις για το ότι η συμπίεση μοντέλων είναι πολύ πιο αποτελεσματιϰή από την εξαρχής (from-scratch) προεϰπαίδευση ϰαι προσαρμογή μιϰρότερων μοντέλων. Τέλος, υποστηρίζουμε ότι όταν υιοϑετείται μία σταδιαϰή αντί για μία πιο «άμεση» προσέγγιση συμπίεσης, η αντιστάϑμιση συμπίεσης/απόδοσης μπορεί να βελτιωϑεί σημαντιϰά.	el
dc.description.abstract	The era of pre-training and fine-tuning enormous Language Models has made it possible for businesses to solve complex language problems with ease. However, when it comes to their deployment, their massive storage requirements create the need for high computational resources, which subsequently impose undesired economic consequences. This challenge can be dealt by model compression. In this work, we first present the three most popular model compression techniques, namely, pruning, quantization and knowledge distillation, as well as their application on transformer-based models. We then develop Gradual Compression, a task-specific compression pipeline that combines all the aforementioned techniques to produce more efficient (lighter and faster) models that are easier to deploy into production, without sacrificing a lot of their original performance. We first evaluate our proposed compression pipeline on 5 different down-stream tasks, ranging from document, to sentence and token classification. We then provide additional evidence that compressing a model is much more effective than pre-training and fine-tuning a smaller one from scratch. Finally, we argue that when a gradual instead of a more "direct" compression approach is adopted, the compression/performance trade-off significantly improves.	en
dc.embargo.expire	2023-02-12T00:00:00Z
dc.embargo.rule	Open access
dc.format.extent	60p.
dc.identifier	http://www.pyxida.aueb.gr/index.php?op=view_object&object_id=10032
dc.identifier.uri	https://beta-pyxida.aueb.gr/handle/123456789/10187
dc.language	en
dc.rights.license	https://creativecommons.org/licenses/by/4.0/
dc.subject	Επεξεργασία φυσικής γλώσσας	el
dc.subject	Βαθιά μάθηση	el
dc.subject	Μετασχηματιστές	el
dc.subject	Συμπίεση	el
dc.subject	Natural Language Processing (NLP)	en
dc.subject	Deep learning	en
dc.subject	Transformers	en
dc.subject	Compression	en
dc.title	Compressing and accelerating the inference of transformer-based models	en
dc.title.alternative	Συμπίεση και επιτάχυνση της εξαγωγής συμπερασμάτων σε μοντέλα που βασίζονται σε μετασχηματιστές	el
dc.type	Text

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1

Ονομα:: Maroudas_2022.pdf
Μέγεθος:: 2.21 MB
Μορφότυπο:: Adobe Portable Document Format

Κατεβάστε

Συλλογές

Τμήμα Πληροφορικής

Μεταπτυχιακές Εργασίες