Regression models for count data with excess zeros

dc.contributor.degreegrantinginstitutionAthens University of Economics and Business, Department of Statisticsen
dc.contributor.examinerVrontos, Ioannisen
dc.contributor.examinerPsarakis, Steliosen
dc.contributor.supervisorBesbeas, Panagiotisen
dc.creatorΦλωροπούλου, Ζωήel
dc.creatorFloropoulou, Zoien
dc.date.accessioned2024-08-07T14:47:15Z
dc.date.issued25-01-2023
dc.date.submitted2023-01-26 18:16:50
dc.description.abstractΤα αριθμητικά δεδομένα από μετρήσεις χρησιμοποιούνται σε μια τεράστια ποικιλία επιστημονικών πεδίων. Στην πράξη, υπάρχουν περιπτώσεις συνόλων δεδομένων που περιέχουν πολύ μεγάλο αριθμό μηδενικών παρατηρήσεων σε σχέση με τις μη μηδενικές παρατηρήσεις. Για παράδειγμα, η ζήτηση για ιατρική περίθαλψη – όπως αποτυπώνεται από τον αριθμό των επισκέψεων εξωτερικών ασθενών σε ιατρεία και νοσοκομεία. Οι υπερβολικά πολλές μηδενικές παρατηρήσεις τείνουν να μην ενσωματώνονται επαρκώς και να μην επεξηγούνται από τις συνήθεις κατανομές όπως η Poisson, η διωνυμική και η αρνητική διωνυμική κατανομή. Επιπλέον, τα δεδομένα από μετρήσεις συχνά προκύπτουν σε συνδυασμό με επεξηγηματικές μεταβλητές. Σε αυτή τη διατριβή, διερευνούμε κατανομές όπως οι Zero-Inflated και Hurdle για μοντελοποίηση δεδομένων μέτρησης με υπερβολικά μηδενικά. Ένα Zero-Inflated μοντέλο είναι ένα στατιστικό μοντέλο που βασίζεται σε μίξη κατανομών με δύο components, ένα μηδενικό και ένα count component. Κάτω από αυτό το πλαίσιο, μια μηδενική παρατήρηση θα μπορούσε να προκύπτει από οποιοδήποτε component της μίξης, αλλά μια μη μηδενική παρατήρηση θα μπορούσε να προκύψει μόνο από την count κατανομή. Το μοντέλο Hurdle αποτελείται επίσης από δύο ξεχωριστά μέρη, ένα μέρος που περιλαμβάνει μόνο τα μηδενικά, το οποίο μοντελοποιεί τα μηδενικά στα δεδομένα, και ένα count μέρος το οποίο περιλαμβάνει και περιγράφει μόνο τις μη μηδενικές παρατηρήσεις. Οι κατανομές Zero-inflated και Hurdle μπορούν να πραγματοποιηθούν στο πλαίσιο γενικευμένων γραμμικών μοντέλων για την ενσωμάτωση επεξηγηματικών μεταβλητών, όταν αυτές είναι διαθέσιμες. Διερευνούμε τα Zero-Inflated και Hurdle μοντέλα παλινδρόμησης και εξετάζουμε την επιλογή του καλύτερου μοντέλου στο πλαίσιο πραγματικών δεδομένων. Για τις εφαρμογές που εξετάζονται, η επιλογή του τελικού μοντέλου έγινε με τη διερεύνηση της σχετικής καλής προσαρμογής των μοντέλων. Το Zero-Inflated αρνητικό διωνυμικό μοντέλο, το οποίο ήταν το καλύτερο για τα συγκεκριμένα σύνολα δεδομένων, ταιριάζει περισσότερο από το αντίστοιχο Hurdle μοντέλο, καθώς οι διαφορετικοί τύποι μηδενικών, δομικά και δειγματοληπτικά μηδενικά, λαμβάνονται υπόψη.el
dc.description.abstractCount data arise in a vast variety of scientific fields. In practice, there are cases of count data that contain an excess amount of zero observations relative to the non-zero observations. For example, the demand for medical care – as captured by the number of physician/non-physician office and hospital outpatient visits. The excessive zero observations tend to not be sufficiently absorbed and explained by common count distributions such as the Poisson, binomial and negative binomial. In addition, count data often arise in combination with explanatory variables. In this dissertation, we explore Zero-Inflated and Hurdle distributions to model count data with excess zeros. A zero-inflated model is a statistical model based on a two-component mixture distribution involving a zero and a count component. Under this framework, a zero observation could arise from either component of the mixture, but a non-zero observation could only arise from the count distribution. The Hurdle model also consists of two separate parts, a zero only part, which models the zeros in the data, and a zero-truncated count part which describes the non-zero observations. Zero-inflated and Hurdle distributions can be cast in a generalized linear model framework to incorporate explanatory variables, when these are available. We review zero-inflated and hurdle regression models and consider their model selection in the context of real data. For the applications considered, the selection of the final model was made by investigating relative goodness-of-fit of the models. The zero-inflated negative binomial model, which was the best fit for the data setsexamined, makes more sense to fit than the hurdle model as the different types of zeros, structural and sampling, are accounted for.en
dc.embargo.expire2023-01-26T00:00:00Z
dc.embargo.ruleOpen access
dc.format.extent84p.
dc.identifierhttp://www.pyxida.aueb.gr/index.php?op=view_object&object_id=9997
dc.identifier.urihttps://beta-pyxida.aueb.gr/handle/123456789/10151
dc.languageen
dc.rights.licensehttps://creativecommons.org/licenses/by/4.0/
dc.subjectΜηδενικές μετρήσειςel
dc.subjectZero-Inflated μοντέλαel
dc.subjectHurdle μοντέλαel
dc.subjectExcess zero count dataen
dc.subjectZero-inflated modelsen
dc.subjectHurdle modelsen
dc.titleRegression models for count data with excess zerosen
dc.title.alternativeΜοντέλα παλινδρόμησης για δεδομένα με πλεονάζοντα μηδενικάel
dc.typeText

Αρχεία

Πρωτότυπος φάκελος/πακέτο

Τώρα δείχνει 1 - 1 από 1
Φόρτωση...
Μικρογραφία εικόνας
Ονομα:
Floropoulou_2023.pdf
Μέγεθος:
2.99 MB
Μορφότυπο:
Adobe Portable Document Format