Πόσο απροσδόκητο ήταν τελικά το 20% του ΣΥΡΙΖΑ?
Το 20% του ΣΥΡΙΖΑ στις εκλογές της περασμένης Κυριακής έπεσε σαν κεραυνός εν αιθρία στο πολιτικό σκηνικό… ή μήπως όχι? Σε αυτό το άρθρο εξερευνούμε κάποια στοιχεία τα οποία αν είχαν γίνει αντικείμενο σωστής ανάλυσης πιθανά να προϊδέαζαν για ένα τέτοιο ενδεχόμενο. Αυτά τα στοιχεία εμείς τα εντοπίσαμε και τα συμπεριλάβαμε στην μοντελοποίηση μας, αλλά όπως θα δούμε και στην συνέχεια το κάναμε μάλλον με συντηρητικό τρόπο.
Εστιάζουμε στο ότι οι δημοσκοπήσεις είναι σχεδιασμένες για να κάνουνε μια μέτρηση της δημοσκοπικής απήχησης μια δεδομένη στιγμή αλλά στην συνέχεια χρησιμοποιούνται για να κάνουν μια πρόβλεψη του τελικού εκλογικού αποτελέσματος. Από τις τελευταίες δημοσκοπήσεις μέχρι την κάλπη μεσολαβεί συνήθως σχεδόν μια βδομάδα η οποία είναι και αυτή στην οποία οι πολίτες πραγματικά ασχολούνται με τις εκλογές. Έτσι συμβαίνουν τουλάχιστον δύο πράγματα: 1) οι αναποφάσιστοι τελικά παίρνουν κάποια απόφαση, 2) κάποιοι από όσους δήλωναν αποφασισμένοι πιθανά αλλάζουν την ψήφο τους λόγω των ζυμώσεων της τελευταίας στιγμής.
Για να προβλεφθεί η τελική ψήφος από τις τελευταίες δημοσκοπήσεις πρέπει ιδανικά να μεσολαβήσει ένα μοντέλο μηχανικής εκμάθησης το οποίο θα χρησιμοποιεί άλλα δεδομένα πχ twitter, οικονομικές μεταβλητές, δημοσκοπήσεις για δεδομένα πέρα από την πρόθεση ψήφου προκειμένου
- να ποσοτικοποιεί τις τελευταίες μεταβολές πριν την ψήφο
- θα κατανέμει τους αναποφάσιστους
Με βάση αυτήν την ανάγνωση οι δημοσκοπήσεις μετρούσαν σωστά τα ποσοστά των κομμάτων μέχρι λίγο πριν την ψήφο. Απλά αυτή η ψήφος μεταβλήθηκε. Ένα τέτοιο μοντέλο μηχανικής εκμάθησης το οποίο δέχεται σαν είσοδο τα τελευταία δημοσκοπικά ποσοστά και τα μετατρέπει σε μια τελική πρόβλεψη για την ψήφο είναι δύσκολο να υλοποιηθεί για διάφορους λόγους. Θα χρειαζόμασταν πολλά και διαφορετικά δεδομένα και τα δεδομένα αυτά είναι δύσκολα προσβάσιμα και ποσοτικοποιήσιμα. Για παράδειγμα πως ποσοτικοποιείται η εσωτερικευμένη απογοήτευση με τον ΣΥΡΙΖΑ μετά το δημοψήφισμα? Μία πιο απλή προσέγγιση είναι να εκτιμήσουμε την σημερινή μας αβεβαιότητα με βάση την αβεβαιότητα μας για τα προηγούμενα αποτελέσματα. Δεν προσπαθούμε δηλαδή να κάνουμε μία και σωστή πρόβλεψη για τα ποσοστά κάθε κόμματος, αλλά απλά προσπαθούμε να ποσοτικοποιήσουμε την άγνοια μας. Όλες οι πιθανές μεταβλητές οι οποίες επηρεάζουν τον ψηφοφόρο μέχρι την ψήφο συμπυκνώνονται τότε σε αυτήν την αβεβαιότητα. Αυτή είναι ακριβώς η τεχνική που χρησιμοποιείται στην πρόβλεψη των μετοχών, η τιμή των οποίων επηρεάζεται από πάρα πολλούς παράγοντες οι οποίοι είναι κοστοβόρο να μετρηθούν.
Χρησιμοποιήσαμε ακριβώς αυτήν την προσέγγιση στις προβλέψεις μας. Θεωρήσαμε δηλαδή πως μετά τις τελευταίες δημοσκοπήσεις δεν ξέραμε ακριβώς ποιά θα είναι η τελική ψήφος και έτσι αναλύσαμε $10^5$ διαφορετικά σενάρια. Αυτά τα σενάρια τροποποιούσαν τυχαία τα ποσοστά κάθε κόμματος, και μας έδιναν την δυνατότητα να σκεφτούμε ποια είναι τα πιθανά τελικά αποτελέσματα δεδομένης της άγνοιάς μας. Έτσι δημιουργήσαμε τον παρακάτω πίνακα ο οποίος δίνει μια πιθανότητα για το ενδεχόμενο να έχουν κάποιες συμμαχίες >150 έδρες.
Κάποιες από τις προβλέψεις αυτού του πίνακα βγήκαν ή σχεδόν βγήκαν. Δώσαμε 0% πιθανότητα να έχει η ΝΔ αυτοδυναμία και όντως δεν κατάφερε να την κατακτήσει. Δώσαμε επίσης 0% πιθανότητα να καταφέρει να συγκυβερνήσει η ΝΔ μόνο με την Ελληνική Λύση. Τελικά θα μπορούσε να το κάνει (αν και τελικά δεν το επέλεξε). Και αυτή η πρόβλεψή μας όμως σχεδόν βγήκε. Αν το ΝΙΚΗ και η Πλεύση Ελευθερίας έμπαιναν στην βουλή με ένα οριακό 3% μια κυβέρνηση μόνο ΝΔ+ΕΛ δεν θα ήταν εφικτή. Συγκεκριμένα οι έδρες θα ήταν ΝΔ: 136, ΣΖ:67, ΠΣΚ:39, ΚΚΕ:24, ΕΛ:14, ΝΙ:10, ΠΛ:10
Αντίθετα οι πιθανότητες για τον ΣΥΡΙΖΑ φαίνονται εκ των υστέρων πολύ υψηλές. Επίσης εάν πραγματικά πιστεύαμε πως ένα +-10% ήταν πιθανό θα είχαμε κάνει κάποια σχετική αναφορά. Για τον ΣΥΡΙΖΑ η υπόθεση που κάναμε είναι πως τα ποσοστά του μπορούν να μεταβληθούν το πολύ +-4%, όσο δηλαδή μεταβλήθηκαν και σε παλαιότερες εκλογές σε σχέση με τις τελευταίες δημοσκοπήσεις πριν την κάλπη. Αυτή ήταν μια λανθασμένη υπόθεση. Και είναι ενδιαφέρον το ότι την κάναμε σε πείσμα των δεδομένων απλά και μόνο γιατί τα συμπεράσματα “δεν έβγαζαν νόημα”. Είναι άρα σημαντικό να αναλύσουμε το γιατί αν σε 3 εκλογές ο ΣΥΡΙΖΑ έχει λάβει ~+4%, τότε σε καινούργιες εκλογές μπορεί να μεταβληθεί πολύ πάνω από +-4%.
Ας εξετάσουμε το παρακάτω παράδειγμα: Ας υποθέσουμε πως μετακομίζουμε σε μια καινούργια πόλη και σε ένα καινούργιο σπίτι και πως η καινούργια μας πόλη βρίσκεται σε μια σεισμογενή περιοχή. Μέσα σε ένα χρόνο από την άφιξη μας δυστυχώς βιώνουμε 3 σεισμούς των 4 ρίχτερ οι οποίοι δεν γκρεμίζουν το σπίτι μας. Είναι λάθος να υποθέσουμε πως επειδή οι σεισμοί που βιώσαμε ήταν μέχρι 4 ρίχτερ και όλοι οι μελλοντικοί σεισμοί θα είναι μέχρι αυτό το επίπεδο, και άρα το σπίτι μας είναι ασφαλές. Ακόμα και διαισθητικά καταλαβαίνει κανείς πως τα μεγάλα γεγονότα γίνονται σπάνια. Οι σεισμοί που βιώσαμε σε ένα σύντομο χρονικό διάστημα είναι λογικό να είναι μικροί και αποτελούν απλά μια ένδειξη του κινδύνου. Στην πραγματικότητα έχουμε απλά ένα στατιστικό δείγμα 3 σεισμών και πρέπει να υπολογίσουμε τον μέγιστο σεισμό που θα μπορούσε να μας τύχει σε βάθος χρόνου.
Ανάλογα και στον ΣΥΡΙΖΑ, αν μια μεταβολή ~+4% συμβεί 3 φορές δεν είναι σπάνια και είναι λάθος να την αντιμετωπίζουμε ως τέτοια! Πρέπει άρα να βρούμε ποια θα ήταν μια σπάνια, ρεαλιστική και μεγάλη μεταβολή στα ποσοστά του.
Τεχνική ανάλυση (μπορείτε να διαβάσετε κατευθείαν τα συμπεράσματα καθως είναι κάπως περίπλοκη)
Ας υποθέσουμε αρχικά πως έχουμε μια εκτίμηση για τα ποσοστά του ΣΥΡΙΖΑ πχ 29% που ήταν η δικιά μας εκτίμηση. Τότε είναι λογικό να υποθέσει κανείς πως η ψήφος στην κάλπη θα προκύψει απο μια Gaussian κατανομή $\mathcal{N}(\mu,\sigma^2)=\frac{1}{\sigma\sqrt{2 \pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma} \right)^2}$ με μέση τιμή το $\mu=29$ για την οποία όμως δεν γνωρίζουμε την τυπική αποκλισή της $\sigma$. Θα προσπαθήσουμε να εκτιμήσουμε την τυπική απόκλιση απο τα ιστορικά δεδομένα που έχουμε στην διάθεση μας. Για αυτόν τον σκοπό θα ακολουθήσουμε την Bayesian μέθοδο θα υποθέσουμε μια conjugate prior κατανομή η οποία είναι Inverse Gamma $f(x;\alpha,\beta)=\frac{\beta^{\alpha}}{\Gamma(\alpha)}(1/x)^{\alpha+1}\exp(-\beta/x)$. Για παράδειγμα κάποιες λογικές τιμές για τις παραμέτρους $\alpha$ και $\beta$ είναι $\alpha=1$ και $\beta=2$ υποθέτουμε δηλαδή πως η τυπική απόκλιση χωρις άλλα δεδομένα είναι $\sigma\approx1$ και άρα το σφάλμα μας είναι περίπου $\pm2\%$. Αυτή είναι μια λογική πρώτη υπόθεση για το σφάλμα μας σε σχέση με το τελικό αποτελεσμα των εκλογών μιας και όλες οι δημοσκοπικές υποστηρίζουν πως έχουν ένα σφάλμα τέτοιας τάξης. Έχουμε όμως δεδομένα απο παλαιότερες εκλογές στις οποίες ο ΣΥΡΙΖΑ δεν μεταβλήθηκε μόνο $\pm2\%$ απο τις τελευταίες δημοσκοπήσεις αλλά $+4\%$. Για να βρούμε ποια είναι μια κατάλληλη κατανομή που να ταιριάζει σε αυτές τις επιπλέον πληροφορίες, αρκεί να εφαρμόσουμε τον κανόνα του Bayes $P(H\vert E)=\frac{P(E\vert H)\cdot P(H)}{P(E)}$. Βρίσκουμε πως $\alpha’=\alpha+\frac{n}{2}$, $\beta’ = \beta+\frac{\sum_{i=1}^n(x_i-\mu)}{2}$ όπου $x_i$ είναι τα δεδομένα μας δηλαδή $x_{2015\mathrm{Jan}}=+2,x_{2015\mathrm{Sep}}=+4,x_{2019\mathrm{Jul}}=+4$. Η τελική κατανομή που προκύπτει για τα ποσοστά του ΣΥΡΙΖΑ απο όλη αυτήν διαδικασία είναι μια Student’s t-distribution $p(x\vert\nu,\mu,\tau)=\frac{\Gamma(\frac{\nu+1}{2})}{\Gamma(\frac{\nu}{2})\sqrt{\pi \nu}\tau}\left(1+\frac{1}{\nu}\left(\frac{x-\mu}{\tau} \right)^2 \right)^{-(\nu+1)/2}$ με παραμέτρους $\nu=2\alpha’$, $\mu=29$, $\tau=\sqrt{\beta’/\alpha’}$. Ποιά είναι η τελική κατανομή των πιθανών ποσοστών του ΣΥΡΙΖΑ με βάση αυτήν την ανάλυση? Σχεδιάζουμε το αντιστοιχο γράφημα παρακάτω
βλέπουμε πως αντίθετα με την υπόθεση μας ο ΣΥΡΙΖΑ ήταν πιθανό να μεταβληθεί $\pm10\%$ από το $29\%$ που βρίσκαμε μεσοσταθμικά, αν όχι ακόμα παραπάνω.
Ποιά είναι η αντίστοιχη κατανομή για την ΝΔ? Εδώ έχουμε τις εξής αποκλίσεις απο προηγούμενες εκλογές $x_{2015\mathrm{Jan}}=-2,x_{2015\mathrm{Sep}}=+0,x_{2019\mathrm{Jul}}=+1$. Σχεδιάζουμε το αντιστοιχο γράφημα παρακάτω
και το εύρος της ΝΔ φαίνεται σωστό. Η τελική της τιμή $(40\%)$ είναι εντός του ορίου σφάλματος που υπολογίσαμε.
Τι σημαίνει αυτό για τις επόμενες εκλογές? Οι κατανομές για την ΝΔ και τον ΣΥΡΙΖΑ μετα και τις εκλογές της Κυριακής, συνυπολογίζοντας $x_{2023\mathrm{May}}=-10$ για τον ΣΥΡΙΖΑ και $x_{2023\mathrm{May}}=+4$ για την ΝΔ, είναι
Συμπεράσματα
Ας υποθέσουμε πως ο μέσος όρος του ΣΥΡΙΖΑ παραμένει στο 20% τότε 100 πιθανά σενάρια για τον ΣΥΡΙΖΑ είναι τα εξής
22.43 | 21.17 | 16.39 | 24.99 | 19.32 |
40.02 | 19.96 | 7.25 | 24.9 | 19.68 |
27.51 | 7.58 | 22.23 | 26.07 | 21.13 |
18.70 | 19.28 | 25.98 | 20.40 | 21.74 |
22.72 | 19.82 | 17.62 | 20.47 | 18.94 |
22.24 | 26.25 | 26.31 | 14.63 | 21.00 |
32.00 | 19.43 | 16.97 | 28.59 | 22.62 |
22.58 | 16.78 | 15.44 | 19.50 | 27.63 |
17.28 | 20.59 | 30.2 | 21.14 | 19.19 |
19.27 | 19.52 | 19.54 | 23.88 | 21.40 |
21.03 | 22.96 | 23.59 | 25.21 | 23.66 |
26.11 | 15.09 | 17.14 | 23.08 | 20.55 |
22.41 | 0.55 | 21.55 | 5.17 | 24.00 |
26.29 | 16.25 | 3.6 | 20.53 | 20.97 |
17.37 | 21.49 | 22.04 | 21.74 | 15.95 |
20.41 | 25.90 | 17.66 | 22.33 | 25.65 |
17.03 | 11.37 | 17.43 | 20.27 | 21.10 |
21.23 | 19.10 | 17.28 | 14.38 | 13.84 |
29.26 | 8.51 | 7.12 | 16.40 | 23.55 |
25.08 | 29.3 | 23.63 | 25.11 | 13.67 |
Αντίστοιχα για την Νέα Δημοκρατία αν υποθέσουμε πως ο μέσος όρος της παραμείνει στο 40% δημοσκοπικά. Τότε 100 πιθανά σενάρια για τα ποσοστά της στην κάλπη είναι τα εξής
36.36 | 40.39 | 41.95 | 40.48 | 41.63 |
39.89 | 39.89 | 34.37 | 39.17 | 42.16 |
42.45 | 41.27 | 42.19 | 38.12 | 39.55 |
41.91 | 35.08 | 39.92 | 39.5 | 38.12 |
41.17 | 38.94 | 36.21 | 38.95 | 43.13 |
40.08 | 41.85 | 40.83 | 38.12 | 38.94 |
38.88 | 43.12 | 37.37 | 40.44 | 40.92 |
36.70 | 40.93 | 35.77 | 39.44 | 38.01 |
41.07 | 40.21 | 40.46 | 40.62 | 39.13 |
40.83 | 38.99 | 40.97 | 38.8 | 41.10 |
39.84 | 38.23 | 42.46 | 42.99 | 39.23 |
40.04 | 41.83 | 39.74 | 38.27 | 39.21 |
37.69 | 39.11 | 41.11 | 37.07 | 43.63 |
39.89 | 45.04 | 40.27 | 39.95 | 42.52 |
39.83 | 38.21 | 38.38 | 37.24 | 37.44 |
40.00 | 37.49 | 44.76 | 40.87 | 34.36 |
39.12 | 43.39 | 39.52 | 42.52 | 39.84 |
40.65 | 36.96 | 38.35 | 44.86 | 39.80 |
38.77 | 44.51 | 35.07 | 38.06 | 39.68 |
38.75 | 37.12 | 37.25 | 34.96 | 40.41 |
Στις επόμενες εκλογές ο ΣΥΡΙΖΑ μπορεί να εξαφανιστεί, μπορεί όμως και να επανακαμπψει δραματικά. Αντίθετα η Νέα Δημοκρατία δεν έχει τόσο μεγάλες μεταβολές σε σχέση με τα αποτελέσματα των δημοσκοπήσεων.
Θα λέγαμε πως καλό είναι η Νέα Δημοκρατία να μήν επαναπαύεται με το αποτέλεσμα των πρώτων εκλογών. Η αποψή μας είναι πως ήταν απλά τυχερή όχι στην ίδια την νίκη αλλά στην έκταση αυτής. Πιθανώς να μην έπρεπε να ξαναρίξει τα ζάρια περιμένοντας πως θα πετύχει ακόμα καλύτερα αποτελέσματα. Για τα κόμματα απο το κέντρο και τα αριστερά η ύπαρξη αβεβαιότητας σημαίνει πως οι επόμενες εκλογές είναι μια ευκαιρία να πάρουν ρίσκα. Εάν κινηθούν γρήγορα και έξυπνα μπορεί και να αυξήσουν σημαντικά τα ποσοστά τους. Αν όχι, είναι εξίσου πιθανό να εξαφανιστούν δημοσκοπικά.
Τέλος, ένα disclaimer: Η παραπάνω ανάλυση είναι πειραματική. Έχουν γίνει διάφορες απλοποιήσεις και παραδοχές οι οποίες πρέπει να εξερευνηθούν προκείμενου να φτιάξουμε ακόμη καλύτερα μοντέλα της συμπεριφοράς των ψηφοφόρων.