Παρακάτω ακολουθεί μια σύντομη περιγραφή του δημοσκοπικού μοντέλου του kassiope.org.

Ακολουθώντας το διεθνές παράδειγμα το δημοσκοπικό μοντέλο και το προγνωστικό μοντέλο του kassiope.org είναι μια προσπάθεια για να γίνει μια αξιόπιστη καταγραφή των δημοσκοπικών ποσοστών και κατ’επέκταση της πολιτικής κατάστασης στην Ελλάδα. Εξερευνά δηλαδή μια κριτική που ακούγεται συχνά ως προς την αξιοπιστία των δημοσκοπήσεων και στο κατά πόσο αυτές χειραγωγούνται από επιχειρηματικά και πολιτικά συμφέροντα. Η αξιοπιστία η μη των δημοσκοπήσεων, το αν συστηματικά παρουσιάζουν διαστρεβλωμένα αποτελέσματα καθώς και άλλες παράμετροι μπορούν να ποσοτικοποιηθούν και ερευνηθούν με στατιστικές μεθόδους. Αποτελούν δηλαδή μια κατεξοχήν περίπτωση όπου τα στατιστικά δεδομένα μπορούν να δώσουν μια έστω μερική απάντηση.

Κατευθυντήριες γραμμές.

Η βασική ιδέα πίσω από την ανάλυση μας είναι πως πολλές δημοσκοπήσεις μαζί είναι καλύτερες από μία μεμονωμένη δημοσκόπηση.

  • Σκεφτόμαστε πιθανοτικά. Σε κάθε δημοσκόπηση υποθέτουμε πως υπάρχει τυχαίος θόρυβος που είναι αναπόδραστος. Αυτό μπορεί να συμβεί για διάφορους λόγους, όπως είναι για παράδειγμα η εγγενής τυχαιότητα στην επιλογή ενός δημοσκοπικού δείγματος. Κοιτώντας πολλές δημοσκοπήσεις μαζί μπορούμε να υπολογίσουμε την κατανομή τους δηλαδή μια μέση τιμή και μια τυπική απόκλιση.
  • Πολλοί δημοσκόποι, και δεξιάς και αριστερής πολιτικής κατεύθυνσης, φαίνεται απ’τα πειράματα μας πως εμφανίζουν σταθερές αποκλίσεις απ’την σωστή καταγραφή των δημοσκοπικών ποσοστών. Οι μετρήσεις τους δηλαδή δίνουν σταθερά μεγαλύτερα ποσοστά σε ένα απ’τα δύο μεγάλα κόμματα, στην Νέα Δημοκρατία ή στον ΣΥΡΙΖΑ. Αυτοί οι δημοσκόποι δηλαδή, θεωρούμε πως είναι μεροληπτικοί υπέρ του ενός ή του άλλου κόμματος, είτε εκούσια είτε ακούσια.
  • Ο κάθε δημοσκόπος έχει διαφορετικό επίπεδο θορύβου (αλλά ποτέ μηδενικό θόρυβο) ανάλογα με το πόσο σωστή ήταν η διεξαγωγή της κάθε δημοσκόπησης. Αυτό το επίπεδο θορύβου παραμένει σταθερό ιστορικά, δηλαδή μια δημοσκοπική εταιρεία που καταγράφει με μικρή ακρίβεια τα δημοσκοπικά ποσοστά σήμερα, τείνει να συνεχίζει να έχει μικρή ακρίβεια στο μέλλον, πιθανά επειδή συνεχίζει τις ίδιες ελαφρώς λανθασμένες πρακτικές.
  • Οι δημοσκοπήσεις όπου συλλέγονται πολλά δείγματα είναι πιο αξιόπιστες από αυτές όπου συλλέγονται λίγα. Εμφανίζουν δηλαδή, συστηματικά μικρότερο θόρυβο σε σχέση με τις υπόλοιπες.

Μπορούμε να εκτιμήσουμε στατιστικά τις παραπάνω ποσότητες, την μεροληψία του κάθε δημοσκόπου, τον ιστορικό θόρυβο στις μετρήσεις του, καθώς και την βελτίωση στην κάθε μέτρηση του που προκύπτει απ’την χρήση μεγαλύτερου δείγματος. Έπειτα μπορούμε να χρησιμοποιήσουμε τις παραπάνω πληροφορίες για να δώσουμε μεγαλύτερο ή μικρότερο βάρος σε κάθε μεμονωμένη δημοσκόπηση και συνδυάζοντας πολλές δημοσκοπήσεις να κάνουμε μια πιο αξιόπιστη εκτίμηση των ποσοστών κάθε κόμματος.

Δύο μοντέλα.

Οι δημοσκοπήσεις από μόνες τους, ειδικά στο μέσο μίας κυβερνητικής θητείας, εμπεριέχουν σημαντικό θόρυβο ως προς το αποτέλεσμα των επόμενων εκλογών. Ένας πιθανός λόγος είναι πώς ο κόσμος που συμμετέχει στις δημοσκοπήσεις απαντά σε αυτές με χαλαρότητα, σε αντίθεση με την στιγμή της πραγματικής ψήφου στην οποία κρίνει αυστηρά τόσο την κυβέρνηση όσο και την αντιπολίτευση. Κατ’επέκταση, συνυπολογίζοντας διάφορους παράγοντες που είναι σημαντικοί για τον δημόσιο βίο, μπορεί κανείς να προσπαθήσει να προβλέψει την εκλογική επιρροή που θά εκφραστεί στις επόμενες εκλογές. Για τον παραπάνω λόγο δημιουργήσαμε δύο μοντέλα:

  • Το δημοσκοπικό μοντέλο, το οποίο εμπεριέχει μόνο έναν σταθμισμένο συνδυασμό δημοσκοπήσεων, ώστε να εκτιμηθεί η τωρινή εκλογική επιρροή.

  • Το προγνωστικό μοντέλο, το οποίο συνδυάζει το δημοσκοπικό μοντέλο μαζί με ένα μοντέλο μηχανικής εκμάθησης. Το τελευταίο προσπαθέι με βάση διάφορους οικονομικούς δείκτες να προβλέψει την ψήφο που θα εκφραστεί στις επόμενες εκλογές. Ο συνδυασμός των δύο, στον βαθμό που και το μοντέλο μηχανική εκμάθησης και το δημοσκοπικό μοντέλο εμπεριέχουν έστω κάποια χρήσιμη πληροφορία, δίνει πιό αξιόπιστα αποτελέσματα

Τρία βήματα για το δημοσκοπικό μοντέλο.

  1. Συλλέγουμε πολλά ιστορικά δεδομένα δημοσκοπήσεων και κάνουμε μια πρώτη εκτίμηση για την πραγματική εκλογική επιρροή των κομμάτων κάθε χρονική στιγμή στα ιστορικά δεδομένα μας.
  2. Χρησιμοποιώντας την πρώτη εκτίμηση της πραγματικής εκλογικής επιρροής, υπολογίζουμε την κομματική μεροληψία κάθε δημοσκόπου, τον ιστορικό θόρυβο κάθε δημοσκόπου, καθώς και την επίδραση που έχει στις δημοσκοπήσεις η χρήση μεγαλύτερου δείγματος.
  3. Σε μία ξεχωριστή χρονοσειρά δημοσκοπήσεων, σταθμίζουμε τις δημοσκοπήσεις με βάση τις παραπάνω ποσότητες, και ελέγχουμε πως τα συμπεράσματα που έχουμε εξάγει επιβεβαιώνονται, και μας οδηγούν σε καλύτερες προβλέψεις.

Μια λεπτομερής περιγραφή του δημοσκοπικού μοντέλου.

1. Συλλέγουμε ιστορικά δεδομένα και κάνουμε την εκτίμηση μας για την πραγματική εκλογική επιρροή.

Το πρώτο βήμα στην εκτέλεση μιας στατιστικής ανάλυσης είναι η συλλογή δεδομένων. Συλλέγουμε τα αποτελέσματα των δημοσκοπήσεων από τις κύριες δημοσκοπικές εταιρείες για όλα τα μεγάλα ελληνικά κόμματα από το 2012 μέχρι το 2021. Τα δεδομένα αυτά έχουν την μορφή χρονοσειρών όπου η μια μεταβλητή είναι ο χρόνος και η δεύτερη μια τιμή εκλογικής επιρροής που είναι η εκτίμηση του κάθε δημοσκόπου. Ο αριθμός των δημοσκοπήσεων δείχνει αρκετές μεταβολές, την εκλογική περίοδο 2012-2015 διαθέτουμε 292 δημοσκοπήσεις, την περίοδο 2015-2019 διαθέτουμε 186 δημοσκοπήσεις, ενώ για την περίοδο 2019-2023 διαθέτουμε προς το παρόν 84 δημοσκοπήσεις.

Σαν παράδειγμα στην παρακάτω εικόνα εμφανίζουμε τις διάφορες δημοσκοπήσεις για την Νέα Δημοκρατία από τον Ιούλιο του 2019 μέχρι και τον Ιούνιο του 2021. Παρατηρούμε πως οι δημοσκοπήσεις εμφανίζουν σημαντικό θόρυβο. Πέρα από τις μεγάλες χρονικές κλίμακες δεν είναι ξεκάθαρο σε κάθε χρονική στιγμή αν τα ποσοστά ανεβαίνουν ή κατεβαίνουν.

image info

Το επόμενο βήμα είναι να βρούμε μια γραμμή τάσης των δημοσκοπήσεων για κάθε χρονική στιγμή. Αυτή η γραμμή τάσης μοιάζει με έναν μέσο όρο των δημοσκοπήσεων, αλλά διαφέρει με δύο σημαντικούς τρόπους.

  • Υποθέτουμε πως υπάρχει μία μέση τιμή απ΄την οποία προκύπτουν οι διάφορες μετρήσεις μέσω Γκαουσιανού θορύβου. Υποθέτουμε επίσης το επίπεδο του θορύβου παραμένει το ίδιο για κάθε χρονική στιγμή της χρονοσειράς και το εκτιμούμε αυτόματα μέσω μιας τεχνικής μηχανικής εκμάθησης.

  • Υποθέτουμε πως σε κάθε χρονική στιγμή ο μέρος όρος (η γραμμή τάσης) προκύπτει από τις μετρήσεις που έχουν γίνει στο πρόσφατο χρονικό διάστημα.

Στον βαθμό που υπάρχουν δημοσκοπικές εταιρείες και αριστερής και δεξιάς κατεύθυνσης η γραμμή τάσης θα είναι πιο αξιόπιστη από οποιαδήποτε μεμονωμένη δημοσκόπηση. Βλέπουμε παρακάτω το παράδειγμα της γραμμής τάσης για τα δεδομένα της Νέας Δημοκρατίας.

image info

2. Υπολογίζουμε τις παραμέτρους αξιοπιστίας κάθε δημοσκόπου.

2.a. Υπολογισμός της κομματικής μεροληψίας.

Χρησιμοποιούμε την παραπάνω πρώτη εκτίμηση της πραγματικής εκλογικής επιρροής για να υπολογίσουμε τις παραμέτρους αξιοπιστίας κάθε δημοσκόπου. Η πρώτη παράμετρος αξιοπιστίας που υπολογίζουμε είναι η μεροληψία κάθε δημοσκόπου. Συγκεκριμένα:

  • Αφότου υπολογίσουμε τις γραμμές τάσης υπολογίζουμε την μεροληψία, σαν την μέση απόκλιση κάθε δημοσκόπου από την γραμμή τάσης.

  • Εστιάζουμε στην μεροληψία υπέρ ή κατά τις Νέας Δημοκρατίας και του ΣΥΡΙΖΑ μίας και αυτά τα δύο κόμματα αποτελούν τους δύο κυρίαρχους πόλους του δικομματισμού, και είναι σε αυτά τα κόμματα που εμφανίζεται η πιο έντονη μεροληψία.

  • Για να πάρουμε μία μοναδική τιμή αθροίζουμε τις μεροληψίες ως προς τα επιμέρους κόμματα. Πιο θετικές τιμές δείχνουν μεροληψίας υπέρ της Νέας Δημοκρατίας, ενώ αρνητικές τιμές δείχνουν μεροληψία υπέρ του ΣΥΡΙΖΑ.

Παρακάτω βλέπουμε πως φαίνεται οπτικά η συστηματική απόκλιση ενός δημοσκόπου από την γραμμή τάσης.

image info

Τα δημοσκοπικά αποτελέσματα αυτού του δημοσκόπου αποκλίνουν συστηματικά από την γραμμή τάσης, συγκεκριμένα υπολογίζει συστηματικά υψηλότερα ποσοστά υπέρ της Νέας Δημοκρατίας.

Παρακάτω βλέπουμε για διάφορες δημοσκοπικές εταιρίες την μέση απόκλιση υπέρ ή κατά των παραπάνω δύο κομμάτων για την χρονική περίοδο 2012-2019, σε σχέση με την γραμμή τάσης που υπολογίσαμε.

image info

Κάποιες από τις παραπάνω δημοσκοπικές εταιρείες μπορεί να μην είναι γνωστές στο ευρύ κοινό, σε ένα ξεχωριστό άρθρο αναλύουμε τις παραπάνω περιπτώσεις διεξοδικά. Αυτό είναι και ένα πρώτο τεστ προκειμένου να ελέγξουμε αν η γραμμή τάσης μας είναι αξιόπιστη.

  • Τα αποτελέσματα δείχνουν κομματική μεροληψία και προς τον ΣΥΡΙΖΑ και προς την Νέα Δημοκρατία, με τρόπο ο οποίος είναι λογικός, δηλαδή δημοσκοπήσεις που γίνονται κατά παραγγελία μέσων φίλα προσκείμενων στο ένα ή στο άλλο κόμμα ευνοούν το κόμμα αυτό.

Είναι σημαντικό επίσης πως αυτό το αποτέλεσμα προέκυψε απευθείας απ’τα δεδομένα χωρίς κάποια δική μας πρότερη υπόθεση.

2.b. Υπολογισμός του ιστορικού θορύβου.

Στην συνέχεια μπορούμε να αναπροσαρμόσουμε τα δεδομένα μας προκειμένου να λάβουμε υπόψιν μας την παραπάνω συστηματική απόκλιση κάθε δημοσκόπου. Πλέον οι μετρήσεις κάθε δημοσκόπου δεν θα εμφανίζουν μια συστηματική απόκλιση σε σχέση με την γραμμή τάσης, αλλά ένα τυχαίο σφάλμα. Παρακάτω βλέπουμε τον ίδιο δημοσκόπο με πριν αλλά αφότου έχουμε αφαιρέσει απο αυτόν και τους υπόλοιπους την τιμή μεροληψίας τους.

image info

Παρατηρούμε πως οι διάφορες δημοσκοπήσεις εμφανίζουν πολύ μικρότερη διακύμανση από πριν επιπλέον για τον συγκεκριμένο δημοσκόπο η απόκλιση του από την γραμμή τάσης είναι πλέον πότε αρνητική και πότε θετική, πιο κοντά δηλαδή σε αυτό που θα θεωρούσαμε τυχαίο σφάλμα.

Το μέγεθος της τυχαιότητας εξαρτάται απ΄τις τεχνικές που χρησιμοποιεί κάθε δημοσκοπική εταιρεία, τον τρόπο με τον οποίο επιλέγει το δείγμα της, αν αυτό είναι αντιπροσωπευτικό, πώς διορθώνεται όταν δεν είναι αντιπροσωπευτικό κτλ. Παρακάτω βλέπουμε τα αποτελέσματα αυτής της ανάλυσης:

image info

Αυτά τα αποτελέσματα είναι λίγο πιο δύσκολα να ερμηνευτούν. Παρολαυτά σε γενικές γραμμές:

  • Οι πιο παλιές και εδραιωμένες εταιρείες (GPO, MRB, VPRC, Metron Analysis) έχουν λιγότερο θόρυβο και άρα πιθανά καλύτερη μεθοδολογία από πιο καινούργιες (Opinion Poll, ProRata, PAMAK, Interview).

Αυτή η ανάλυση είναι σημαντική καθώς μπορούμε να σταθμίσουμε καινούργιες δημοσκοπήσεις με ένα βάρος ανάλογα με το πόσο αξιόπιστη ήταν η κάθε δημοσκοπική στο παρελθόν.

2.c. Υπολογισμός της επίδρασης μεγαλύτερου δημοσκοπικού δείγματος.

Οι δημοσκόποι γνωρίζουν πως η τυχαιότητα στο δείγμα τους είναι ένας βασικός παράγοντας στην εμφάνιση σφάλματος στις μετρήσεις τους. Για αυτόν τον λόγο συχνά επιδιώκουν να μεγαλώσουν το δείγμα τους, δηλαδή τον αριθμό των ατόμων που δίνουν τις εκλογικές τους προτιμήσεις. Το μεγαλύτερο δείγμα θα έπρεπε θεωρητικά να δίνει μια καλύτερη εκτίμηση της εκλογικής επιρροής κάθε κόμματος. Αυτή είναι μια χρήσιμη πληροφορία την οποία μπορούμε να αξιοποιήσουμε και εμείς. Για αυτόν τον λόγο κάνουμε μια σχετική στατιστική ανάλυση στο ιστορικό δείγμα των δημοσκοπήσεων που έχουμε.

  • Συλλέγουμε όλες τις δημοσκοπήσεις από το 2012 μέχρι το 2019 υπολογίζουμε την απόκλιση τους σε μονάδες από την εκάστοτε γραμμή τάσης και αντιπαραβάλουμε αυτή την απόκλιση με το μέγεθος του δημοσκοπικού δείγματος της κάθε δημοσκόπησης. Επικεντρωνόμαστε και πάλι στα δύο μεγάλα κόμματα, την Νέα Δημοκρατία και τον ΣΥΡΙΖΑ, και παίρνουμε τον μέσο όρο του σφάλματος κάθε δημοσκόπησης και ως προς τους δύο.

  • Υπάρχει και θετικό και αρνητικό σφάλμα μιας και οι δημοσκοπήσεις μπορεί να υποτιμούν ή να υπερεκτιμούν τα εκλογικά ποσοστά.

  • Προσαρμόζουμε επίσης μια γραμμική συνάρτηση πάνω σε αυτό το δείγμα, η κλίση της οποίας θα μοντελοποιήσει την επίδραση του μεγέθους του δείγματος.

Παρακάτω βλέπουμε τα αποτελέσματα αυτής της στατιστικής ανάλυσης.

image info

Στο παραπάνω εμφανίζεται μια ξεκάθαρη τάση όσο αυξάνεται το δείγμα κάθε δημοσκόπου. Συγκεκριμένα:

  • Το σφάλμα των δημοσκόπων πέφτει κατά μέσο όρο όσο αυξάνεται το στατιστικό δείγμα.

Από το διάγραμμα φαίνεται μια αρκετά έντονη επίδραση απ’το μέγεθος του στατιστικού δείγματος στο σφάλμα. Συγκεκριμένα θα φανταζόταν κανείς πως με ένα δείγμα 2000 ανθρώπων το σφάλμα φτάνει κοντά στο μηδέν. Στην πραγματικότητα η επίδραση του μεγέθους του δείγματος δεν είναι τόσο έντονη, και ταυτόχρονα πέρα από τα 2000 δείγματα δεν υπάρχει καμία βελτίωση στην ακρίβεια των μετρήσεων.

3. Επιβεβαιώνουμε τα ευρήματα μας σε μια ξεχωριστή χρονοσειρά.

Μια βασική αρχή της μηχανικής εκμάθησης είναι πως χωρίζουμε τα δείγματα μας σε ένα κομμάτι το οποίο χρησιμοποιούμε προκειμένου να μάθουμε έναν κανόνα, και σε ένα άλλο κομμάτι στο οποίο ελέγχουμε αν ο κανόνας μας συνεχίζει να ισχύει.

Το τελευταίο βήμα λοιπόν είναι να επιβεβαιώσουμε την χρησιμότητα αυτών που μάθαμε παραπάνω σε μία καινούργια χρονοσειρά. Για τον σκοπό αυτό χρησιμοποιούμε τις δημοσκοπήσεις που έχουν δημοσιευτεί για την εκλογική περίοδο 2019-2023. Όπως αναφέραμε και παραπάνω:

  • Λαμβάνουμε υπόψιν μας την ιστορική μεροληψία των δημοσκόπων.

  • Δίνουμε διαφορετικό βάρος σε κάθε δημοσκόπηση, ανάλογα με το μέγεθος του δείγματος καθώς και την ιστορική ακρίβεια κάθε δημοσκόπου. Έτσι, δημοσκοπήσεις που έχουν εκτελεστεί από δημοσκόπους με χαμηλή αξιοπιστία έχουν μικρότερη επίδραση στον υπολογισμό της καινούργιας εκτίμησης μας για την πραγματική εκλογική επιρροή των κομμάτων. Η καινούργια εκτίμησή μας, λαμβάνει και πάλι την μορφή μιας γραμμής τάσης.

Μια βασική συνέπεια της παραπάνω ανάλυσης είναι πως η αξιοπιστία των μετρήσεων μας αλλάζει με τον χρόνο, σε διάφορα σημεία “σφίγγει” γύρω από την γραμμή τάσης, ενώ σε άλλα “ανοίγει”, αντανακλώντας το πόσο σίγουροι είμαστε για τις πιο πρόσφατες δημοσκοπήσεις.

  • Με βάση τα πειράματα μας, αυτό το μοντέλο “ερμηνεύει καλύτερα” την παραπάνω χρονοσειρά σε σχέση με το να υποθέσουμε πως κάθε δημοσκόπηση είναι το ίδιο αξιόπιστη.