Έρευνες - Μελέτες

Τρία AI chatbots πέρασαν την ίδια συνέντευξη για δουλειά. Το αποτέλεσμα ήταν τρεις εντελώς διαφορετικοί υποψήφιοι.

Νέα έρευνα της Bryq αξιολόγησε το ChatGPT, Claude και Gemini απέναντι σε 10.000 πραγματικούς υποψηφίους για θέση Marketing Executive και κατέληξε ότι οι διαφορές ανάμεσα σε αυτά τα κορυφαία μοντέλα ΑΙ είναι πολύ μεγαλύτερες και πολύ πιο ουσιαστικές, απ’ όσο δείχνουν τα δημόσια benchmarks

Η Bryq, η πλατφόρμα αξιολόγησης ταλέντου που χρησιμοποιείται από οργανισμούς σε περισσότερες από 25 χώρες, παρουσίασε το The AI Candidate, μια νέα ερευνητική μελέτη που εξετάζει πώς συμπεριφέρονται τρία από τα πιο διαδεδομένα AI chatbots όταν περνούν την ίδια αξιολόγηση δεξιοτήτων που χρησιμοποιείται σε πραγματικές διαδικασίες πρόσληψης.

Από τον Ιανουάριο έως τον Μάρτιο του 2026, η Bryq υπέβαλε το OpenAI ChatGPT (Instant tier), Anthropic Claude (Sonnet 4.6) και Google Gemini (Fast tier) στην πλήρη αξιολόγηση για τον ρόλο του Marketing Executive. Τα μοντέλα αξιολογήθηκαν σε γνωστικές ικανότητες, προσωπικότητα βάσει δομής 16 παραγόντων, επαγγελματικές δεξιότητες και AI proficiency, ενώ τα αποτελέσματά τους συγκρίθηκαν με την παγκόσμια βάση 10.000 ανθρώπινων υποψηφίων της Bryq που πέρασαν το ίδιο test για την ίδια θέση.

Το αποτέλεσμα: τα τρία AI συστήματα λειτούργησαν σαν τρεις εντελώς διαφορετικοί υποψήφιοι.

Κύρια ευρήματα

Τρεις διαφορετικές «προσωπικότητες». Το Claude εμφανίστηκε ως δυναμικός και ευθύς συνεργάτης, με αυτοπεποίθηση και ξεκάθαρη άποψη. Το Gemini έδωσε την εικόνα ενός υπερβολικά θετικού και κοινωνικά «τέλειου» προφίλ, συγκεντρώνοντας σχεδόν όλες τις επιθυμητές κοινωνικές συμπεριφορές στα υψηλότερα επίπεδα, μοτίβο που συνάδει με τη διεθνή βιβλιογραφία γύρω από το social desirability bias στα LLMs. Παράλληλα, το ChatGPT αναδείχθηκε ως ένας προσεκτικός, ανεξάρτητος αναλυτής, πιο συγκρατημένος και πιο επιφυλακτικός από τους «συναδέλφους» του.

Κοινό αδύναμο σημείο: η λογική σκέψη. Και τα τρία μοντέλα βρέθηκαν στο χαμηλότερο 15% του ανθρώπινου δείγματος στη δοκιμασία λογικής σκέψης της Bryq. Το Claude και ChatGPT ισοβάθμησαν στο 13ο εκατοστημόριο, ενώ το Gemini βρέθηκε στο 3ο. Η ανακάλυψη αυτή συμβαδίζει με δημοσιευμένες έρευνες που δείχνουν περιορισμούς των LLMs σε συμβολικό συλλογισμό υπό χρονική πίεση.

Το Claude σημείωσε τη συνολικά καλύτερη καταλληλότητα για τον ρόλο. Παρότι βρέθηκε πολύ κοντά στο Gemini ως προς τα χαρακτηριστικά προσωπικότητας, το Claude υπερίσχυσε καθαρά στις γνωστικές αξιολογήσεις, ειδικά στο numerical reasoning, όπου έφτασε στο 98ο εκατοστημόριο. Αν το Gemini «έμοιαζε» με Marketing Executive, το Claude έδειξε ότι μπορεί και να σκέφτεται σαν ένας.

Η μεγαλύτερη αποκάλυψη ήταν οι ίδιες οι διαφορές μεταξύ των μοντέλων. Σύμφωνα με την έρευνα, οι αποκλίσεις ανάμεσα στα τρία AI μοντέλα στους παράγοντες που επηρεάζουν την πραγματική εργασιακή απόδοση ήταν πολύ πιο έντονες απ’ όσο αφήνουν να εννοηθούν τα δημόσια benchmarks. Επίσης, η αντιμετώπιση των κορυφαίων AI συστημάτων ως «ισοδύναμων» λύσεων δεν επιβεβαιώνεται ψυχομετρικά.

Δήλωση του CEO της Bryq, George Kalyvas

«Κάθε ομάδα που ενσωματώνει τη χρήση AI έχει κάνει την ίδια άβολη συζήτηση: τα benchmark scores δείχνουν ότι τα μοντέλα είναι σχεδόν ίδια, όμως όσοι τα χρησιμοποιούν καθημερινά λένε ότι “νιώθουν” πως είναι εντελώς διαφορετικά. Θελήσαμε λοιπόν να λύσουμε αυτή τη διαφωνία με το ίδιο εργαλείο που χρησιμοποιούμε για να αξιολογήσουμε ανθρώπους για την ίδια θέση. Αυτό που προέκυψε ήταν τρία ξεχωριστά προφίλ: διαφορετικοί τρόποι σκέψης, διαφορετικές συμπεριφορές, διαφορετικό fit για διαφορετικές ομάδες και εργασίες. Η επιλογή λοιπόν ενός AI μοντέλου για μια ομάδα δεν είναι μόνο τεχνολογική απόφαση, είναι και επιλογή συμπεριφοράς. Άρα καλό είναι να γίνεται συνειδητά.»

Γιατί έχει σημασία

Η μελέτη υποστηρίζει ότι το βασικό ερώτημα που θέτουν οι ομάδες προσλήψεων για έναν υποψήφιο ισχύει πλέον και για τα AI εργαλεία: όχι μόνο «μπορεί να εκτελέσει τη δουλειά;», αλλά και «τι είδους “συνεργάτης” είναι όταν δουλεύει« και «ταιριάζει αυτό με τη φύση της εργασίας;».

Τo assessment της Bryq είναι το ίδιο εργαλείο που χρησιμοποιούν οι πελάτες της εταιρείας για να αξιολογήσουν υποψηφίους για τη θέση του Marketing Executive και άλλες 140+ θέσεις. Σύμφωνα με τα στοιχεία της εταιρείας, οι πελάτες της αναφέρουν έως και 3 φορές καλύτερη ποιότητα πρόσληψης, 47% χαμηλότερη πρόωρη αποχώρηση και διπλάσια ταχύτητα στις προσλήψεις.

Σχετικά με τη μεθοδολογία

Κάθε AI μοντέλο αξιολογήθηκε μία φορά, στην προεπιλεγμένη δημόσια εκδοχή του. Δεν χρησιμοποιήθηκαν system prompts, personas, reasoning modes ή tool integrations. Κάθε assessment ολοκληρώθηκε σε μία συνεδρία, ερώτηση προς ερώτηση, ακριβώς όπως τη βιώνει ένας ανθρώπινος υποψήφιος.

Τα αποτελέσματα παρουσιάζονται ως εκατοστημόρια απέναντι στην παγκόσμια βάση υποψηφίων Marketing Executive της Bryq (n=10.000), που προέρχεται από πραγματικές διαδικασίες πρόσληψης σε Αφρική, Ασία, Ευρώπη, Λατινική Αμερική, Βόρεια Αμερική και Ωκεανία.

Επίσης, δύο κατηγορίες αξιολόγησης, τα hard marketing skills και AI proficiency, εξαιρέθηκαν από τη συγκριτική ανάλυση, καθώς και τα τρία μοντέλα πέτυχαν επιδόσεις «οροφής». Η πλήρης έκθεση αναλύει επίσης πέντε βασικούς περιορισμούς της έρευνας και παραπέμπει στη σχετική ψυχομετρική βιβλιογραφία για προσωπικότητα και reasoning στα LLMs.

Διαβάστε την πλήρη έρευνα

Η πλήρης έρευνα «The AI Candidate» είναι διαθέσιμη δωρεάν και χωρίς εγγραφή στον παρακάτω σύνδεσμο.

Συνοδευτικό blog summary:

https://www.bryq.com/blog/ai-models-job-interview-the-ai-candidate

TAGS:

close menu