Μια ομάδα με επικεφαλής επιστήμονες της Google Research ανέπτυξε ένα εργαλείο μηχανικής μάθησης που μπορεί να βοηθήσει στην ανίχνευση και παρακολούθηση καταστάσεων υγείας, αξιολογώντας τον ήχο του βήχα και την αναπνοή ενός ατόμου. Το σύστημα τεχνητής νοημοσύνης που ονομάστηκε Health Acoustic Representations (HeAR), εκπαιδεύτηκε σε εκατομμύρια ηχητικά αποσπάσματα ανθρώπινων ήχων.
Δεν είναι η πρώτη φορά που μια ερευνητική ομάδα διερευνά τη χρήση του ήχου ως βιοδείκτη για ασθένειες. Πρόκειται για μια προσέγγιση που κέρδισε έδαφος κατά τη διάρκεια της πανδημίας του κορονοϊού, όταν οι επιστήμονες ανακάλυψαν ότι μπορούσαν να ανιχνεύσουν την αναπνευστική νόσο από το βήχα ενός ατόμου. Η ομάδα της Google άρχισε να αναπτύσσει το σύστημα αφού οι εργαζόμενοι στον τομέα της υγειονομικής περίθαλψης ανέφεραν ότι είχαν μάθει κατά τη διάρκεια της πανδημίας να διακρίνουν ποιοι ασθενείς είχαν COVID-19 από τον ήχο του βήχα τους.
Η Google ακολούθησε μια διαφορετική προσέγγιση στην ανίχνευση ασθενειών από τις άλλες ομάδες που εργάζονται σε παρόμοια έργα. Αντί να εκπαιδεύσει ένα σύστημα τεχνητής νοημοσύνης χρησιμοποιώντας ηχογραφήσεις με ετικέτες που προσδιορίζουν μια συγκεκριμένη ασθένεια, χρησιμοποίησε μια προσέγγιση που μοιάζει πολύ με αυτή που χρησιμοποιείται για τη δημιουργία μεγάλων γλωσσικών μοντέλων όπως το ChatGPT.
Οι ερευνητές της Google χρησιμοποίησαν αυτο-εποπτευόμενη μάθηση, ένα είδος αυτόνομης μάθησης με χρήση τεχνητών νευρωνικών δικτύων που δεν απαιτεί δειγματοληπτικά δεδομένα ταξινομημένα εκ των προτέρων από ανθρώπους. Μέσω μιας αυτοματοποιημένης διαδικασίας, εξήγαγαν περισσότερα από 300 εκατομμύρια σύντομα ηχητικά αποσπάσματα βήχα, αναπνοής και άλλων ανθρώπινων ήχων από δημόσια διαθέσιμα βίντεο στο YouTube. Κάθε κλιπ μετατράπηκε σε μια οπτική αναπαράσταση του ήχου που ονομάζεται φασματογράφημα. Στη συνέχεια, οι ερευνητές μπλόκαραν τμήματα των φασματογραμμάτων για να βοηθήσουν το μοντέλο να μάθει να προβλέπει τα τμήματα που έλειπαν. Χρησιμοποιώντας αυτή τη μέθοδο, οι ερευνητές δημιούργησαν ένα μοντέλο που μπορεί να προσαρμοστεί για πολλές εργασίες.
Οι ερευνητές εκπαίδευσαν το σύστημα τους ώστε να ανιχνεύει τη φυματίωση και τον κορονοϊό. Επειδή το μοντέλο εκπαιδεύτηκε σε ένα τόσο ευρύ φάσμα ανθρώπινων ήχων, οι ερευνητές χρειάστηκε να το τροφοδοτήσουν μόνο με πολύ περιορισμένα σύνολα δεδομένων που είχαν επισημανθεί με αυτές τις ασθένειες, προκειμένου να το τελειοποιήσουν.
Σε μια κλίμακα όπου το 0,5 αντιπροσωπεύει ένα μοντέλο που δεν αποδίδει καλύτερα από μια τυχαία πρόβλεψη και το 1 αντιπροσωπεύει ένα μοντέλο που κάνει μια ακριβή πρόβλεψη κάθε φορά, το HeAR σημείωσε 0,645 και 0,710 στην ανίχνευση του COVID-19. Πρίκειται για μια καλύτερη επίδοση από τα υπάρχοντα μοντέλα που εκπαιδεύτηκαν σε δεδομένα ομιλίας ή γενικού ήχου. Στην ανίχνευση της φυματίωσης, σημείωσε 0,739.
Το γεγονός ότι τα αρχικά δεδομένα εκπαίδευσης ήταν τόσο διαφορετικά – σημαίνει επίσης ότι τα αποτελέσματα είναι γενικεύσιμα, σύμφωνα με τους ερευνητές.
Ο Αλί Ιμράν, μηχανικός στο Πανεπιστήμιο της Οκλαχόμα στην Tulsa, εκτιμά ότι ο τεράστιος όγκος των δεδομένων που χρησιμοποιεί η Google προσδίδει σημασία στην έρευνα.
«Μας δίνει την αυτοπεποίθηση ότι πρόκειται για ένα αξιόπιστο εργαλείο», δήλωσε στο επιστημονικό περιοδικό Nature.
Ο Ιμράν ηγείται της ανάπτυξης μιας εφαρμογής με την ονομασία AI4COVID-19, η οποία έχει σχεδιαστεί για να ξεχωρίζει τον βήχα από COVID-19 από άλλους τύπους βήχα. Η ομάδα του σχεδιάζει να υποβάλει αίτηση για έγκριση από τον Οργανισμό Τροφίμων και Φαρμάκων των ΗΠΑ (FDA), ώστε η εφαρμογή να μπορέσει τελικά να κυκλοφορήσει στην αγορά. Επί του παρόντος αναζητά χρηματοδότηση για τη διεξαγωγή των απαραίτητων κλινικών δοκιμών. Μέχρι στιγμής, κανένα εγκεκριμένο από τον FDA εργαλείο δεν παρέχει διάγνωση μέσω ήχων.
«Η επιστήμη της ακουστικής υπάρχει εδώ και δεκαετίες. Αυτό που αλλάζει είναι ότι τώρα, με την τεχνητή νοημοσύνη και τη μηχανική μάθηση, μπορούμε να συλλέγουμε και να αναλύουμε πολλά δεδομένα ταυτόχρονα» δήλωσε ο Γιελ Μπενσουσάν, λαρυγγολόγος στο Πανεπιστήμιο της Νότιας Φλόριντα στην Τάμπα.
Ο Μπενσουσάν είναι συν-επικεφαλής μιας ερευνητικής κοινοπραξίας που επικεντρώνεται στη διερεύνηση της φωνής ως βιοδείκτη για την παρακολούθηση της υγείας.
«Υπάρχουν τεράστιες δυνατότητες όχι μόνο για τη διάγνωση, αλλά και για τον έλεγχο και την παρακολούθηση. Δεν μπορούμε να επαναλαμβάνουμε σαρώσεις ή βιοψίες κάθε εβδομάδα. Γι’ αυτό λοιπόν η φωνή είναι ένας πραγματικά σημαντικός βιοδείκτης για την παρακολούθηση ασθενειών. Δεν είναι επεμβατική και είναι χαμηλών πόρων» σημείωσε.
Προς το παρόν, η ομάδα σκοπεύει να δώσει πρόσβαση στους ενδιαφερόμενους ερευνητές πρόσβαση στο σύστημα, ώστε να μπορούν να το χρησιμοποιήσουν στη δική τους έρευνα.
«Ο στόχος μας ως μέρος της Google Research είναι να ενθαρρύνουμε την καινοτομία σε αυτόν τον εκκολαπτόμενο τομέα», δήλωσε ο Sujay Kakarmath, διαχειριστής προϊόντων της Google στη Νέα Υόρκη, ο οποίος εργάστηκε στο έργο.