Χρήστης:AgentRaverEditor47/πρόχειρο
Αυτή η σελίδα είναι το κύριο «πρόχειρο χρήστη» του AgentRaverEditor47. Ένα «πρόχειρο χρήστη» είναι υποσελίδα της προσωπικής σελίδας του χρήστη στη Βικιπαίδεια. Εξυπηρετεί ως χώρος πειραματισμών και ανάπτυξης σελίδων και δεν είναι εγκυκλοπαιδικό λήμμα. Επεξεργαστείτε ή δημιουργήστε το δικό σας πρόχειρο εδώ ή κάνετε δοκιμές στο κοινόχρηστο Πρόχειρο Βικιπαίδειας. |
Μηχανική μάθηση στην βιοπληροφορική και στην υπολογιστική βιολογία
[Επεξεργασία | επεξεργασία κώδικα]Ο όρος μηχανική μάθηση στην βιοπληροφορική και στην υπολογιστική βιολογία αναφέρεται στην χρήση αλγορίθμων μηχανικής μάθησης στο πλαίσιο εφαρμογών των εν λόγω διεπιστημονικών κλάδων. Παρά την σημαντική τους επικάλυψη, η βιοπληροφορική (bioinformatics) και η υπολογιστική βιολογία (computational biology) έλαβαν διακριτούς ορισμούς από τα Εθνικά Ινστιτούτα Υγείας των ΗΠΑ στις αρχές της χιλιετίας [1]. Βάσει αυτών των ορισμών, η βιοπληροφορική μπορεί να περιγραφεί ως η ανάπτυξη και εφαρμογή υπολογιστικών εργαλείων και προσεγγίσεων στην απόκτηση, την αποθήκευση, την οργάνωση, την ανάλυση και την οπτικοποίηση βιολογικών δεδομένων. Η υπολογιστική βιολογία, αντίθετα, περικλείει πρωταρχικά την ανάπτυξη και την εφαρμογή θεωρητικών και αναλυτικών μεθόδων της επιστήμης δεδομένων, μαθηματικών μοντέλων και υπολογιστικών προσομοιώσεων στην διερεύνηση της λειτουργίας βιολογικών συστημάτων [1]. Πριν την διάδοση της χρήσης τεχνικών μηχανικής μάθησης, η ανάγκη προγραμματισμού των απαιτούμενων αλγορίθμων εξ ολοκλήρου από ανθρώπινο χέρι, συνοδευόταν από σημαντικούς περιορισμούς, ιδίως σε περιπτώσεις όπου το σύνολο δεδομένων προς ανάλυση είναι πολύ μεγάλο (βλ. σύνολα δεδομένων προερχόμενα από –ωμικές τεχνολογίες) ή ιδιαίτερα πολύπλοκο (βλ. προβλήματα πρόβλεψης τρισδιάστατης δομής πρωτεϊνών από αμινοξική αλληλουχία). Η εδραίωση της μηχανικής μάθησης επιτρέπει πρακτικά την διαχείριση προβλημάτων που δύσκολα μπορεί να επεξεργαστεί ο ανθρώπινος νους, προσφέροντας παράλληλα μια αυτοματοποιημένη οδό ανάλυσης απαιτητικών συνόλων δεδομένων [2].
Η μηχανική μάθηση (machine learning) αποτελεί κλάδο της επιστήμης των υπολογιστών που αποσκοπεί πρακτικά στην χρήση αλγορίθμων για την μίμηση του τρόπου με τον οποίο οι άνθρωποι μαθαίνουν να αναγνωρίζουν μοτίβα, βελτιώνοντας έτσι βαθμηδόν την απόδοσή τους σε μια εργασία μέσω μιας επαναλαμβανόμενης διαδικασίας δοκιμής και σφάλματος [3] [2]. Αυτή η λογική αποτυπώνεται σαφώς από τον ευρέως χρησιμοποιούμενο ορισμό του Tom M. Mitchell, σύμφωνα με τον οποίο «ένα πρόγραμμα υπολογιστή λέγεται ότι μαθαίνει από την εμπειρία (experience) Ε ως προς μια κατηγορία εργασιών (tasks) Τ και ένα μέτρο απόδοσης (performance) P, αν η απόδοσή του σε εργασίες της κατηγορίας T, όπως μετράται από το μέτρο P, βελτιώνεται με την εμπειρία Ε» [3]. Ως αποτέλεσμα της διαδικασίας μάθησης, ο αλγόριθμος μηχανικής μάθησης καθίσταται εντέλει ικανός να προσαρμόζει προγνωστικά μοντέλα σε σύνολα δεδομένων και να αναγνωρίζει εντός αυτών ομαδοποιήσεις με λειτουργική σημασία (Greener et al. 2022). Επί του παρόντος αλγόριθμοι μηχανικής μάθησης έχουν εφαρμοστεί σε ένα μεγάλο εύρος κλάδων της βιολογικής έρευνας, εντός των οποίων συμπεριλαμβάνονται η δομική βιολογία, η γονιδιωματική, η πρωτεωμική και του συνόλου πρακτικά των –ωμικών προσεγγίσεων, η βιολογία συστημάτων, οι φυλογενετικές μελέτες, η ανακάλυψη φαρμάκων, καθώς και ένα πλήθος ιατρικών και διαγνωστικών εφαρμογών.
Οι διαθέσιμες τεχνικές μηχανικής μάθησης τείνουν να κατηγοριοποιούνται με δύο βασικούς τρόπους. Ο πρώτος αφορά το αν χρησιμοποιούν ή όχι αλγορίθμους τεχνητών νευρωνικών δίκτυων (artificial neural networks): οι μεθοδολογίες που αξιοποιούν νευρωνικά δίκτυα με δύο η περισσότερα κρυφά επίπεδα αναφέρονται συχνά ως βαθιά μάθηση (deep learning) σε αντιπαράθεση με τεχνικές που δεν βασίζονται σε τεχνητά νευρωνικά δίκτυα και χαρακτηρίζονται ως παραδοσιακή μηχανική μάθηση [3] . Αξίζει εδώ να αναφερθεί πως ορισμένες πηγές δεν κατηγοριοποιούν νευρωνικά δίκτυα ενός κρυφού επιπέδου, όπως κάποιους αυτοκωδικοποιητές (autoencoders), ως αλγορίθμους βαθιάς μάθησης έστω και αν αυτό δεν τους καθιστά τεχνικές παραδοσιακής μηχανικής μάθησης [4]. Ο δεύτερος τρόπος κατηγοριοποίησης στηρίζεται στην πορεία με την οποίο επιτυγχάνεται η μάθηση βάσει της οποίου προκύπτουν οι αδρές κατηγορίες της επιτηρούμενης μάθησης (supervised learning) και της μη-επιτηρούμενης μάθησης (non-supervised learning). Ενδιάμεση των δύο προηγουμένων είναι η περίπτωση της ημι-επιτηρούμενης μάθησης (semi-supervised learning), ενώ μια επιπλέον κατηγορία είναι αυτή της ενισχυτικής μάθησης (reinforcement learning), στην οποία δεν θα γίνει εδώ αναλυτική αναφορά παρά το γεγονός ότι έχει περιστασιακά βρει επίσης εφαρμογές στην βιολογική έρευνα.
Κατηγορίες προσεγγίσεων μηχανικής μάθησης με κριτήριο τον τρόπο μάθησης
[Επεξεργασία | επεξεργασία κώδικα]- Επιτηρούμενη μάθηση ή μάθηση με επίβλεψη (supervised learning). Στην επιτηρούμενη μάθηση, ο αλγόριθμος μηχανικής μάθησης εκπαιδεύεται πάνω σε ένα χαρακτηρισμένο (labeled) σύνολο δεδομένων, για το οποίο είναι γνωστή η έξοδος που αντιστοιχεί σε κάθε δεδομένο εισόδου [2][5][6]. Η εκπαίδευση, για παράδειγμα, ενός αλγορίθμου πρόβλεψης της δευτεροταγούς δομής πρωτεϊνών μπορεί να πραγματοποιηθεί σε σύνολο πρωτεϊνών γνωστής δομής για τις οποίες είναι γνωστό σε τι τύπου δευτεροταγή δομή εντάσσεται κάθε αμινοξύ της αλληλουχίας τους [2][5]. Όπως υποδηλώνεται από το συγκεκριμένο παράδειγμα, ο χαρακτηρισμός των δεδομένων του συνόλου εκπαίδευσης σε βιολογικές εφαρμογές πηγάζει κυρίως από υπάρχοντα πειραματικά αποτελέσματα. Κατά την εκπαίδευση, ο αλγόριθμος προσπαθεί επαναλαμβανόμενα να προσαρμόσει ένα προγνωστικό μοντέλο στα δεδομένα του συνόλου εκπαίδευσης, στην προσπάθεια του να μειώσει, με κάθε επανάληψη, την τιμή μιας συνάρτησης κόστους (cost function) που μετρά την απόκλιση του αποτελέσματος του μοντέλου από το επιθυμητό αποτέλεσμα [2][5]. Ο «καλά εκπαιδευμένος» αλγόριθμος αναμένεται να έχει κατασκευάσει ένα μοντέλο – πρακτικά μια συνάρτηση – με την ικανότητα να προβλέψει σωστά την έξοδο για νέα, άγνωστα δεδομένα εισόδου. Η επιτηρούμενη μάθηση είναι κατάλληλη για την προσέγγιση προβλημάτων παλινδρόμησης (regression) και κατηγοριοποίησης (classification), ενώ χρησιμοποιείται για την εκπαίδευση τυπικών νευρωνικών δικτύων παρότι υπάρχουν παραδείγματα αυτών, όπως οι αυτοκωδικοποιητές (autoencoders), που εντάσσονται κατά κανόνα στην μη-επιτηρούμενη μάθηση [2].
- Μη επιτηρούμενη μάθηση ή μάθηση χωρίς επίβλεψη (unsupervised learning). Η μη-επιτηρούμενη μάθηση, αφορά εφαρμογές στις οποίες ο αλγόριθμος καλείται να αναγνωρίσει μοτίβα εντός συνόλων μη χαρακτηρισμένων (unlabeled) δεδομένων, χωρίς να χρειάζεται να έχει προηγουμένως εκπαιδευτεί σε σύνολο γνωστών, χαρακτηρισμένων δεδομένων [2][6]. Ως συνέπεια είναι ιδιαίτερα χρήσιμη για επίλυση προβλημάτων όπως είναι ο διαχωρισμός ενός συνόλου ασθενών σε υποομάδες με παρεμφερή γονιδιωματικά προφίλ [7], για τα οποία δεν προϋπάρχει ένα σχετικό σύνολο γνωστών δεδομένων. Μη επιτηρούμενη μάθηση μπορεί να αξιοποιηθεί για εργασίες συσταδοποίησης (clustering) όπως η προαναφερθείσα ή σε διαδικασίες μείωσης διαστάσεων (dimensionality reduction), ενώ εφαρμόζεται και σε συγκεκριμένες κατηγορίες νευρωνικών δικτύων όπως σημειώθηκε προηγουμένως.
- Ημι-επιτηρούμενη μάθηση (semi-supervised learning). Η ημιεπιτηρούμενη μάθηση, αποτελεί έναν συνδυασμό των δύο παραπάνω κατηγοριών που προτιμάται σε περιπτώσεις που ο χαρακτηρισμός δεδομένων εισόδου είναι δύσκολος και κοστοβόρος. Σε αυτή την προσέγγιση, ειδικότερα, μια μικρή ποσότητα χαρακτηρισμένων δεδομένων παρέχεται στον αλγόριθμο για να τον βοηθήσει στην πρόβλεψη της σωστής εξόδου για ένα κατά πολύ μεγαλύτερο πλήθος μη χαρακτηρισμένων, αγνώστων δεδομένων [2][6].
Αλγόριθμοι παραδοσιακής μηχανικής μάθησης
[Επεξεργασία | επεξεργασία κώδικα]Παρά τα πλεονεκτήματα των νευρωνικών δικτύων που συζητώνται στην αντίστοιχη παράγραφο, οι παραδοσιακές προσεγγίσεις μηχανικής μάθησης παραμένουν η προτιμότερη επιλογή σε προβλήματα που αφορούν μικρότερα σύνολα δεδομένων στα οποία η σχέσεις αιτίου-αποτελέσματος που συνδέουν τα δεδομένα εισόδου με τις εξόδους του μοντέλου είναι περισσότερο κατανοητές. Καθώς βασίζονται σε εδραιωμένες στατιστικές μεθόδους, οι αλγόριθμοι παραδοσιακής μάθησης μπορούν να αναπτυχθούν ταχύτερα, απαιτούν λιγότερα δεδομένα για την εκπαίδευσή τους, είναι εύκολα ερμηνεύσιμοι και υπολογιστικά οικονομικότεροι, ενώ μπορούν στις περισσότερες περιπτώσεις να τρέξουν σε τυπικές μονάδες CPU [2]. Παρακάτω επεξηγούνται συνοπτικά οι αρχές αλγορίθμων με αρκετά συχνή εφαρμογή στην βιολογία σε συνάρτηση με τον τύπο των εργασιών που επιτελούν.
Αλγόριθμοι για παλινδρόμηση / κατηγοριοποίηση (επιτηρούμενη μάθηση)
[Επεξεργασία | επεξεργασία κώδικα]Προβλήματα στα οποία ο αλγόριθμος καλείται να διαχωρίσει τα δεδομένα εισόδου σε διακριτές κατηγορίες ορίζονται ως προβλήματα κατηγοριοποίησης (classification). Αν από την άλλη, η έξοδος ενός μοντέλου είναι ένα συνεχόμενο σύνολο τιμών σε αντιστοιχία με το σύνολο των δεδομένων εισόδου, τότε γίνεται αναφορά σε προβλήματα παλινδρόμησης (regression). Αν οι τιμές εξόδου ενός μοντέλου παλινδρόμησης διαχωριστούν μεταξύ τους από επιλεγμένα κατώφλια τότε το πρόβλημα μπορεί να αναδιατυπωθεί ως πρόβλημα κατηγοριοποίησης, γεγονός που επιτρέπει την εφαρμογή κάποιων αλγορίθμων σε αμφότερες των περιπτώσεων [2].
- Αλγόριθμοι γραμμικής παλινδρόμησης. Παραλλαγές αλγορίθμων γραμμικής παλινδρόμησης όπως είναι η ραχοειδής παλινδρόμηση (ridge regression) [8], η παλινδρόμηση LASSO [9] και η παλινδρόμηση ελαστικού δικτύου (elastic net regression) [10] επιτρέπουν την ανάπτυξη εύκολα ερμηνεύσιμων μοντέλων που προϋποθέτουν όμως την γραμμική σχέση μεταξύ των χαρακτηριστικών των δεδομένων εισόδου. Μοντέλα παλινδρόμησης έχουν εφαρμοστεί χαρακτηριστικά για την εξαγωγή παραμέτρων της κινητικής βιοχημικών αντιδράσεων από φασματομετρικά προσδιορισμένες συγκεντρώσεις αντιδρώντων [11] και τον υπολογισμό του αντικτύπου αμινοξικών αντικαταστάσεων στην ελεύθερη ενέργεια αναδίπλωσης [12].
- Μηχανές υποστηρικτικών διανυσμάτων (Support Vector Machines, SMVs). Οι μηχανές υποστηρικτικών διανυσμάτων μπορούν να εφαρμοστούν σε προβλήματα παλινδρόμησης και κατηγοριοποίησης τόσο γραμμικών όσο και μη γραμμικών δεδομένων. Στο πλαίσιο εργασιών κατηγοριοποίησης, οι συγκεκριμένοι αλγόριθμοι αποσκοπούν στην εύρεση του διαχωριστικού υπερεπιπέδου (hyperplane) που μεγιστοποιεί την απόσταση μεταξύ των σημείων δεδομένων που ανήκουν σε διακριτές κατηγορίες [13]. Σε περίπτωση που διαχειρίζονται μη σαφώς διαχωριζόμενα δεδομένα, οι μηχανές υποστηρικτικών διανυσμάτων μπορούν να εφαρμόσουν συναρτήσεις πυρήνα (kernel functions) που μετασχηματίζουν τα δεδομένα και τα προβάλλουν σε χώρο περισσοτέρων διαστάσεων εντός του οποίου καθίστανται διαχωρίσιμα [14]. Μοντέλα μηχανών υποστηρικτικών διανυσμάτων έχουν εφαρμοστεί για τον διαχωρισμό υγειών από καρκινικά κύτταρα βάσει γενετικού προφίλ [15], για την πρόβλεψη της λειτουργίας πρωτεϊνών [16] και για την πρόβλεψη της τοπολογίας διαμεμβρανικών πρωτεϊνών [17].
- Αλγόριθμος k-κοντινότερων γειτόνων (K-Nearest Neighbors, KNN). Σύμφωνα με τον συγκεκριμένο αλγόριθμο κάθε σημείο δεδομένων εντάσσεται στην κατηγορία στην οποία ανήκει η πλειοψηφία των k-κοντινότερων γειτόνων του (όπου k ένας ακέραιος αριθμός) [18]. Εκδοχές του έχουν χρησιμοποιηθεί ως μέρος σε εφαρμογών πρόβλεψης της λειτουργίας γονιδίων [19] και μελέτης μετα-μεταφραστικών τροποποιήσεων σε πρωτεΐνες [20].
- Τυχαία δάση (Random Forests). Πρόκειται για αλγόριθμο που λειτουργεί μέσω της δημιουργίας πολλαπλών δέντρων απόφασης (decision trees) [21]. Αν χρησιμοποιείται για εργασία κατηγοριοποίησης, ένα «τυχαίο δάσος» εντάσσει ένα δεδομένο εισόδου στην κατηγορία εντός της οποίας τοποθετείται από την πλειοψηφία των δέντρων που το απαρτίζουν. Αν εφαρμόζεται, πάλι, σε προβλήματα παλινδρόμησης – για τα οποία εντούτοις δεν θεωρείται ιδανική επιλογή [2] - η τελική του πρόβλεψη είναι ο μέσος όρος των προβλέψεων των δέντρων που το συγκροτούν. Αλγόριθμοι τυχαίων δασών έχουν, αντιπροσωπευτικά, εφαρμοστεί στην πρόβλεψη εξέλιξης καρκίνων βάσει βιοδεικτών [22] και στην πρόβλεψη της συσχέτισης γονιδιακών μεταλλάξεων με την εμφάνιση ασθενειών [23].
Αλγόριθμοι συσταδοποίησης (μη-επιτηρούμενη μάθηση)
[Επεξεργασία | επεξεργασία κώδικα]Σε αντίθεση με τους αλγορίθμους κατηγοριοποίησης, οι αλγόριθμοι συσταδοποίησης (clustering) δεν ταξινομούν σημεία δεδομένων σε συγκεκριμένες κατηγορίες αλλά αντιθέτως ομαδοποιούν παρεμφερή σημεία δεδομένων σε συστάδες (clusters) σύμφωνα με κάποιο μέτρο ομοιότητας μεταξύ τους [2].
- Αλγόριθμος k-μέσων (k-means clustering). Οι αλγόριθμοι k-μέσων είναι γενικής χρήσης αλγόριθμοι συσταδοποίησης που έχουν αξιοποιηθεί σε εφαρμογές που κυμαίνονται από την πρόβλεψη στόχων φαρμακευτικών μορίων [24] έως την εξαγωγή ρυθμιστικών γονιδιακών δικτύων αναπτυξιακής σημασίας [25]. Για να διαχωρίσει ένα σύνολο δεδομένων σε k αριθμό συστάδων, ο αλγόριθμος επιλέγει τυχαία k σημεία (κεντροειδή) για να αποτελέσουν το κέντρο της κάθε συστάδας. Τα υπόλοιπα σημεία του συνόλου δεδομένων ομαδοποιούνται μαζί με το πλησιέστερο σε αυτά κεντροειδές. Στη συνέχεια υπολογίζεται η μέση θέση που αντιστοιχεί σε κάθε μια από τις συστάδες που έχουν σχηματιστεί και το κεντροειδές τους μετατοπίζεται σε αυτή τη θέση. Η διαδικασία επαναλαμβάνεται μέχρι οι θέσεις τον κεντροειδών να πάψουν να μεταβάλλονται σημαντικά. Οι αλγόριθμοι k-μέσων απαιτούν τον απριόρι προσδιορισμό του αριθμού των συστάδων στις οποίες θα ομαδοποιηθούν τα δεδομένα [26].
- Ιεραρχικές (hierarchical) μέθοδοι. Σε αντίθεση με την μέθοδο των k-μέσων οι ιεραρχικές μέθοδοι (όπως και ο σαφώς διαφορετικός από αυτές χωρικός αλγόριθμος συσταδοποίησης DBSCAN [27]) δεν απαιτούν να έχει προσδιοριστεί από πριν ο αριθμός των συστάδων στις οποίες θα ομαδοποιηθούν τα δεδομένα. Οι ιεραρχικοί αλγόριθμοι στοχεύουν στην οργάνωση μιας ιεραρχίας συστάδων, γεγονός που μπορεί να γίνει είτε συσσωρευτικά, μέσω δηλαδή της ομαδοποίησης των μεμονωμένων παρατηρήσεων σε ολοένα και μεγαλύτερες συστάδες, ή διασπαστικά, μέσω του διαχωρισμού μιας αρχικής συστάδες που περιέχει όλο το σύνολο δεδομένων σε ολοένα και μικρότερες συστάδες [28]. Ιεραρχικοί αλγόριθμοι έχουν βρει, χαρακτηριστικά, εφαρμογή στην πρόβλεψη οικογενειών πρωτεϊνών με κριτήριο την αμινοξική τους αλληλουχία [29].
Αλγόριθμοι μείωσης διαστάσεων (μη-επιτηρούμενη μάθηση)
[Επεξεργασία | επεξεργασία κώδικα]Οι μεθοδολογίες μείωσης διαστάσεων επιτρέπουν τον μετασχηματισμό δεδομένων που περιγράφονται από πολλές μεταβλητές / διαστάσεις σε μια μορφή λιγότερων διαστάσεων που διατηρεί όσο το δυνατόν τις σχέσεις μεταξύ των δεδομένων [2]. H μέθοδος ανάλυσης κυρίων συστατικών (principal component analysis, PCA), η οποία συναντάται, μεταξύ των άλλων, και ως μέρος προσομοιώσεων μοριακής δυναμικής, εντοπίζει αρχικά τις διευθύνσεις στις οποίες τα δεδομένα εμφανίζουν την μεγαλύτερη μεταβλητότητα και εκφράζουν τα αντίστοιχα διανύσματα ως νέες μεταβλητές που προκύπτουν από τον συνδυασμό των αρχικών μεταβλητών του συνόλου δεδομένων [30]. Πέραν της ανάλυσης κυρίων συστατικών, υπάρχουν και άλλες τεχνικές μείωσης διαστάσεων που έχουν αξιοποιηθεί στην βιολογική έρευνα, όπως η μέθοδος t-SNE (t-distributed stochastic neighbor embedding – στοχαστική ενσωμάτωση γειτόνων με κατανομή t) που έχει βρει εφαρμογή στο χώρο της μεταγραφωμικής σε επίπεδο ενός κυττάρου (single cell transcriptomics) [31].
Νευρωνικά δίκτυα
[Επεξεργασία | επεξεργασία κώδικα]Αν και θεωρούνται πλέον παρωχημένα ως μοντέλα αναπαράστασης της εγκεφαλικής λειτουργίας, οι αλγόριθμοι νευρωνικών δικτύων είναι εμπνευσμένοι από τον τρόπο διασύνδεσης και επικοινωνίας των νευρώνων στον εγκέφαλο [32]. Στην πράξη, συνιστούν δομές πολλαπλών διασυνδεόμενων επιπέδων (layers) στις οποίες κάθε επίπεδο λαμβάνει πληροφορίες από το προηγούμενό του, τις μετασχηματίζει και τις μεταδίδει εκ νέου στο επόμενο. Ανεξαρτήτως του τύπου τους όλα τα νευρωνικά δίκτυα διαθέτουν ένα επίπεδο εισόδου, ένα επίπεδο εξόδου και ένα ή περισσότερα κρυφά επίπεδα που παρεμβάλλονται μεταξύ των επιπέδων εισόδου και εξόδου. Κάθε επίπεδο αποτελείται από ένα σύνολο κόμβων που αναφέρονται ως νευρώνες [33]. Στην πλέον βασική μορφή νευρωνικού δικτύου κάθε κόμβος ενός επιπέδου λαμβάνει σήμα από όλους τους κόμβους του προηγούμενου επιπέδου [2]. Εντούτοις, το σήμα που δέχεται από κάθε κόμβο έχει διαφορετικό βάρος για τον καθορισμό της εξόδου του νευρώνα προς το επόμενο επίπεδο του δικτύου. Η ρύθμιση του βάρους κάθε σύνδεσης μεταξύ νευρώνων του δικτύου συνιστά τον βασικό τρόπο με τον οποίο ένα νευρωνικό δίκτυο «μαθαίνει» και βελτιώνει την απόδοσή του [34]. Πέραν την ικανότητάς τους να διαχειρίζονται αποτελεσματικά ιδιαίτερα μεγάλα σύνολα δεδομένων, τα νευρωνικά δίκτυα υπερτερούν των τεχνικών παραδοσιακής μηχανικής μάθησης στην ικανότητά τους να εξάγουν σημαντικά χαρακτηριστικά των δεδομένων εισόδου χωρίς να απαιτείται υποχρεωτικά από τον χρήστη να προσδιορίσει απριόρι τα εν λόγω χαρακτηριστικά και τον τρόπο κωδικοποίησής τους [35][36]. Αυτό τα καθιστά ιδανικά αφενός για την ανάλυση δεδομένων σε ανεπεξέργαστη μορφή (πχ. δεδομένα εικόνας) και αφετέρου για την μελέτη περιπτώσεων στις οποίες είναι γνωστό ότι τα επίπεδα εισόδου (πχ. η αμινοξική αλληλουχία) και εξόδου (πχ. δευτεροταγείς δομές πρωτεϊνών) επιβεβαιωμένα σχετίζονται, αλλά δεν είναι ακριβώς γνωστός ο τρόπος της συσχέτισής τους [33]. Κάποιου χαρακτηριστικοί τύποι νευρωνικών δικτύων, επιπλέον των κλασικών πλήρως συνδεδεμένων δικτύων, που έχουν χρησιμοποιηθεί εκτενώς στην βιολογία περιγράφονται συνοπτικά στην συνέχεια.
- Συνελικτικά νευρωνικά δίκτυα (convolutional neural networks). Τα συνελικτικά νευρωνικά δίκτυα είναι κατεξοχήν κατάλληλα για την ανάλυση δεδομένων που περιέχουν κάποιας μορφής αναγνωρίσιμες τοπικές δομές [2]. Τέτοιες τοπικές δομές, είτε είναι ένας τύπος κυττάρων σε μια εικόνα μικροσκοπίας είτε είναι ένα αριθμητικό ψηφίο, αποτελούν έναν συγκεκριμένο συνδυασμό απλούστερων μοτίβων όπως είναι οι ακμές και οι γωνίες. Τα συνελικτικά νευρωνικά δίκτυα περιλαμβάνουν μέσα τους επίπεδα που ονομάζονται φίλτρα και τα οποία πρακτικά σαρώνουν τμήμα-τμήμα το σύνολο των δεδομένων εισόδου (ή τα pixels της εικόνας στο παραπάνω παράδειγμα) επιτρέποντας έτσι στο δίκτυο να μάθει τις τοπικές δομές που αυτά περιέχουν [2][36].
- Επαναλαμβανόμενα νευρωνικά δίκτυα (recurrent neural networks). Τα επαναλαμβανόμενα νευρωνικά δίκτυα είναι τα πλέον κατάλληλα για την διαχείριση δεδομένων οργανωμένων σε αλληλουχίες. Τέτοιες αλληλουχίες μπορούν να είναι κοινές λέξεις αλλά επίσης και νουκλεοτιδικές ή αμινοξικές αλληλουχίες [2]. Ένα τυπικό νευρωνικό δίκτυο δέχεται κάθε δεδομένο εισόδου ως κάτι το ανεξάρτητο. Αυτό εντούτοις, δεν είναι κάτι που ισχύει στην περίπτωση αλληλουχιών όπου η σειρά των δεδομένων έχει σημασία. Προς επίλυση αυτού του ζητήματος, τα επαναλαμβανόμενα νευρωνικά δίκτυα περιέχουν δομές βρόχου (loops) που επιτρέπουν την διατήρηση της πληροφορίας που προήλθε από προηγούμενες θέσεις της αλληλουχίας καθώς το δίκτυο επεξεργάζεται αυτές που ακολουθούν [37].
- Αυτοκωδικοποιητές (autoencoders). Οι αυτοκωδικοποιητές είναι αρχιτεκτονικές νευρωνικών δικτύων που συγκροτούνται από δύο βασικά μέρη: τον κωδικοποιητή (encoder) και τον αποκωδικοποιητή (decoder). Ο κωδικοποιητής, σε πρώτη φάση, συμπιέζει τα δεδομένα, μειώνοντας τις διαστάσεις των δεδομένων χωρίς να στρεβλώνει τις μεταξύ τους σχέσεις. Ο αποκωδικοποιητής εν συνεχεία, είναι υπεύθυνος για την ανασύσταση των αρχικών δεδομένων από την συμπιεσμένη τους μορφή [38]. Πέρα από την προφανή χρησιμότητα των αυτοκωδικοποιητών για εφαρμογές μείωσης διαστάσεων, αξίζει να αναφερθεί εδώ ότι ένα «καλά εκπαιδευμένος» αποκωδικοποιητής μπορεί να χρησιμοποιηθεί και ανεξάρτητα του κωδικοποιητή για την παραγωγή συνθετικών συνόλων δεδομένων, γεγονός που μπορεί να φανεί χρήσιμο για τον κλάδο της συνθετικής βιολογίας [2][39]. Αυτοκωδικοποιητές έχουν αξιοποιηθεί για την ανάλυση δεδομένων αλληλούχισης RNA ενώ αποτελούν επίσης μέρος του προγράμματος πρόβλεψης πρωτεϊνικών δομών AlphaFold [40].
Ενδεικτικές Εφαρμογές
[Επεξεργασία | επεξεργασία κώδικα]AlphaFold και πρόβλεψη πρωτεϊνικών δομών
[Επεξεργασία | επεξεργασία κώδικα]Το AlphaFold (AF) είναι ένα μοντέλο μηχανικής μάθησης που αναπτύχθηκε από την Google DeepMind και κυκλοφόρησε για πρώτη φορά το 2018. Δύο χρόνια αργότερα η ομάδα της DeepMind κυκλοφόρησε το AlphaFold2 (AF2), την δεύτερη βελτιωμένη έκδοση του AlphaFold, που αξιοποιεί την προσέγγιση μάθησης από άκρο σε άκρο (end-to-end learning) για να προβλέψει με ακρίβεια τις τρισδιάστατες (3D) δομές πρωτεϊνών από αλληλουχίες αμινοξέων [41]. Τον Δεκέμβριο του 2020, το AlphaFold2 κέρδισε την πρώτη θέση στον 14ο Διαγωνισμό Κρίσιμης Αξιολόγησης Πρόβλεψης Δομής Πρωτεϊνών (Critical Assessment of Structure Prediction - CASP14) παρουσιάζοντας εξαιρετική απόδοση και σημειώνοντας ακρίβεια συγκρίσιμη με πειραματικά δεδομένα σε πολλές περιπτώσεις [40][42].
Όντας βασισμένο σε νευρωνικά δίκτυα βαθιάς μάθησης, το AlphaFold2 (AF2) χρησιμοποιεί την αλληλουχία αμινοξέων μιας πρωτεΐνης, ευθυγραμμίσεις πολλαπλών αλληλουχιών (multiple sequence alignment - MSAs) από ομόλογες πρωτεΐνες και τρισδιάστατες συντεταγμένες από πρότυπες δομές για να προβλέψει με ακρίβεια την τρισδιάστατη δομή της πρωτεΐνης. Με την ενσωμάτωση του Evoformer, μιας μονάδας επεξεργασίας πληροφοριών αλληλουχίας και δομής, καθώς και τον μηχανισμό προσοχής αναλλοίωτου σημείου (Invariant Point Attention-IPA), το AlphaFold διαχειρίζεται με αποτελεσματικότητα γεωμετρικές και φυσικές πληροφορίες για τη βελτίωση των προβλέψεών του [40].
Ο όρος «προσοχή» (Attention), αναφέρεται, σε αυτό το πλαίσιο, στην ικανότητα ενός μοντέλου βαθιάς μάθησης να αποδίδει μεγαλύτερο βάρος σε σημαντικές πληροφορίες εντός του συνόλου δεδομένων εισόδου. Ο σχετικός όρος «αυτο-προσοχή» (Self-attention) πάλι, ο οποίος θα αναφερθεί παρακάτω, αφορά ειδικότερα σε περιπτώσεις στις οποίες το μοντέλο προσεγγίζει την κατανόηση του συνόλου δεδομένων εισόδου μέσω της εξιχνίασης των σχέσεων που υπάρχουν μεταξύ των δεδομένων (πχ. μεταξύ των αμινοξέων μιας πρωτεϊνικής αλληλουχίας). Η έννοια της προσοχής χρησιμοποιείται κυρίως σε σχέση με τους μετασχηματιστές (transformers), οι οποίοι συνιστούν εξελιγμένα μοντέλα νευρωνικών δικτύων, με εκτεταμένες εφαρμογές στην επεξεργασία αλληλουχιών, είτε αυτές αφορούν, όπως στην περίπτωση του Alpha Fold, αλληλουχίες αμινοξέων, είτε αφορούν φυσική γλώσσα [43].
Η αρχιτεκτονική του AlphaFold2 (AF2) βασίζεται σε τρεις κύριες μονάδες που συνεργάζονται για να επιτύχουν πρόβλεψη δομών πρωτεϊνών με υψηλή ακρίβεια. Οι τρεις αυτές μονάδες αξιοποιούν προηγμένες αρχιτεκτονικές νευρωνικών δικτύων, αποδοτικούς αλγόριθμους αναζήτησης (όπως οι JackHMMER, HHBlits και HHSearch) και τεράστιες, υψηλής ποιότητας βάσεις πρωτεϊνικών αλληλουχιών, φέρνοντας επανάσταση στον τομέα της πρόβλεψης δομής πρωτεϊνών [42]. Η βασικές λειτουργίες κάθε μίας εκ των μονάδων περιγράφονται συνοπτικά στην συνέχεια.
1. Μονάδα Εισόδου (Input Module) [40]
- Λήψη Δεδομένων: Δέχεται ως είσοδο μια αλληλουχία αμινοξέων και εντοπίζει ομόλογες αλληλουχίες από βάσεις δεδομένων όπως οι Uniref90, Uniclust30, MGnify και BFD (Big Fantastic Database).
- Ευθυγράμμιση Αλληλουχιών (MSA- Multiple Sequence Alignment): Ευθυγραμμίζει αυτές τις αλληλουχίες στο πλαίσιο μιας Πολλαπλής Ευθυγράμμιση Αλληλουχιών (MSA) και εντοπίζει oμόλογες πρωτεΐνες με γνωστές τρισδιάστατες δομές στις βάσεις δεδομένων PDB ή PDB70.
- Παραγωγή Αναπαραστάσεων: Δημιουργεί αναπαραστάσεις της MSA και αναπαραστάσεις απόστασης κατά ζεύγη, εξάγοντας παράλληλα συν-εξελικτικές πληροφορίες που καταδεικνύουν πώς οι μεταλλάξεις σε γειτονικά κατάλοιπα επηρεάζουν η μία την άλλη.
2. Μονάδα Evoformer (Evoformer Module) [40]
- Επεξεργασία Δεδομένων: Βασίζεται σε 48 μπλοκ ενός εξειδικευμένου μοντέλου νευρωνικών δικτύων τύπου μετασχηματιστή που ονομάζεται Evoformer και εφαρμόζει μηχανισμούς αυτό-προσοχής (self-attention). Η μονάδα Evoformer επεξεργάζεται και ενημερώνει τις αναπαραστάσεις MSA και τις αναπαραστάσεις απόστασης ανά ζεύγη κατά επαναληπτικό τρόπο (iteratively).
3. Μονάδα Δομής (Structure Module) [40]
- Μετατροπή σε Τρισδιάστατη Δομή: Λειτουργεί ως αποκωδικοποιητής χρησιμοποιώντας ένα νευρωνικό δίκτυο τύπου μετασχηματιστή για τη μετατροπή των επεξεργασμένων αναπαραστάσεων σε τρισδιάστατες συντεταγμένες ατόμων της πρωτεΐνης.
- Προβλέψεις Κινήσεων: Υπολογίζει περιστροφικές και μεταφορικές ρυθμίσεις για κάθε κατάλοιπο, επιτρέποντας την ακριβή αναπαράσταση της δομής της πρωτεΐνης.
Η επιτυχία του AlphaFold2 (AF2) στην πρόβλεψη της δομής των πρωτεϊνών οφείλεται σε έναν συνδυασμό παραγόντων, όπως είναι: η χρήση προηγμένων αλγορίθμων, η εκπαίδευση σε εκτεταμένες βάσεις δεδομένων και της εκμετάλλευσης βασικών βιολογικών αρχών, όπως είναι η συντήρηση των πρωτεϊνικών δομών στην πορεία της εξέλιξης [41].
Το AlphaFold2 (AF2) μπορεί να εφαρμοστεί σε πολλούς τομείς της βιολογίας και της ιατρικής, συμπεριλαμβανομένων της δομικής βιολογίας, της ανακάλυψης φαρμάκων, του σχεδιασμού πρωτεϊνών, των αλληλεπιδράσεων πρωτεϊνών, της πρόβλεψης στόχων, της πρόβλεψης λειτουργίας πρωτεϊνών, του βιολογικού μηχανισμού δράσης, καθώς και άλλων τομέων όπως η εξέλιξη πρωτεϊνών, οι μελέτες για τη θεραπεία σπάνιων ασθενειών, οι επιπτώσεις των μεταλλάξεων στη θεραπεία και ο σχεδιασμός εμβολίων [41][42].
Επόμενη Γενιά Πρόβλεψης Πρωτεϊνικών Δομών
[Επεξεργασία | επεξεργασία κώδικα]Τον Νοέμβριο του 2024, η Isomorphic Labs και η Google DeepMind παρουσίασαν το AlphaFold 3 (AF3), μια σημαντική αναβάθμιση του AlphaFold 2. Το AlphaFold 3 χρησιμοποιεί μια αρχιτεκτονική βαθιάς μάθησης που βασίζεται σε μοντέλα διάχυσης (diffusion models). Αυτή η καινοτόμος προσέγγιση προσδιορίζει άμεσα τις ατομικές συντεταγμένες, επιτρέποντας στο σύστημα να προβλέπει με ακρίβεια τη δομή βιομοριακών συμπλοκών που περιλαμβάνουν πρωτεΐνες, νουκλεϊκά οξέα, μικρά μόρια, ιόντα και τροποποιημένα κατάλοιπα [44][45].
Το AF3 μπορεί να προβλέψει με ακρίβεια συμπλέγματα που περιέχουν σχεδόν όλους τους μοριακούς τύπους που υπάρχουν στη βάση δεδομένων Protein Data Bank (PDB). Αυτοί περιλαμβάνουν μόρια που χρησιμοποιούνται συχνά σε φάρμακα, όπως προσδέτες (ligands) και αντισώματα, τα οποία είναι κρίσιμα για την ανάπτυξη θεραπειών και την κατανόηση βιολογικών φαινομένων [44].
Επιπλέον, το AlphaFold 3 επιτυγχάνει ακρίβεια κατά 50% υψηλότερη από τις παραδοσιακές μεθόδους βιοφυσικής, σύμφωνα με το PoseBusters benchmark. Είναι το πρώτο σύστημα μηχανικής μάθησης που ξεπερνά αυτές τις μεθόδους χωρίς να απαιτείται εισαγωγή δεδομένων για τη δομή [45].
Τέλος, η ικανότητα του AF3 να προβλέπει αλληλεπιδράσεις που σχετίζονται με φάρμακα, όπως η δέσμευση πρωτεϊνών με προσδέτες και αντισωμάτων με πρωτεΐνες-στόχους, αποτελεί ένα μεγάλο άλμα στη μοντελοποίηση βιομοριακών αλληλεπιδράσεων. Παράλληλα, παρέχει λεπτομερείς πληροφορίες για το πώς τα μόρια αλληλεπιδρούν με πρωτεΐνες, διευκολύνοντας τον σχεδιασμό νέων φαρμάκων και θεραπειών. Αυτή η δυνατότητα είναι ιδιαίτερα σημαντική για την ανάπτυξη αντισωμάτων και την κατανόηση του ρόλου τους στην ανθρώπινη υγεία και ασθένεια [46].
Το ESMFold είναι επίσης ένα μοντέλο μηχανικής μάθησης που προβλέπει τρισδιάστατες δομές πρωτεΐνης από αλληλουχίες αμινοξέων χρησιμοποιώντας νευρωνικά δίκτυα που βασίζονται σε μετασχηματιστές. Ενώ το AlphaFold βασίζεται σε πολλαπλές ευθυγραμμίσεις ακολουθιών και πρότυπες πρωτεϊνικές δομές, το ESMFold απαιτεί μόνο μία ακολουθία εισόδου. Παρόλα αυτά, το ESMFold έχει μικρότερη ακρίβεια σε σχέση με το AlphaFold [47].
Μετα-μεταφραστικές τροποποιήσεις πρωτεϊνών
[Επεξεργασία | επεξεργασία κώδικα]Η πρόβλεψη και η ανάλυση των μετα-μεταφραστικών τροποποιήσεων των πρωτεϊνών, όπως η φωσφορυλίωση και η γλυκοζυλίωση, είναι απαραίτητη για την μελέτη της βιολογίας και των ασθενειών, καθώς αποτελούν αναπόσπαστο κομμάτι της δομής και της λειτουργίας των πρωτεϊνών. Οι τεχνικές μηχανικής μάθησης μπορούν να εφαρμοστούν παράλληλα με παραδοσιακές μεθόδους πρωτεωμικής για την πρόβλεψη και ανάλυση τέτοιων τροποποιήσεων. Εφαρμογές βαθιά μάθησης, ιδιαίτερα, έχουν δείξει μεγάλη επιτυχία στην πρόβλεψη φωσφορυλιωμένων και γλυκοζυλιωμένων περιοχών πρωτεϊνών, με αρκετούς αλγορίθμους να έχουν συμβάλει ως τώρα στην πρόβλεψη αυτών των μετα-μεταφραστικών τροποποιήσεων [48].
Ο MusiteDeep είναι ένας διακομιστής ιστού (web server) που βασίζεται σε βαθιά μάθηση για πρόβλεψη και οπτικοποίηση θέσεων μετα-μεταφραστικών τροποποίησεων σε πρωτεΐνες. Συγκεκριμένα, λαμβάνει ως είσοδο ακατέργαστες πρωτεΐνικές αλληλουχίες σε μορφή FASTA και χρησιμοποιεί συνελικτικά νευρωνικά δίκτυα (convolutional neural networks - CNN) με δισδιάστατο (2D) μηχανισμό προσοχής ώστε να προβλέψει με μεγάλη ακρίβεια την τοποθεσία διαφόρων τύπων μετα-μεταφραστικών τροποποιήσεων. Με χρήση του MusiteDeep απαιτούνται λιγότερα από τρία λεπτά για να πραγματοποιηθούν προβλέψεις για 1000 ακολουθίες ανά τύπο μεταμεταφραστικής τροποποίησης. Έχει, επιπλέον, συγκριθεί ευρέως με άλλους προγνωστικούς αλγορίθμους και καταλαμβάνει τακτικά την πρώτη ή τη δεύτερη θέση στις κατατάξεις που προκύπτουν από τις εν λόγω συγκρίσεις [49].
Ένας ακόμα διακομιστής ιστού που αφορά την πρόβλεψη μετα-μεταφραστικών τροποποιήσεων είναι ο EnsembleGly, ο οποίος εξειδικεύεται στην πρόβλεψη θέσεων γλυκοζυλίωσης. Το EnsembleGly στηρίζεται σε αλγόριθμο κατηγοριοποίησης SVM (Support Vector Machine – Μηχανή υποστηρικτικών διανυσμάτων) εκπαιδευμένο πάνω σε δεδομένα της επιμελημένης βάσης θέσεων γλυκοζυλίωσης O-GlycBase (v. 6.00) [48][50].
Μοριακή εξέλιξη / φυλογένεση
[Επεξεργασία | επεξεργασία κώδικα]Η συνδυασμένη χρήση υπολογιστικών μεθόδων και αρχών της μοριακής εξέλιξης έχει φέρει την επανάσταση στο πεδίο της μοριακής εξελικτικής ανάλυσης. Η εφαρμογή τεχνικά εκλεπτυσμένων υπολογιστικών μεθόδων έχει επιτρέψει την ακριβή εκτίμηση εξελικτικών αποστάσεων, την ανακατασκευή εξελικτικών ιστοριών, την ανίχνευση συντηρημένων γονιδιωματικών περιοχών και τη λειτουργική αναγνώριση γονιδιωμάτων και φυλογενετικών δέντρων. H σχετικά πρόσφατη ανάπτυξη μεθόδων μηχανικής μάθησης με ικανότητα διαχείρισης ιδιαίτερα εκτενών συνόλων δεδομένων, έχει επιδράσει σημαντικά στην διευκόλυνση της έρευνας επί της μοριακής εξέλιξης [48]. Παραδείγματα περιλαμβάνουν τη χρήση αυτοκωδικοποιητών με σκοπό την συμπλήρωση ατελών συνόλων δεδομένων για τη δημιουργία φυλογενετικών δέντρων [51] και τη χρήση CNN για τη δόμηση φυλογενετικών δέντρων [52] και την φυλογενετική ανάλυση καρκινικών όγκων [53] . Οι εξελικτικοί αλγόριθμοι έχουν αποδειχθεί ιδιαίτερα επιτυχημένοι στην επίλυση βιοπληροφορικών προβλημάτων και για άλλες εφαρμογές πέραν αυτών που αφορούν την φυλογένεση. Οι μέθοδοι που βασίζονται στις εξελικτικές στρατηγικές, όπως οι γενετικοί αλγόριθμοι (GA), χρησιμοποιούνται σε διεργασίες όπως είναι η επιλογή χαρακτηριστικών (feature selection) ενός συνόλου δεδομένων εισόδου. Ο συνδυασμός μηχανικής μάθησης με μεθόδους μοριακής εξέλιξης είναι κρίσιμος για την ανίχνευση βιολογικών μοτίβων και διακριτικών χαρακτηριστικών εντός συνόλων δεδομένων [48].
Αν και οι παραδοσιακές μέθοδοι βιοπληροφορικής εξακολουθούν να στηρίζονται στις ευθυγραμμίσεις αλληλουχιών, η μηχανική μάθηση έχει επιτρέψει την ανάπτυξη μεθόδων που δεν απαιτούν ευθυγράμμιση. Τέτοιες μέθοδοι έχουν χρησιμοποιηθεί για την αναγνώριση ιικών αλληλουχιών σε περίπλοκα σύνολα δεδομένων, καθώς και για τη λειτουργική αναγνώριση νουκλεϊκών οξέων και πρωτεϊνών. Ειδικότερα, οι μέθοδοι χωρίς ευθυγράμμιση είναι χρήσιμες στην ταυτοποίηση ιών και στη λειτουργική αναγνώριση χαρακτηριστικών ακολουθιών, όπου οι αλγόριθμοι μηχανικής μάθησης (π.χ., SVM, RNN, CNN) μπορούν να ανιχνεύσουν συγκεκριμένα μοτίβα χωρίς να απαιτείται πλήρης ευθυγράμμιση. Οι μέθοδοι βαθιάς μάθησης έχουν εφαρμογές στην αναγνώριση λειτουργικών χαρακτηριστικών σε αλληλουχίες, όπως υποκινητές, ενισχυτές, μη κωδικοποιητικά RNAs και CRISPR arrays [48].
Βιολογία συστημάτων και βιολογικά δίκτυα
[Επεξεργασία | επεξεργασία κώδικα]Η αυξανόμενη πολυπλοκότητα και ποικιλία των βιολογικών δεδομένων απαιτούν τη χρήση προηγμένων τεχνικών μοντελοποίησης και ανάλυσης στο πλαίσιο της βιολογίας συστημάτων. Με τη συνεχιζόμενη συσσώρευση δεδομένων από διάφορους τομείς των –ωμικών τεχνολογιών, υπάρχει αυξανόμενη ανάγκη για μεθόδους που να ενσωματώνουν διαφορετικούς τύπους δεδομένων και να τους συνδυάζουν σε βιολογικά δίκτυα, συνδυάζοντας διάφορες προσεγγίσεις της βιολογίας συστημάτων. Οι μέθοδοι μηχανικής μάθησης παίζουν καθοριστικό ρόλο στην ανάλυση των πολυδιάστατων δεδομένων -ωμικών τεχνολογιών και στη μελέτη των σύνθετων βιολογικών αλληλεπιδράσεων [48]. Αυτές οι τεχνικές έχουν ενδεικτικά χρησιμοποιηθεί για την εκτίμηση της αρχιτεκτονικής δικτύων, όπως τα δίκτυα γονιδιακής ρύθμισης (Gene Regulatory Networks - GRN) [54] και αλληλεπιδράσεων μεταξύ πρωτεϊνών (protein-protein interactions - PPI) [48].
Μέθοδοι μηχανικής μάθησης, όπως οι μηχανές υποστηρικτικών διανυσμάτων, η βαθιά μάθηση και οι μέθοδοι βασισμένες σε γράφους, χρησιμοποιούνται για την πρόβλεψη αλληλεπιδράσεων σε αυτά τα δίκτυα. Επιπλέον, οι τεχνικές μηχανικής μάθησης εφαρμόζονται σε πτυχές της βιοϊατρικής έρευνας, όπως η αναγνώριση δικτύων αλληλεπίδρασης φαρμάκου-στόχου και η πρόβλεψη της ανταπόκρισης σε φάρμακα με βάση γενετικά και πολυ-ωμικά (poly-omic) δεδομένα. Πολλές μελέτες εξετάζουν επίσης πώς μπορεί η μηχανική μάθηση να βοηθήσει στην ανάλυση των δικτύων καρκίνου και στην πρόβλεψη της αποτελεσματικότητας και των παρενεργειών φαρμάκων [48].
Το AMuSR (Adaptive Multiple Sparse Regression) είναι ένα είδος αλγορίθμου που χρησιμοποιείται για την εκμάθηση δικτύων γονιδιακής ρύθμισης (GRN) από δεδομένα όπως αυτά που προκύπτουν από την τεχνική της αλληλούχισης RNA σε επίπεδο ενός κυττάρου (single-cell RNA sequencing / scRNA-seq). Ο συγκεκριμένος αλγόριθμος ενσωματώνει τεχνικές πολυδιάστατης μάθησης (Multitask Learning - MTL), επιτρέποντας τη συγχώνευση πληροφοριών από πολλαπλές συνθήκες (όπως διαφορετικά περιβάλλοντα ή πειραματικές ρυθμίσεις) κατά τη διαδικασία μάθησης. Αντί να εκπαιδεύει το μοντέλο για κάθε συνθήκη χωριστά, το AMuSR μοιράζεται πληροφορίες μεταξύ των συνθηκών, επιτρέποντας στο μοντέλο να ανιχνεύσει κοινές σχέσεις ενώ ταυτόχρονα διατηρεί τις ειδικές διαφορές μεταξύ των συνθηκών. Η χρήση αυτού του αλγορίθμου έχει αποδειχθεί χρήσιμη στην μείωση της οφειλόμενης σε τεχνικά ζητήματα μεταβλητότητας που θα μπορούσε να επηρεάσει τα αποτελέσματα όταν τα δεδομένα συγχωνεύονται, προσφέροντας μια πιο ακριβή και συνεπή ανακατασκευή των δικτύων γονιδιακής ρύθμισης [55].
Ο αλγόριθμος MALANI αποτελεί ένα ακόμα καλό παράδειγμα χρησιμοποίησης μηχανικής μάθησης στη βιολογία συστημάτων που εστιάζει στην αντιμετώπιση του καρκίνου. Η αναγκαιότητα ύπαρξης αυτού του αλγόριθμου έγκειται στο γεγονός ότι βάσει νέων στοιχείων έχει φανεί πως υπάρχει μια νέα κατηγορία καρκινικών γονιδίων που δρουν ως «συνδέτες σήματος» (signal linkers) και συντονίζουν τα ογκογόνα σήματα μεταξύ μεταλλαγμένων και διαφορικά εκφραζόμενων γονιδίων. Τα γονίδια αυτά δε φέρουν μεταλλάξεις και τυπικές διαφοροποιήσεις και έτσι δε δύναται να εντοπιστούν με άλλους γνωστούς αλγορίθμους. Ο αλγόριθμος MALANI αξιολογεί όλα τα γονίδια ανεξάρτητα από την έκφραση ή την κατάσταση μετάλλαξης τους στο πλαίσιο της αιτιολογίας του καρκίνου παρέχοντας μια αμερόληπτη προσέγγιση μελέτης της ασθένειας [56].
Βιοϊατρικές εφαρμογές
[Επεξεργασία | επεξεργασία κώδικα]Τα τελευταία χρόνια, η μοριακή φαινοτύπιση χρησιμοποιώντας γενετικά και γονιδιωματικά δεδομένα έχει βελτιώσει σημαντικά την έγκαιρη πρόβλεψη, διάγνωση και λήψη κλινικών αποφάσεων. Οι κύριες προκλήσεις στην έρευνα των ασθενειών περιλαμβάνουν την αναγνώριση των γονιδίων και μεταλλάξεων που σχετίζονται με τις ασθένειες, την πρόβλεψη της πορείας της νόσου, των κλινικών αποτελεσμάτων, της ανταπόκρισης στη θεραπεία και την ανάπτυξη εξατομικευμένης ιατρικής.
Οι παραδοσιακοί αλγόριθμοι για την αναγνώριση των γονιδίων και μεταλλάξεων που σχετίζονται με τις ασθένειες βασίζονται κυρίως στην ανάλυση δεδομένων αλληλουχιών, η διαθεσιμότητα των οποίων μπορεί να είναι περιορισμένη για σπάνιες ασθένειες. Επιπλέον, μερικές ασθένειες προκαλούνται από επιγενετικές αλλοιώσεις και δεν συνδέονται με συγκεκριμένες μεταλλάξεις. Για να ξεπεραστούν αυτά τα προβλήματα, αναπτύχθηκαν μέθοδοι μηχανικής μάθησης και βαθιάς μάθησης που συνδυάζονται με βιολογικά δίκτυα και βιοπληροφορικές τεχνικές. Παραδείγματα περιλαμβάνουν τη χρήση μηχανικής για την ανάλυση διαφορικά εκφραζόμενων γονιδίων, την ανακάλυψη συσχετίσεων miRNA και ασθενειών μέσω μη αρνητικής παραγοντοποίησης πίνακα (non-negative matrix factorization - NMF), και την εφαρμογή αλγορίθμων μηχανικής μάθησης σε δεδομένα λειτουργίας γονιδίων προκύπτοντα από γονιδιακές οντολογίες (Gene Ontologies-GOs) για την αναγνώριση γονιδίων που σχετίζονται με αυτισμό [48].
Επιπλέον, οι αλγόριθμοι ML χρησιμοποιούνται για την ανάλυση του καρκίνου και την ανακάλυψη γονιδίων που οδηγούν στην ανάπτυξή του, συνδυάζοντας δεδομένα γενετικού προσδιορισμού και αλληλεπιδράσεις γονιδίων. Στη ανακάλυψη βιοδεικτών, οι τεχνικές μηχανικής μάθησης χρησιμοποιούνται για τον εντοπισμό βιοδεικτών κινδύνου, διάγνωσης και πρόγνωσης. Αυτοί οι βιοδείκτες βοηθούν στην ανίχνευση της ασθένειας, αλλά και στην πρόβλεψη του κινδύνου νόσησης, της πορεία της νόσου ή της ανταπόκρισης στη θεραπεία. Η μηχανική μάθηση έχει εφαρμογές στην ανακάλυψη μοριακών βιοδεικτών, ιδίως στην περίπτωση του καρκίνου, χρησιμοποιώντας δεδομένα γονιδιακής έκφρασης, δεδομένα από μικροσυστοιχίες, μεταβολωμικά δεδομένα και πολυδιάστατα δεδομένα omics. Ακόμη, η μηχανική μάθηση έχει χρησιμοποιηθεί για την ανάπτυξη βιοδεικτών που επιτρέπουν την αντιστοίχιση ασθενών με συγκεκριμένες θεραπείες. Εντός της τελευταίας αυτής κατηγορίας εφαρμογών εντάσσονται η αναγνώριση δεικτών που σχετίζονται με αυξημένη ευαισθησία σε ορισμένα φάρμακα και η πρόταση θεραπειών μέσω μεθόδων όπως οι μηχανές υποστηρικτικών διανυσμάτων (SVM) και επαναλαμβανόμενα νευρωνικά δίκτυα (RNN) [48].
Ένα επιπλέον παράδειγμα της χρήσης μηχανικής μάθησης για την διάγνωση ασθενειών αφορά την εκμάθηση μηχανών υποστηρικτικών διανυσμάτων (SVM) στη γονιδιωματική του καρκίνου. Σε σύγκριση με άλλες μεθόδους μηχανικής μάθησης, τα SVM είναι πολύ ισχυρά στην αναγνώριση δυσδιάκριτων προτύπων σε πολύπλοκα σύνολα δεδομένων. Ο καρκίνος είναι μια γενετική ασθένεια όπου τα μοτίβα γονιδιωματικών ή λειτουργικών χαρακτηριστικών μπορεί να αντιπροσωπεύουν τους υποτύπους καρκίνου, την πρόγνωση της έκβασης, την πρόβλεψη οφέλους από ένα φάρμακο, τους «οδηγούς» (drivers) ογκογένεσης ή μια ειδική για τον όγκο βιολογική διαδικασία [57].
Η τεχνικές μηχανικής μάθησης έχουν αποδείξει, τέλος, την εξαιρετική τους απόδοση σε εγχειρήματα αυτοματοποιημένης κατηγοριοποίησης εικόνων και χρησιμοποιούνται επί του παρόντος για την αυτοματοποίηση της διάγνωσης διαφόρων ασθενειών. Ένα παράδειγμα αποτελεί η χρήση του βασισμένου συνελικτικά νευρωνικά δικτύα (CNN) αλγορίθμου MobileNetV2 στην ανάλυση εικόνων από ακτίνες Χ θώρακα για τη διάγνωση ατόμων που έχουν προσβληθεί από τη νόσο COVID-19 [58].
- ↑ 1,0 1,1 Huerta, M. (17 Ιουλίου 2000). «NIH working definition of bioinformatics and computational biology» (PDF). Ανακτήθηκε στις 18 Ιανουαρίου 2025.
- ↑ 2,00 2,01 2,02 2,03 2,04 2,05 2,06 2,07 2,08 2,09 2,10 2,11 2,12 2,13 2,14 2,15 2,16 2,17 Greener, Joe G.; Kandathil, Shaun M.; Moffat, Lewis; Jones, David T. (2022-01). «A guide to machine learning for biologists» (στα αγγλικά). Nature Reviews Molecular Cell Biology 23 (1): 40–55. doi: . ISSN 1471-0080. https://www.nature.com/articles/s41580-021-00407-0.
- ↑ 3,0 3,1 3,2 Mitchell, Tom. Mitchell, T. (1997). Machine Learning, McGraw Hill, Machine Learning, McGraw Hill, p.2. New York, New York, USA: McGraw Hill. σελ. 2.
- ↑ Janiesch, Christian; Zschech, Patrick; Heinrich, Kai (2021-09-01). «Machine learning and deep learning» (στα αγγλικά). Electronic Markets 31 (3): 685–695. doi: . ISSN 1422-8890. https://link.springer.com/article/10.1007/s12525-021-00475-2.
- ↑ 5,0 5,1 5,2 Nasteski, V. «(PDF) An overview of the supervised machine learning methods». ResearchGate (στα Αγγλικά). Ανακτήθηκε στις 18 Ιανουαρίου 2025.
- ↑ 6,0 6,1 6,2 Zou, James; Huss, Mikael; Abid, Abubakar; Mohammadi, Pejman; Torkamani, Ali; Telenti, Amalio (2019-01). «A primer on deep learning in genomics» (στα αγγλικά). Nature Genetics 51 (1): 12–18. doi: . ISSN 1546-1718. PMID 30478442. PMC PMC11180539. https://www.nature.com/articles/s41588-018-0295-5.
- ↑ Altman, Naomi; Krzywinski, Martin (2017-06-01). «Clustering» (στα αγγλικά). Nature Methods 14 (6): 545–546. doi: . ISSN 1548-7105. https://www.nature.com/articles/nmeth.4299.
- ↑ de Vlaming, Ronald; Groenen, Patrick J. F. (2015). «The Current and Future Use of Ridge Regression for Prediction in Quantitative Genetics» (στα αγγλικά). BioMed Research International 2015 (1): 143712. doi: . ISSN 2314-6141. PMID 26273586. PMC PMC4529984. https://onlinelibrary.wiley.com/doi/10.1155/2015/143712.
- ↑ Tibshirani, Robert (1996-01-01). «Regression Shrinkage and Selection Via the Lasso». Journal of the Royal Statistical Society: Series B (Methodological) 58 (1): 267–288. doi: . ISSN 0035-9246. https://academic.oup.com/jrsssb/article/58/1/267/7027929.
- ↑ Zou, James; Huss, Mikael; Abid, Abubakar; Mohammadi, Pejman; Torkamani, Ali; Telenti, Amalio (2019-01). «A primer on deep learning in genomics» (στα αγγλικά). Nature Genetics 51 (1): 12–18. doi: . ISSN 1546-1718. PMID 30478442. PMC PMC11180539. https://www.nature.com/articles/s41588-018-0295-5.
- ↑ Haario, Heikki; Taavitsainen, Veli-Matti (1998-12-14). «Combining soft and hard modelling in chemical kinetic models». Chemometrics and Intelligent Laboratory Systems 44 (1): 77–98. doi: . ISSN 0169-7439. https://linkinghub.elsevier.com/retrieve/pii/S016974399800166X.
- ↑ Zhang, Zhe; Wang, Lin; Gao, Yang; Zhang, Jie; Zhenirovskyy, Maxim; Alexov, Emil (2012-03-01). «Predicting folding free energy changes upon single point mutations». Bioinformatics 28 (5): 664–671. doi: . ISSN 1367-4803. PMID 22238268. PMC PMC3289912. https://academic.oup.com/bioinformatics/article/28/5/664/247538.
- ↑ Ben-Hur, Asa· Weston, Jason (2010). Carugo, Oliviero, επιμ. A User’s Guide to Support Vector Machines. Totowa, NJ: Humana Press. σελίδες 223–239. ISBN 978-1-60327-241-4.
- ↑ Ben-Hur, Asa; Ong, Cheng Soon; Sonnenburg, Sören; Schölkopf, Bernhard; Rätsch, Gunnar (31 Οκτ 2008). «Support Vector Machines and Kernels for Computational Biology» (στα αγγλικά). PLOS Computational Biology 4 (10): e1000173. doi: . ISSN 1553-7358. PMID 18974822. PMC PMC2547983. https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1000173.
- ↑ Statnikov, Alexander; Tsamardinos, Ioannis; Dosbayev, Yerbolat; Aliferis, Constantin F. (2005-08-01). «GEMS: A system for automated cancer diagnosis and biomarker discovery from microarray gene expression data». International Journal of Medical Informatics. MedInfo 2004 74 (7): 491–503. doi: . ISSN 1386-5056. https://linkinghub.elsevier.com/retrieve/pii/S1386505605000523.
- ↑ Cozzetto, Domenico; Minneci, Federico; Currant, Hannah; Jones, David T. (2016-08-26). «FFPred 3: feature-based function prediction for all Gene Ontology domains» (στα αγγλικά). Scientific Reports 6 (1): 31865. doi: . ISSN 2045-2322. PMID 27561554. PMC PMC4999993. https://www.nature.com/articles/srep31865.
- ↑ Nugent, Timothy; Jones, David T. (2009-05-26). «Transmembrane protein topology prediction using support vector machines». BMC Bioinformatics 10 (1): 159. doi: . ISSN 1471-2105. PMID 19470175. PMC PMC2700806. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-10-159.
- ↑ Zhang, Zhongheng (2016-06). «Introduction to machine learning: k-nearest neighbors» (στα αγγλικά). Annals of Translational Medicine 4 (11): 218–218. doi: . ISSN 2305-5847. PMID 27386492. PMC PMC4916348. https://atm.amegroups.org/article/view/10170/11310.
- ↑ Yao, Zizhen; Ruzzo, Walter L (2006-03). «A Regression-based K nearest neighbor algorithm for gene function prediction from heterogeneous data» (στα αγγλικά). BMC Bioinformatics 7 (S1). doi: . ISSN 1471-2105. PMID 16723004. PMC PMC1810312. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-7-S1-S11.
- ↑ Gao, Jianjiong; Thelen, Jay J.; Dunker, A. Keith; Xu, Dong (2010-12-01). «Musite, a Tool for Global Prediction of General and Kinase-specific Phosphorylation Sites *» (στα English). Molecular & Cellular Proteomics 9 (12): 2586–2600. doi: . ISSN 1535-9476. PMID 20702892. PMC PMC3101956. https://linkinghub.elsevier.com/retrieve/pii/S1535947620311518.
- ↑ Breiman, Leo (2001-10-01). «Random Forests» (στα αγγλικά). Machine Learning 45 (1): 5–32. doi: . ISSN 1573-0565. https://link.springer.com/article/10.1023/A:1010933404324.
- ↑ Liu, Li; Chang, Yung; Yang, Tao; Noren, David P; Long, Byron; Kornblau, Steven; Qutub, Amina; Ye, Jieping (2017). «Evolution-informed modeling improves outcome prediction for cancers» (στα αγγλικά). Evolutionary Applications 10 (1): 68–76. doi: . ISSN 1752-4571. PMID 28035236. PMC PMC5192825. https://onlinelibrary.wiley.com/doi/10.1111/eva.12417.
- ↑ Bao, Lei; Zhou, Mi; Cui, Yan (2005-07-01). «nsSNPAnalyzer: identifying disease-associated nonsynonymous single nucleotide polymorphisms». Nucleic Acids Research 33 (suppl_2): W480–W482. doi: . ISSN 0305-1048. PMID 15980516. PMC PMC1160133. https://academic.oup.com/nar/article/33/suppl_2/W480/2505462.
- ↑ Aghakhani, Sara; Qabaja, Ala; Alhajj, Reda (2018-01). «Integration of k-means clustering algorithm with network analysis for drug-target interactions network prediction». International Journal of Data Mining and Bioinformatics 20 (3): 185–212. doi: . ISSN 1748-5673. https://www.inderscienceonline.com/doi/abs/10.1504/IJDMB.2018.094776.
- ↑ Zhang, Shilu; Pyne, Saptarshi; Pietrzak, Stefan; Halberg, Spencer; McCalla, Sunnie Grace; Siahpirani, Alireza Fotuhi; Sridharan, Rupa; Roy, Sushmita (2023-05-27). «Inference of cell type-specific gene regulatory networks on cell lineages from single cell omic datasets» (στα αγγλικά). Nature Communications 14 (1): 3064. doi: . ISSN 2041-1723. PMID 37244909. PMC PMC10224950. https://www.nature.com/articles/s41467-023-38637-9.
- ↑ Jin, Xin· Han, Jiawei (2010). Sammut, Claude, επιμ. K-Means Clustering. Boston, MA: Springer US. σελίδες 563–564. ISBN 978-0-387-30164-8.
- ↑ Jin, Xin· Han, Jiawei (2010). Sammut, Claude, επιμ. K-Means Clustering. Boston, MA: Springer US. σελίδες 563–564. ISBN 978-0-387-30164-8.
- ↑ Halkidi, Maria (2009). LIU, LING, επιμ. Hierarchial Clustering. Boston, MA: Springer US. σελίδες 1291–1294. ISBN 978-0-387-39940-9.
- ↑ Krause, Antje; Stoye, Jens; Vingron, Martin (2005-01-22). «Large scale hierarchical clustering of protein sequences». BMC Bioinformatics 6 (1): 15. doi: . ISSN 1471-2105. PMID 15663796. PMC PMC547898. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-6-15.
- ↑ Jolliffe, Ian T.; Cadima, Jorge (2016-04-13). «Principal component analysis: a review and recent developments». Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 374 (2065): 20150202. doi: . PMID 26953178. PMC PMC4792409. https://royalsocietypublishing.org/doi/10.1098/rsta.2015.0202.
- ↑ Kobak, Dmitry; Berens, Philipp (2019-11-28). «The art of using t-SNE for single-cell transcriptomics» (στα αγγλικά). Nature Communications 10 (1): 5416. doi: . ISSN 2041-1723. PMID 31780648. PMC PMC6882829. https://www.nature.com/articles/s41467-019-13056-x.
- ↑ Crick, Francis (1989-01). «The recent excitement about neural networks» (στα αγγλικά). Nature 337 (6203): 129–132. doi: . ISSN 1476-4687. https://www.nature.com/articles/337129a0.
- ↑ 33,0 33,1 Baxevanis, AD· Ouellette, BFF. Bioinformatics : a practical guide to the analysis of genes and proteins, 3rd edn. Hoboken, New Jersey, USA: Wiley. σελ. 215.
- ↑ Han, Su-Hyun; Kim, Ko Woon; Kim, SangYun; Youn, Young Chul (2018-09-01). «Artificial Neural Network: Understanding the Basic Concepts without Mathematics» (στα English). Dementia and Neurocognitive Disorders 17 (3): 83–89. doi: . ISSN 1738-1495. PMID 30906397. PMC PMC6428006. https://dnd.or.kr/DOIx.php?id=10.12779/dnd.2018.17.3.83.
- ↑ Leray, Philippe; Gallinari, Patrick (1999-01-01). «Feature Selection With Neural Networks» (στα αγγλικά). Behaviormetrika 26 (1): 145–166. doi: . ISSN 1349-6964. https://link.springer.com/article/10.2333/bhmk.26.145.
- ↑ 36,0 36,1 Tripathy, Sushreeta; Singh, Rishabh (2022). Poonia, Ramesh Chandra, επιμ. «Convolutional Neural Network: An Overview and Application in Image Classification» (στα αγγλικά). Proceedings of Third International Conference on Sustainable Computing (Singapore: Springer Nature): 145–153. doi: . ISBN 978-981-16-4538-9. https://link.springer.com/chapter/10.1007/978-981-16-4538-9_15.
- ↑ Marhon, Sajid A.· Cameron, Christopher J. F. (2013). Bianchini, Monica, επιμ. Recurrent Neural Networks. Berlin, Heidelberg: Springer. σελίδες 29–65. ISBN 978-3-642-36657-4.
- ↑ Berahmand, Kamal; Daneshfar, Fatemeh; Salehi, Elaheh Sadat; Li, Yuefeng; Xu, Yue (2024-02-03). «Autoencoders and their applications in machine learning: a survey» (στα αγγλικά). Artificial Intelligence Review 57 (2): 28. doi: . ISSN 1573-7462. https://link.springer.com/article/10.1007/s10462-023-10662-6.
- ↑ Zhavoronkov, Alex; Ivanenkov, Yan A.; Aliper, Alex; Veselov, Mark S.; Aladinskiy, Vladimir A.; Aladinskaya, Anastasiya V.; Terentiev, Victor A.; Polykovskiy, Daniil A. και άλλοι. (2019-09). «Deep learning enables rapid identification of potent DDR1 kinase inhibitors» (στα αγγλικά). Nature Biotechnology 37 (9): 1038–1040. doi: . ISSN 1546-1696. https://www.nature.com/articles/s41587-019-0224-x.
- ↑ 40,0 40,1 40,2 40,3 40,4 40,5 Jumper, John; Evans, Richard; Pritzel, Alexander; Green, Tim; Figurnov, Michael; Ronneberger, Olaf; Tunyasuvunakool, Kathryn; Bates, Russ και άλλοι. (2021-08). «Highly accurate protein structure prediction with AlphaFold» (στα αγγλικά). Nature 596 (7873): 583–589. doi: . ISSN 1476-4687. PMID 34265844. PMC PMC8371605. https://www.nature.com/articles/s41586-021-03819-2.
- ↑ 41,0 41,1 41,2 Wang, Lei; Wen, Zehua; Liu, Shi-Wei; Zhang, Lihong; Finley, Cierra; Lee, Ho-Jin; Fan, Hua-Jun Shawn (2024-06-01). «Overview of AlphaFold2 and breakthroughs in overcoming its limitations». Computers in Biology and Medicine 176: 108620. doi: . ISSN 0010-4825. https://linkinghub.elsevier.com/retrieve/pii/S0010482524007054.
- ↑ 42,0 42,1 42,2 Yang, Zhenyu; Zeng, Xiaoxi; Zhao, Yi; Chen, Runsheng (2023-03-14). «AlphaFold2 and its applications in the fields of biology and medicine» (στα αγγλικά). Signal Transduction and Targeted Therapy 8 (1): 1–14. doi: . ISSN 2059-3635. PMID 36918529. PMC PMC10011802. https://www.nature.com/articles/s41392-023-01381-z.
- ↑ «What is an attention mechanism? | IBM». www.ibm.com (στα Αγγλικά). 5 Δεκεμβρίου 2024. Ανακτήθηκε στις 18 Ιανουαρίου 2025.
- ↑ 44,0 44,1 Abramson, Josh; Adler, Jonas; Dunger, Jack; Evans, Richard; Green, Tim; Pritzel, Alexander; Ronneberger, Olaf; Willmore, Lindsay και άλλοι. (2024-06). «Accurate structure prediction of biomolecular interactions with AlphaFold 3» (στα αγγλικά). Nature 630 (8016): 493–500. doi: . ISSN 1476-4687. PMID 38718835. PMC PMC11168924. https://www.nature.com/articles/s41586-024-07487-w.
- ↑ 45,0 45,1 «AlphaFold 3 predicts the structure and interactions of all of life's molecules». Google (στα Αγγλικά). 8 Μαΐου 2024. Ανακτήθηκε στις 18 Ιανουαρίου 2025.
- ↑ Buntz, Brian (8 Μαΐου 2024). «AlphaFold 3 offers even more accurate protein structure prediction». Drug Discovery and Development (στα Αγγλικά). Ανακτήθηκε στις 18 Ιανουαρίου 2025.
- ↑ Lin, Zeming; Akin, Halil; Rao, Roshan; Hie, Brian; Zhu, Zhongkai; Lu, Wenting; Smetanin, Nikita; Verkuil, Robert και άλλοι. (2023-03-17). «Evolutionary-scale prediction of atomic-level protein structure with a language model». Science 379 (6637): 1123–1130. doi:. https://www.science.org/doi/10.1126/science.ade2574.
- ↑ 48,00 48,01 48,02 48,03 48,04 48,05 48,06 48,07 48,08 48,09 Auslander, Noam; Gussow, Ayal B.; Koonin, Eugene V. (2021-01). «Incorporating Machine Learning into Established Bioinformatics Frameworks» (στα αγγλικά). International Journal of Molecular Sciences 22 (6): 2903. doi: . ISSN 1422-0067. PMID 33809353. PMC PMC8000113. https://www.mdpi.com/1422-0067/22/6/2903.
- ↑ Wang, Duolin; Liu, Dongpeng; Yuchi, Jiakang; He, Fei; Jiang, Yuexu; Cai, Siteng; Li, Jingyi; Xu, Dong (2020-07-02). «MusiteDeep: a deep-learning based webserver for protein post-translational modification site prediction and visualization» (στα αγγλικά). Nucleic Acids Research 48 (W1): W140–W146. doi: . ISSN 0305-1048. PMID 32324217. PMC PMC7319475. https://academic.oup.com/nar/article/48/W1/W140/5824154.
- ↑ Caragea, Cornelia; Sinapov, Jivko; Silvescu, Adrian; Dobbs, Drena; Honavar, Vasant (2007-11-09). «Glycosylation site prediction using ensembles of Support Vector Machine classifiers». BMC Bioinformatics 8 (1): 438. doi: . ISSN 1471-2105. PMID 17996106. PMC PMC2220009. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-438.
- ↑ Bhattacharjee, Ananya; Bayzid, Md. Shamsuzzoha (2020-07-20). «Machine learning based imputation techniques for estimating phylogenetic trees from incomplete distance matrices». BMC Genomics 21 (1): 497. doi: . ISSN 1471-2164. PMID 32689946. PMC PMC7370488. https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-020-06892-5.
- ↑ Suvorov, Anton; Hochuli, Joshua; Schrider, Daniel R (2020-03-01). «Accurate Inference of Tree Topologies from Multiple Sequence Alignments Using Deep Learning». Systematic Biology 69 (2): 221–233. doi: . ISSN 1063-5157. PMID 31504938. PMC PMC8204903. https://academic.oup.com/sysbio/article/69/2/221/5559282.
- ↑ Azer, Erfan Sadeqi; Ebrahimabadi, Mohammad Haghir; Malikić, Salem; Khardon, Roni; Sahinalp, S. Cenk (2020-11-20). «Tumor Phylogeny Topology Inference via Deep Learning» (στα English). iScience 23 (11). doi: . ISSN 2589-0042. PMID 33117968. PMC PMC7582044. https://linkinghub.elsevier.com/retrieve/pii/S2589004220308476.
- ↑ Marbach, Daniel; Costello, James C.; Küffner, Robert; Vega, Nicole M.; Prill, Robert J.; Camacho, Diogo M.; Allison, Kyle R.; Kellis, Manolis και άλλοι. (2012-08). «Wisdom of crowds for robust gene network inference» (στα αγγλικά). Nature Methods 9 (8): 796–804. doi: . ISSN 1548-7105. PMID 22796662. PMC PMC3512113. https://www.nature.com/articles/nmeth.2016.
- ↑ Jackson, Christopher A; Castro, Dayanne M; Saldi, Giuseppe-Antonio; Bonneau, Richard; Gresham, David (2020-01-27). «Gene regulatory network reconstruction using single-cell RNA sequencing of barcoded genotypes in diverse environments» (στα αγγλικά). eLife 9. doi: . ISSN 2050-084X. PMID 31985403. PMC PMC7004572. https://elifesciences.org/articles/51254.
- ↑ Ghanat Bari, Mehrab; Ung, Choong Yong; Zhang, Cheng; Zhu, Shizhen; Li, Hu (2017-08-01). «Machine Learning-Assisted Network Inference Approach to Identify a New Class of Genes that Coordinate the Functionality of Cancer Networks» (στα αγγλικά). Scientific Reports 7 (1). doi: . ISSN 2045-2322. PMID 28765560. PMC PMC5539301. https://www.nature.com/articles/s41598-017-07481-5.
- ↑ «Applications of Support Vector Machine (SVM) Learning in Cancer Genomics». Cancer Genomics & Proteomics 15 (1). 2018-01-02. doi: . PMID 29275361. PMC PMC5822181. http://cgp.iiarjournals.org/content/15/1/41.abstract.
- ↑ Akter, Shamima; Shamrat, F. M. Javed Mehedi; Chakraborty, Sovon; Karim, Asif; Azam, Sami (2021-11-13). «COVID-19 Detection Using Deep Learning Algorithm on Chest X-ray Images» (στα αγγλικά). Biology 10 (11): 1174. doi: . ISSN 2079-7737. PMID 34827167. PMC PMC8614951. https://www.mdpi.com/2079-7737/10/11/1174.