The elucidation of the underlying mechanisms that link genotypes to expressed phenotypes is one of the main challenges that life sciences face today. One of the steps that can help us reach that goal, is the mapping of the protein-protein interaction (PPI) networks for various species, and especially for human. Pertaining to that, tens of thousands of scientific experiments have been conducted to date, each one uncovering parts of these vast networks. These results are then collected and recorded by primary PPI databases. Unfortunately, these databases exhibit limited overlap, use incompatible terminology and above all, describe their recorded interactions at different levels of genetic reference. Due to how genetic information is organized in living organisms, the mappings from one level of reference to another are non-reversible which results in non-isomorphic projections causing unavoidable introduction of ambiguous and false-positive interactions. The goal of this thesis is the development of a novel modeling and integration methodology that can be applied on multilayered, interconnected domains, called ontological integration, intended to be used on similar challenges as this. Through the application of this method, we developed a meta-database for the human protein interactome, called PICKLE 2.0 (Protein InteraCtion KnowLedgebasE). To facilitate the generation and maintenance of this database, an appropriate algorithm was developed, based on novel data structures that were specifically designed to provide crucial optimizations for biological data. PICKLE is available at: http://www.pickle.gr/.
Η κατανόηση του συσχετισμού μεταξύ του γονοτύπου και του φαινοτύπου ενός οργανισμού είναι μια από τις κυριότερες προκλήσεις που αντιμετωπίζουν οι επιστήμες ζωής σήμερα. Ένα από τα σημαντικότερα βήματα για την επίτευξη αυτού του σκοπού είναι η χαρτογράφηση του δικτύου πρωτεϊνικών αλληλεπιδράσεων (ΔΠΑ) για κάθε είδος οργανισμών και ιδιαίτερα για τον άνθρωπο. Για τον λόγο αυτό, έχουν γίνει μέχρι σήμερα δεκάδες χιλιάδες επιστημονικά πειράματα, που καταγράφουν τμήματα των δικτύων αυτών, τα αποτελέσματα των οποίων συλλέγονται από πρωτογενείς βάσεις δεδομένων πρωτεϊνικών αλληλεπιδράσεων. Όμως, διαπιστώνεται ότι αυτές οι βάσεις παρουσιάζουν ιδιαίτερα μικρή αλληλοεπικάλυψη, περιγράφουν τα δεδομένα τους με μη-συμβατούς όρους μεταξύ των βάσεων, και το κυριότερο, περιγράφουν τις καταγεγραμμένες αλληλεπιδράσεις σε διαφορετικά επίπεδα αναφοράς της γονιδιακής πληροφορίας. Λόγω της μη γραμμικής δομής της γονιδιακής πληροφορίας, οι μετατροπές ανάμεσα στα επίπεδα αυτά είναι μη-αντιστρεπτές, και τα παραγόμενα δίκτυα είναι μη-ισομορφικά, με αποτέλεσμα να περιέχουν ασάφειες και ψευδώς θετικά αποτελέσματα. Ο σκοπός της εργασίας αυτής είναι η ανάπτυξη μιας νέας μεθόδου σύνθεσης πολυεπίπεδων δεδομένων, που ονομάζουμε οντολογική σύνθεση, η οποία μπορεί να χρησιμοποιηθεί για προβλήματα όπως τα ανωτέρω. Μέσω της μεθόδου αυτής, δημιουργήθηκε η μετα-βάση δεδομένων για το δίκτυο πρωτεϊνικών αλληλεπιδράσεων στον άνθρωπο, PICKLE 2.0 (Protein InteraCtion KnowLedgebasE). Για την εύκολη και γρήγορη κατασκευή και ανανέωση της, αναπτύχθηκε και ένας αυτοματοποιημένος αλγόριθμος ο οποίος βασίστηκε σε νέες δομές δεδομένων που σχεδιάστηκαν για να παρέχουν ειδικές βελτιστοποιήσεις για τα χαρακτηριστικά των βιολογικών δεδομένων. Η PICKLE είναι διαθέσιμη στον ιστότοπο http://www.pickle.gr/.