Interpretable Machine Learning Approaches in Computational Biology

Briesemeister, Sebastian

Publikationsdienste
→
TOBIAS-lib - Publikationen und Dissertationen
→
7 Mathematisch-Naturwissenschaftliche Fakultät
→
Dokumentanzeige

dc.contributor.advisor	Kohlbacher, Oliver (Prof. Dr.)	de_DE
dc.contributor.author	Briesemeister, Sebastian	de_DE
dc.date.accessioned	2012-03-13	de_DE
dc.date.accessioned	2014-03-18T10:24:11Z
dc.date.available	2012-03-13	de_DE
dc.date.available	2014-03-18T10:24:11Z
dc.date.issued	2012	de_DE
dc.identifier.other	361768710	de_DE
dc.identifier.uri	http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-60970	de_DE
dc.identifier.uri	http://hdl.handle.net/10900/49645
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-496456	de_DE
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-496458	de_DE
dc.description.abstract	Machine learning has become an essential tool for analyzing, predicting, and understanding biological properties and processes. Machine learning models can substantially support the work of biologists by reducing the number of expensive and time-consuming experiments. They are able to uncover novel properties of biological systems and can be used to guide experiments. Machine learning models have been successfully applied to various tasks ranging from gene prediction to three-dimensional structure prediction of proteins. However, due to their lack of interpretability, many biologists put only little trust in the predictions made by computational models. In this thesis, we show how to overcome the typical "black box" character of machine learning algorithms by presenting two novel interpretable approaches for classification and regression. In the first part, we introduce YLoc, an interpretable classification approach for predicting the subcellular localization of proteins. YLoc is able to explain why a prediction was made by identifying the biological properties with the strongest influence on the prediction. We show that interpretable predictions made by YLoc help to understand a protein's localization and, moreover, can assist biologists in engineering the location of proteins. Furthermore, YLoc returns confidence scores, making it possible for biologists to define their level of trust in individual predictions. In the second part, we show how our two novel confidence estimators, CONFINE and CONFIVE, can improve the interpretability of MHC-I-peptide binding prediction. In contrast to plain affinity values predicted by usual regression models, CONFINE and CONFIVE estimate affinity intervals, which provide a very natural interpretation of confidence. While low confidence predictions exhibit fairly large intervals, reliable predictions yield a very small range of affinities. We show that distinguishing between reliable and unreliable predictions is important for discovering and engineering reliable epitopes for vaccines. The interpretable approaches presented in this thesis are a significant step forward towards making machine learning methods more transparent to the users and, thus, towards improving the acceptance of computational methods.	en
dc.description.abstract	Maschinelles Lernen ist zu einem unverzichtbaren Werkzeug für die Analyse, Vorhersage und für das Verständnis biologischer Merkmale und Prozesse geworden. Als Alternative zu Experimenten im Labor, die oft teuer und zeitintensiv sind, können maschinelle Lernmodelle die Arbeit von Biologen erheblich erleichtern. So können beispielsweise neue Merkmale biologischer Systeme sowie Ansatzpunkte für Experimente gefunden werden. Maschinelles Lernen wurde erfolgreich für verschiedene Aufgaben, von der Genvorhersage bis hin zur Vorhersage der dreidimensionalen Struktur von Proteinen, eingesetzt. Aufgrund der schlechten Interpretierbarkeit von Vorhersagen computergestützter Lernverfahren, haben Biologen jedoch oft nur wenig Vertrauen in diese. Im Rahmen dieser Dissertation entwickeln wir daher neue Ansätze um die Klassifikation und die Regressionsanalyse für biologische Problemstellungen interpretierbarer und damit nachvollziehbarer zu machen. Im ersten Teil der Dissertation stellen wir YLoc vor, ein neues interpretierbares Klassifikationsverfahren zur Vorhersage der subzellulären Lokalisation von Proteinen. YLoc ist in der Lage Begründungen für eine gemachte Vorhersage zu geben, indem es die biologischen Merkmale mit dem größten Einfluss auf die Vorhersage identifiziert. Interpretierbare Vorhersagen von YLoc können helfen die Lokalisierung von Proteinen besser nachzuvollziehen und ferner Biologen bei der Planung von Experimenten, die Aufschluß über mögliche Änderung der Lokalisation von Proteinen geben sollen, zu unterstützen. Darüber hinaus bewertet YLoc die Zuverlässigkeit einzelner Vorhersagen, wodurch es Biologen möglich ist, das Maß an Vertrauen in Vorhersagen individuell abzuwägen. Im zweiten Teil dieser Arbeit stellen wir CONFINE und CONFIVE vor, zwei neue Verfahren zur Konfidenzschätzung von Vorhersagen, welche die Interpretierbarkeit von MHC-I-Bindungsvorhersagen entscheidend verbessern können. Im Gegensatz zu üblichen Regressionsmodellen, welche lediglich Affinitätswerte vorhersagen, können CONFINE und CONFIVE Affinitätsintervalle schätzen. Diese stellen eine intuitive Interpretation von Verlässlichkeit dar. Während weniger verlässliche Vorhersagen durch breite Affinitätsintervalle auffallen, weisen sichere Vorhersagen einen sehr kleinen Bereich möglicher Affinitäten auf. Wir können weiterhin zeigen, dass die Unterscheidung zwischen verlässlichen und unsicheren Vorhersagen wichtig für das Identifizieren und Verbessern von Epitopen in der Impfstoffgewinnung ist. Die in dieser Arbeit vorgestellten interpretierbaren Vorhersagemethoden stellen einen wichtigen Schritt in der Entwicklung transparenter maschineller Lernmethoden dar und können die Akzeptanz von computergestützte Methoden maßgeblich verbessern.	de_DE
dc.language.iso	en	de_DE
dc.publisher	Universität Tübingen	de_DE
dc.rights	ubt-podok	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en	en
dc.subject.classification	Maschinelles Lernen , Bereichsschätzung , Bioinformatik	de_DE
dc.subject.ddc	004	de_DE
dc.subject.other	Interpretierbarkeit , Konfidenzschätzung	de_DE
dc.subject.other	Interpretable , Machine learning , Confidence estimation , Computational biology	en
dc.title	Interpretable Machine Learning Approaches in Computational Biology	en
dc.title	Interpretierbare Maschinelle Lernansätze in der Bioinformatik	de_DE
dc.type	PhDThesis	de_DE
dcterms.dateAccepted	2012-02-29	de_DE
utue.publikation.fachbereich	Informatik	de_DE
utue.publikation.fakultaet	7 Mathematisch-Naturwissenschaftliche Fakultät	de_DE
dcterms.DCMIType	Text	de_DE
utue.publikation.typ	doctoralThesis	de_DE
utue.opus.id	6097	de_DE
thesis.grantor	7 Mathematisch-Naturwissenschaftliche Fakultät	de_DE

Dateien:	Dissertation_SebastianBriesemeister.pdf 3.02 MB PDF

Das Dokument erscheint in:

7 Mathematisch-Naturwissenschaftliche Fakultät [4978]

Zur Kurzanzeige

Veröffentlichen

Stöbern

Gesamter Bestand
Diese Sammlung

Mein Benutzerkonto

Einloggen

Interpretable Machine Learning Approaches in Computational Biology

DSpace Repositorium (Manakin basiert)

Das Dokument erscheint in:

Stöbern

Gesamter Bestand

Diese Sammlung

Mein Benutzerkonto