Klassifikation af cancer ved brug af Rank Based Classsifiers
Specialeforsvar ved Ralph Møller Trane
Titel: Klassifikation af cancer ved brug af Rank Based Classifiers
Resume: Arbejdet med at analysere relative koncentration af mRNA i forskellige gener er blevet mere og mere brugt de senere år, især på grund af mere effektive metoder til at måle disse. Mange forskellige statistiske metoder har været brugt til at analysere disse i håb om at identificere mindre sæt a gener, der kan bruges til diagnosticering eller bedre biologisk forståelse af forskellige sygdomme. Resultaterne indtil videre har været lovende. Mange forskellige modeller har vist høj præcision i forhold til korrekt klassifikation baseret på mRNA data. Desværre er brugen af disse i praktiske situation meget begrænset. Dette skyldes blandt andet, at de benyttede metoder er meget komplekse, og at de sæt af gener man har fundet har varieret en del fra studie til studie, selvom disse har haft til formål at beskrive samme sygdom. Andre forklaringer kan findes i forskellige praktiske problematikker, såsom kontaminering af prøver, der endnu er en stor udfordring for diverse statistiske metoder. I dette speciale vil jeg først gå gennem de såkaldte Rank-in-Context klassifikatorere. Denne klasse af klassifikatorere er baseret udelukkende på sammenligninger af parvise gener, og har vist lovende resultater. Men det er også en meget begrænsende og ikke særlig fleksibel klasse. Derfor introducerer jeg en udvidet klasse, der ligeledes er baseret på sammenligninger, men som er mere fleksibel, som bliver refereret til som Rank Based Classifiers. Tre metoder fra denne klasse bliver præsenteret, og deres præstationer på seks forskellige datasæt evalueret. Klassifikatorer fra disse to klasser har den fordel, at de er invariante overfor monotone, stigende transformationer af genudtrykkene. Denne kunne godt få en til at håbe, at de også vil være mindre påvirket af kontaminering af prøver. For at undersøge dette blev de tre metoder benyttet til at analysere et datasæt bestående delvist af kontamineret data. Dette blev gjort både med og uden brugen af en kontamineringsmodel. Dermed er det muligt både at få en idé om, hvordan Rank Based Classifiers præsterer, når data er kontamineret, og at præsentere en mulig løsning på kontamineringsproblemet. Resultaterne fundet i dette speciale indikerer, at Rank Based Classifiers er konkurrence-dygtige, når det kommer til prediktionspræcision. Angående deres præstationer, når enyttet til at prediktere kontamineret data, så er resultaterne lidt mere tvetydige, men indikationer af, at de rent faktisk er mere robuste blev fundet.
Vejleder: Niels Richard Hansen
Censor: Claus Ekstrøm, Biostatistisk afd. Inst. Folkesundhedsvid