| Anotācija |
Endometrioze ir hronisks ginekoloģisks stāvoklis, kas sastopams 5–10% reproduktīvā vecuma sieviešu un bieži izraisa stipras sāpes iegurnī, neauglību, kā arī kuņģa-zarnu trakta vai urīnceļu komplikācijas. Neskatoties uz tās izplatību, diagnostika bieži tiek aizkavēta par 6 līdz 10 gadiem, jo tā balstās uz invazīvām diagnostikas metodēm, piemēram, laparoskopiju, un nespecifiskiem simptomiem. Šajā pētījumā tiek izpētīta neinvazīva, uz datiem balstīta diagnostikas sistēma, kurā tiek izmantoti pacientu pašziņoti simptomu dati un mašīnmācīšanās metodes. Piedāvātā sistēma ir izstrādāta, lai sniegtu katram pacientam varbūtības "nopietnības rādītāju", balstoties uz simptomu biežumu un smagumu laika gaitā. Modelis problēmu formulē kā klasifikācijas uzdevumu, lai savlaicīgi novērtētu endometriozes risku un samazinātu nepieciešamību pēc invazīvām diagnostikas procedūrām.Lai risinātu problēmas, kas raksturīgas medicīnisko datu kopām, piemēram, datu gareniskumu, neatbilstības pašziņojumos, atšķirīgu ierakstu secības garumu starp pacientiem, iespējamu datu trūkumu, klašu nelīdzsvarotību, lielu pazīmju dimensiju skaitu un datu izkliedi, šis darbs piedāvā jaunu tabulas datu uzlabošanas stratēģiju. Uzlabošanas plūsma ietver datu amputāciju, lai radītu slēptu trūkumu, kam seko trīs imputācijas metožu izmantošana: (1) Daudzstohastiskā tabulas datu imputācija (MSTDI), (2) XGBoost balstīta daudzveidīga tabulas datu imputācija (XGB-MTDI), (3) FT-Transformer un daudzslāņu perceptronu kombinēts autoenkoders tabulas datu imputācijai (FTT-MLP-AE-MTDI).Šīs metodes tiek izvērtētas pēc to spējas rekonstruēt un uzlabot retus simptomu datus. Gala mašīnmācīšanās modeļi tiek apmācīti un pārbaudīti uz lielas datu kopas, kas balstīta uz pacientu pašziņojumiem, kas savākti piecu gadu laikā un satur apmēram vienu miljonu ierakstu. Labākā modeļa rezultāts bija pieckārtēja šķērsvalidācijas līdzsvarotā precizitāte 0,731 treniņu datos, kā arī 0,68 precizitāte un līdzsvarotie rādītāji (precizitāte, atsaukšana, F1 rādītājs) testēšanas datos. Šī pieeja ne tikai ļauj agrīni un mazāk invazīvi diagnosticēt endometriozi, bet arī veicina imputācijas stratēģiju izstrādi sarežģītām, tabulas formāta medicīnisko datu kopām. |