UFF REITORIA

Agregação Multimodal para Exames de Tórax

Será defendida no dia 7 de agosto de 2025, às 14:00 horas, por videoconferência, a Dissertação de Mestrado intitulada “Agregação Multimodal para Exames de Tórax”, do candidato ao título de Mestre em Computação – João Vitor Silva Leite.

Link para defesa: https://meet.google.com/jte-xvyi-ost

Resumo:

Doenças pulmonares, como a Doença Pulmonar Obstrutiva Crônica (DPOC) e as Doenças Pulmonares Intersticiais (DPI), representam um desafio na prática diagnóstica devido não apenas à complexidade, mas também à subjetividade na interpretação. Sistemas de Recuperação por Conteúdo (CBIR) são uma alternativa promissora para apoiar radiologistas com diferentes níveis de experiência, permitindo a comparação direta de um caso em análise com casos históricos já diagnosticados mais similares. Não obstante, essa abordagem unimodal, centrada apenas na imagem, pode ser insuficiente ou demasiadamente ambígua diante da diversidade semântica dos achados radiológicos. Esta dissertação busca investigar se a agregação multimodal de consultas Top-k, aplicadas de forma independente a imagens e laudos radiológicos pode aprimorar a precisão e a relevância clínica de sistemas CBIR. Para permitir essa agregação multimodal, foi proposto o algoritmo MMTA-Search e um novo sistema CBIR multimodal para sua implementação, denominado ChestFinder. O ChestFinder permite realizar a extração de características de exames de tórax com várias CNNs e transformers, bem como oferece estimadores de dimensionalidade intrínseca para aplicação de redução de dimensionalidade. Os vetores unimodais extraídos e transformados são agregados pelo MMTA-Search, que considera a acurácia de cada classe diagnóstica nesse procedimento de consolidação. A avaliação do MMTA-Search foi conduzida em dois conjuntos de dados reais: (i) o ChestCT, com tomografias de pacientes com DPOC/enfisema pulmonar do Hospital Universitário Antônio Pedro da UFF, e (ii) o ChestXR, com radiografias de pacientes com DPI e COVID-19 do Hospital das Clínicas da USP/RP. Os resultados indicaram ganhos significativos: até 53,4% de aumento de acurácia e recall no ChestCT e cerca de 9% no ChestXR, em comparação com buscas por imagem. Além disso, o MMTA-Search também superou o modelo multimodal estado da arte BiomedCLIP, com melhorias de até 6,2% em acurácia e F1-Score. 

Abstract:

Pulmonary diseases, such as Chronic Obstructive Pulmonary Disease (COPD) and Interstitial Lung Diseases (ILD), pose a challenge in diagnostic practice due to their complexity and variability in interpretation. Content-Based Image Retrieval (CBIR) systems are a promising alternative to support radiologists with varying levels of experience, enabling direct comparisons between cases under analysis and the most similar diagnosed cases from a reference database. However, this unimodal approach (focused on imaging) may be insufficient or ambiguous given the semantic diversity of radiological findings. This dissertation aims to investigate whether the multimodal aggregation of Top-k queries applied independently to both radiological images and reports can enhance the accuracy and clinical relevance of CBIR systems. Here, the MMTA-Search algorithm is proposed to enable such a multimodal aggregation within a new multimodal CBIR system, named ChestFinder. ChestFinder enables feature extraction from chest studies by providing multiple CNNs and transformers, and also includes intrinsic dimensionality estimators for dimensionality reduction. The unimodal vectors extracted and transformed are aggregated by MMTA-Search, which accounts for the accuracy of each diagnostic class in the consolidation process. The evaluation of MMTA-Search was conducted on two real-world datasets: (i) ChestCT, containing tomography scans of patients with COPD/pulmonary emphysema from the Antônio Pedro University Hospital — UFF, and (ii) ChestXR, containing X-rays of patients with ILD and COVID-19 from the Clinical Hospital — USP/RP. The results showed significant improvements: up to a 53.4% increase in accuracy and recall on ChestCT, and approximately 9% on ChestXR compared to image-based searches. Furthermore, MMTA-Search also outperformed the state-of-the-art multimodal model BiomedCLIP, achieving improvements of up to 6.2% in accuracy and F1-score.

Banca  examinadora:

Prof. Marcos Vinícius Naves Bêdo, UFF – Presidente

Prof. Daniel Cardoso Moraes de Oliveira, UFF 

Profa. Agma Juci Machado Traina, USP

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *