← Back to London Jobs

Multimodal Medical Vision-Language Foundation Model for Healthcare Reasoning

Company: Institut Polytechnique de Paris Télécom Paris

Location: Palaiseau, London

Posted: June 14, 2026

Position Details

Topic description
 Ce projet de doctorat vise à construire un ensemble de données multimodal à grande échelle, longitudinal et enrichi de signaux d'ancrage solides, puis à développer un modèle vision‑langage médical (VLM) compact mais évolutif, dont la structure interne s'aligne étroitement sur les flux de travail des médecins.

La recherche sera organisée autour de deux axes étroitement liés. Le premier porte sur la construction de l'ensemble de données, impliquant la collecte et l'harmonisation de données hospitalières vietnamiennes dé‑identifiées, couvrant les radiographies, scanners (CT), PET, IRM et rapports cliniques, complétées par des ensembles de données publiques soigneusement sélectionnés. Le second axe concerne la méthodologie, en partant de modèles de base de taille modérée et cliniquement performants, dans l'esprit de LLaVA-Med, puis en décomposant le système en modules experts interactifs pour la récupération, la localisation, la segmentation, ...
        

SearchLondonJobs.co.uk

Modèle fondamental multimodal vision‑langage pour le raisonnement en santé // Multimodal Medical Vision-Language Foundation Model for Healthcare Reasoning

Apply for This Position

Position Details