BraTS-ReportX Study Protocol
+Collaborative Annotation of Clinical MRI Reports for the BraTS-GLI Dataset
+Project reference neuroradiologist:
Dr. Francesco Farioli, Neuroradiologist and PhD Student, University of Modena and Reggio Emilia
Coordinating center:
AImageLab, Department of Engineering "Enzo Ferrari", University of Modena and Reggio Emilia
1. Background and Rationale
+Publicly available medical imaging datasets have played a central role in the development and validation of artificial intelligence methods for neuro-oncology. Among these resources, the Brain Tumor Segmentation glioma dataset, BraTS-GLI, represents one of the most widely used benchmarks for adult diffuse glioma MRI analysis. The dataset includes 1,251 pre-operative multiparametric brain MRI examinations, each accompanied by expert tumor segmentations. The available MRI sequences include T1-weighted, post-contrast T1-weighted, T2-weighted, and FLAIR images.
+Since its first releases, BraTS has enabled major progress in automated brain tumor segmentation. However, most publicly available segmentation datasets provide voxel-wise masks but do not include the semantic clinical information that is routinely contained in radiology reports. In clinical practice, radiology reports provide a structured interpretation of imaging findings, including lesion location, morphology, enhancement pattern, mass effect, relationship with adjacent anatomical structures, ventricular or ependymal involvement, multifocality, and other ancillary findings.
+The recent progress of multimodal artificial intelligence has created a strong need for paired imaging-text datasets. In particular, large-scale datasets combining 3D MRI examinations, tumor segmentations, and validated radiology reports may support the development of models that integrate visual and textual information. Such datasets could enable research on report-guided segmentation, automated report generation, image generation, text-conditioned image synthesis, and cross-modal representation learning.
+To date, complete and validated radiology reports have not been systematically released for the full BraTS-GLI dataset. The BraTS-ReportX project aims to fill this gap by creating descriptive clinical radiology reports for all 1,251 BraTS-GLI examinations. The final goal is to release a public multimodal dataset including MRI images, tumor segmentations, free-text clinical reports, and structured fields derived from the reports and/or from computational analysis. By making this resource publicly available, the project aims to allow clinical, engineering, and computational research laboratories to develop and validate multimodal models on a shared, clinically meaningful benchmark.
+At the University of Modena and Reggio Emilia, preliminary work has already been performed on 257 BraTS-GLI examinations. In this initial phase, clinician-curated reports were generated and structured according to a standardized internal protocol. The preliminary results suggest that expert-written clinical reports provide richer and more consistent semantic information than automatically generated or less structured report resources. Furthermore, when used as auxiliary semantic supervision during model training, these reports improved 3D brain tumor segmentation performance while preserving an image-only inference pipeline.
+The next phase of the project will involve a larger collaborative reporting effort performed by expert neuroradiologists. This work may also provide the basis for a future dedicated MICCAI challenge task focused on report-enriched brain tumor MRI analysis, multimodal image-text learning, or report-guided segmentation.
+The project reference neuroradiologist is Dr. Francesco Farioli, neuroradiologist and PhD student at the University of Modena and Reggio Emilia. The coordinating center is the AImageLab, Department of Engineering "Enzo Ferrari", University of Modena and Reggio Emilia.
+All collaborators who complete the assigned work according to the project requirements will be included as co-authors in the resulting dataset publication.
+2. Objectives
+The primary objective of the BraTS-ReportX project is to generate a complete, high-quality, validated set of clinical radiology reports for all 1,251 BraTS-GLI MRI examinations. The secondary objectives are:
+-
+
- To create a public multimodal dataset combining brain MRI images, tumor segmentations, free-text clinical reports, and structured report-derived fields. +
- To support research on multimodal models integrating imaging and textual information. +
- To evaluate whether clinical report information can improve segmentation and other downstream imaging tasks. +
- To support the development of automated brain MRI report generation models. +
- To support research on text-conditioned MRI image generation and cross-modal representation learning. +
- To provide a robust resource that may serve as the foundation for a future dedicated MICCAI task. +
3. Materials and Methods
+Dataset
+The project will use the BraTS-GLI dataset, a public collection of MRI examinations from adult patients with diffuse gliomas. The dataset includes 1,251 examinations. For each case, the available imaging data include T1-weighted, post-contrast T1-weighted, T2-weighted, and FLAIR sequences. Expert tumor segmentations are also available according to the BraTS annotation protocol.
+No additional clinical information will be available to the reporting neuroradiologists. Reports will therefore be based only on the MRI images and the available tumor segmentations.
+Participants
+Reporting will be performed by neuroradiologists. Each collaborator will receive personal login credentials and will be assigned a predefined subset of examinations.
+The planned workload for each collaborator is approximately 60 examinations, including both high-grade and low-grade gliomas. The assigned cases should be completed within 30 days after receipt of the platform credentials and study instructions. The expected reporting time is approximately 10 minutes per case, although this may vary depending on lesion complexity.
+Reporting Platform
+Reports will be generated through a dedicated web-based platform developed at the University of Modena and Reggio Emilia. The platform allows direct review of the MRI images and the available tumor segmentations. It also includes an automatic speech-to-text dictation system, allowing reports to be typed manually or dictated using the computer microphone.
+Reports may be written either in English or in Italian. When required, reports written in Italian may subsequently be translated and harmonized by the coordinating center before final dataset release. After collaborators complete the enrollment form, they will receive the information documentation and the link to the reporting website.
+Reporting Instructions
+Reports will be written in free-text format, guided by a reporting instruction document. The aim is not to impose a rigid structured template, but to encourage consistent and clinically meaningful descriptions across cases.
+A short guide will be provided to indicate the main imaging features that collaborators should evaluate and, when visible, include in the report. Particular attention should be paid to VASARI-related features and to the following elements:
+-
+
- lesion location and side; +
- tumor extent and anatomical structures involved; +
- enhancement pattern; +
- necrotic or cystic components; +
- non-enhancing tumor component; +
- edema or infiltrative FLAIR abnormality; +
- mass effect and midline shift; +
- ventricular or ependymal involvement; +
- cortical, callosal, deep gray matter, brainstem, or cerebellar involvement, when present; +
- multifocal or multicentric disease; +
- relationship with eloquent or clinically relevant areas, when assessable; +
- ancillary findings visible on the available images. +
Reports should describe all relevant imaging findings visible on the available MRI sequences, within the limits imposed by image quality and by the absence of additional sequences such as diffusion, perfusion, susceptibility-weighted imaging, or advanced MRI acquisitions.
+Initial Calibration Phase
+To promote consistency across contributors, the project will include an initial calibration phase. Each collaborator will first be asked to report three cases. These reports will be reviewed by the coordinating center, and feedback will be provided regarding report style, level of detail, completeness, and adherence to the project instructions. The aim of this step is to harmonize reporting across collaborators before the full assignment is completed. After this feedback phase, collaborators will proceed with the remaining assigned cases.
+Quality Control and Validation
+The coordinating center will perform quality control of the submitted reports. Quality assessment may include evaluation of completeness, consistency, clarity, and coverage of clinically relevant neuro-oncological concepts.
+A subset of reports will undergo additional review to assess report quality and inter-reader consistency. Some cases will be assigned to more than one neuroradiologist, allowing evaluation of inter-reader agreement and identification of fields or concepts that may require further harmonization. When necessary, discrepancies may be reviewed by the coordinating center or by an expert neuroradiology panel.
+The final released dataset will include free-text reports and structured fields. Structured fields may be derived from the reports, from manual review, or from automatic computational analysis. These fields may include, when applicable, lesion location, involved anatomical regions, tumor laterality, number of lesions, and other clinically relevant descriptors.
+Preliminary Work
+A preliminary BraTS-ReportX dataset has already been created at the University of Modena and Reggio Emilia. This initial dataset includes 257 BraTS-GLI examinations enriched with clinician-curated reports and structured descriptors.
+The preliminary work showed that clinician-written reports provide broader clinical semantic coverage and better adherence to structured reporting concepts than other available report-augmented BraTS resources. Inter-reader consistency was evaluated on overlapping cases, supporting the reliability of the reporting approach.
+The reports were also used as auxiliary semantic supervision in a 3D brain tumor segmentation framework. In this setting, textual report embeddings were aligned with MRI visual features during training, while inference remained based only on the imaging data. The use of clinician-curated reports improved segmentation performance compared with an image-only baseline and compared with alternative textual resources.
+These findings support the hypothesis that high-quality radiology reports can provide meaningful semantic supervision for 3D medical image analysis and justify the extension of the annotation effort to the full BraTS-GLI dataset.
+4. Expected Results and Impact
+The expected result of this collaborative annotation effort is the release of BraTS-ReportX, a large public multimodal dataset including 1,251 BraTS-GLI MRI examinations, tumor segmentations, free-text clinical radiology reports, and structured fields. The main expected scientific impacts are:
+-
+
- Enabling research on multimodal 3D MRI models that jointly use images and text. +
- Supporting the development of report-guided or report-supervised segmentation algorithms. +
- Providing training and evaluation data for automated brain MRI report generation. +
- Supporting research on text-conditioned MRI synthesis and image generation. +
- Creating a clinically meaningful benchmark for neuro-oncology artificial intelligence. +
- Providing the foundation for a possible future MICCAI task focused on multimodal brain tumor MRI analysis. +
The key strength of the project is the combination of a widely used public imaging dataset with expert-generated radiology reports and structured clinical descriptors. By releasing the dataset publicly, BraTS-ReportX aims to facilitate reproducible research and allow multiple laboratories to develop, evaluate, and compare multimodal methods on a shared resource.
+5. Authorship and Data Release
+All collaborators who complete the assigned reporting work and meet the project requirements will be included as co-authors in the resulting publication describing the dataset. The authorship requirement is completion of the assigned 60 cases after quality-control approval.
+The final dataset will be prepared for public release according to the applicable data-sharing conditions of the original BraTS dataset and the policies of the coordinating center. Documentation accompanying the dataset will include the reporting instructions, data structure, structured fields, and recommended citation.
+Protocollo di Studio BraTS-ReportX
+Annotazione collaborativa di referti clinici RM per il dataset BraTS-GLI
+Neuroradiologo di riferimento del progetto:
Dr. Francesco Farioli, Neuroradiologo e Dottorando, Universita di Modena e Reggio Emilia
Centro di coordinamento:
AImageLab, Dipartimento di Ingegneria "Enzo Ferrari", Universita di Modena e Reggio Emilia
1. Contesto e Razionale
+I dataset di imaging medico disponibili pubblicamente hanno avuto un ruolo centrale nello sviluppo e nella validazione di metodi di intelligenza artificiale per la neuro-oncologia. Tra queste risorse, il dataset di glioma Brain Tumor Segmentation, BraTS-GLI, rappresenta uno dei benchmark piu utilizzati per l'analisi RM dei gliomi diffusi dell'adulto. Il dataset comprende 1.251 esami RM cerebrali multiparametrici pre-operatori, ciascuno accompagnato da segmentazioni tumorali di esperti. Le sequenze RM disponibili includono immagini pesate in T1, T1 post-contrasto, T2 e FLAIR.
+Fin dalle prime release, BraTS ha consentito importanti progressi nella segmentazione automatica dei tumori cerebrali. Tuttavia, la maggior parte dei dataset pubblici di segmentazione fornisce maschere voxel-wise ma non include l'informazione clinica semantica che e normalmente contenuta nei referti radiologici. Nella pratica clinica, i referti radiologici forniscono un'interpretazione strutturata dei reperti di imaging, includendo sede della lesione, morfologia, pattern di enhancement, effetto massa, rapporto con strutture anatomiche adiacenti, coinvolgimento ventricolare o ependimale, multifocalita e altri reperti ancillari.
+I recenti progressi dell'intelligenza artificiale multimodale hanno creato una forte esigenza di dataset appaiati immagine-testo. In particolare, dataset su larga scala che combinano esami RM 3D, segmentazioni tumorali e referti radiologici validati possono supportare lo sviluppo di modelli che integrano informazioni visive e testuali. Tali dataset potrebbero abilitare ricerca su segmentazione guidata dal referto, generazione automatica del referto, generazione di immagini, sintesi di immagini condizionata dal testo e apprendimento di rappresentazioni cross-modali.
+Ad oggi, referti radiologici completi e validati non sono stati rilasciati in modo sistematico per l'intero dataset BraTS-GLI. Il progetto BraTS-ReportX mira a colmare questa lacuna creando referti radiologici clinici descrittivi per tutti i 1.251 esami BraTS-GLI. L'obiettivo finale e rilasciare un dataset multimodale pubblico che includa immagini RM, segmentazioni tumorali, referti clinici in testo libero e campi strutturati derivati dai referti e/o da analisi computazionale. Rendendo questa risorsa pubblicamente disponibile, il progetto intende consentire a laboratori clinici, ingegneristici e computazionali di sviluppare e validare modelli multimodali su un benchmark condiviso e clinicamente significativo.
+Presso l'Universita di Modena e Reggio Emilia e gia stato svolto lavoro preliminare su 257 esami BraTS-GLI. In questa fase iniziale, sono stati generati referti curati da clinici e strutturati secondo un protocollo interno standardizzato. I risultati preliminari suggeriscono che i referti clinici redatti da esperti forniscono informazioni semantiche piu ricche e piu coerenti rispetto a risorse di refertazione automatiche o meno strutturate. Inoltre, quando utilizzati come supervisione semantica ausiliaria durante il training dei modelli, questi referti hanno migliorato le prestazioni di segmentazione 3D dei tumori cerebrali mantenendo una pipeline di inferenza basata solo sull'immagine.
+La fase successiva del progetto coinvolgera un piu ampio sforzo collaborativo di refertazione svolto da neuroradiologi esperti. Questo lavoro puo anche costituire la base per una futura task dedicata MICCAI focalizzata su analisi RM dei tumori cerebrali arricchita dal referto, apprendimento multimodale immagine-testo o segmentazione guidata dal referto.
+Il neuroradiologo di riferimento del progetto e il Dr. Francesco Farioli, neuroradiologo e dottorando presso l'Universita di Modena e Reggio Emilia. Il centro di coordinamento e AImageLab, Dipartimento di Ingegneria "Enzo Ferrari", Universita di Modena e Reggio Emilia.
+Tutti i collaboratori che completano il lavoro assegnato secondo i requisiti del progetto saranno inclusi come coautori nella pubblicazione risultante del dataset.
+2. Obiettivi
+L'obiettivo primario del progetto BraTS-ReportX e generare un set completo, di alta qualita e validato di referti clinici radiologici per tutti i 1.251 esami RM BraTS-GLI. Gli obiettivi secondari sono:
+-
+
- Creare un dataset multimodale pubblico che combini immagini RM cerebrali, segmentazioni tumorali, referti clinici in testo libero e campi strutturati derivati dal referto. +
- Supportare la ricerca su modelli multimodali che integrano informazioni di imaging e testuali. +
- Valutare se le informazioni del referto clinico possano migliorare la segmentazione e altri task di imaging downstream. +
- Supportare lo sviluppo di modelli automatici di generazione del referto RM cerebrale. +
- Supportare la ricerca su generazione di immagini RM condizionata dal testo e apprendimento di rappresentazioni cross-modali. +
- Fornire una risorsa robusta che possa fungere da base per una futura task dedicata MICCAI. +
3. Materiali e Metodi
+Dataset
+Il progetto utilizzera il dataset BraTS-GLI, una raccolta pubblica di esami RM di pazienti adulti con gliomi diffusi. Il dataset include 1.251 esami. Per ciascun caso, i dati di imaging disponibili includono sequenze pesate in T1, T1 post-contrasto, T2 e FLAIR. Sono inoltre disponibili segmentazioni tumorali di esperti secondo il protocollo di annotazione BraTS.
+Non saranno disponibili informazioni cliniche aggiuntive per i neuroradiologi refertatori. I referti saranno quindi basati esclusivamente sulle immagini RM e sulle segmentazioni tumorali disponibili.
+Partecipanti
+La refertazione sara svolta da neuroradiologi. Ogni collaboratore ricevera credenziali personali di accesso e gli verra assegnato un sottoinsieme predefinito di esami.
+Il carico di lavoro previsto per ciascun collaboratore e di circa 60 esami, includendo sia gliomi ad alto grado sia a basso grado. I casi assegnati dovranno essere completati entro 30 giorni dal ricevimento delle credenziali della piattaforma e delle istruzioni di studio. Il tempo atteso di refertazione e di circa 10 minuti per caso, sebbene possa variare in base alla complessita della lesione.
+Piattaforma di Refertazione
+I referti saranno generati tramite una piattaforma web dedicata sviluppata presso l'Universita di Modena e Reggio Emilia. La piattaforma consente la revisione diretta delle immagini RM e delle segmentazioni tumorali disponibili. Include inoltre un sistema automatico di dettatura speech-to-text, consentendo di compilare i referti manualmente o dettandoli tramite il microfono del computer.
+I referti potranno essere scritti in inglese o in italiano. Quando necessario, i referti redatti in italiano potranno essere successivamente tradotti e armonizzati dal centro di coordinamento prima del rilascio finale del dataset. Dopo che i collaboratori avranno completato il modulo di adesione, riceveranno la documentazione informativa e il link al sito web di refertazione.
+Istruzioni di Refertazione
+I referti saranno redatti in formato testo libero, guidati da un documento di istruzioni alla refertazione. L'obiettivo non e imporre un template rigidamente strutturato, ma incoraggiare descrizioni coerenti e clinicamente significative tra i casi.
+Sara fornita una guida sintetica per indicare le principali caratteristiche di imaging che i collaboratori dovranno valutare e, quando visibili, includere nel referto. Particolare attenzione dovra essere posta alle caratteristiche correlate a VASARI e ai seguenti elementi:
+-
+
- sede e lato della lesione; +
- estensione tumorale e strutture anatomiche coinvolte; +
- pattern di enhancement; +
- componenti necrotiche o cistiche; +
- componente tumorale non enhancing; +
- edema o alterazione FLAIR infiltrativa; +
- effetto massa e shift della linea mediana; +
- coinvolgimento ventricolare o ependimale; +
- coinvolgimento corticale, callosale, della sostanza grigia profonda, del tronco encefalico o cerebellare, quando presente; +
- malattia multifocale o multicentrica; +
- rapporto con aree eloquenti o clinicamente rilevanti, quando valutabile; +
- reperti ancillari visibili nelle immagini disponibili. +
I referti dovrebbero descrivere tutti i reperti di imaging rilevanti visibili nelle sequenze RM disponibili, entro i limiti imposti dalla qualita dell'immagine e dall'assenza di sequenze aggiuntive quali diffusione, perfusione, susceptibility-weighted imaging o acquisizioni RM avanzate.
+Fase Iniziale di Calibrazione
+Per promuovere la coerenza tra i contributori, il progetto includera una fase iniziale di calibrazione. A ciascun collaboratore verra inizialmente richiesto di refertare tre casi. Questi referti saranno revisionati dal centro di coordinamento e verra fornito feedback su stile di refertazione, livello di dettaglio, completezza e aderenza alle istruzioni del progetto. L'obiettivo di questo passaggio e armonizzare la refertazione tra i collaboratori prima del completamento dell'intera assegnazione. Dopo questa fase di feedback, i collaboratori procederanno con i restanti casi assegnati.
+Controllo Qualita e Validazione
+Il centro di coordinamento eseguira il controllo qualita dei referti inviati. La valutazione di qualita puo includere la verifica di completezza, coerenza, chiarezza e copertura dei concetti neuro-oncologici clinicamente rilevanti.
+Un sottoinsieme di referti sara sottoposto a revisione aggiuntiva per valutare qualita del referto e coerenza inter-lettore. Alcuni casi saranno assegnati a piu neuroradiologi, consentendo la valutazione dell'accordo inter-lettore e l'identificazione di campi o concetti che possano richiedere ulteriore armonizzazione. Quando necessario, le discrepanze potranno essere revisionate dal centro di coordinamento o da un panel esperto di neuroradiologia.
+Il dataset finale rilasciato includera referti in testo libero e campi strutturati. I campi strutturati potranno essere derivati dai referti, da revisione manuale o da analisi computazionale automatica. Questi campi potranno includere, quando applicabile, sede della lesione, regioni anatomiche coinvolte, lateralita tumorale, numero di lesioni e altri descrittori clinicamente rilevanti.
+Lavoro Preliminare
+Un dataset preliminare BraTS-ReportX e gia stato creato presso l'Universita di Modena e Reggio Emilia. Questo dataset iniziale include 257 esami BraTS-GLI arricchiti con referti curati da clinici e descrittori strutturati.
+Il lavoro preliminare ha mostrato che i referti redatti dai clinici forniscono una copertura semantica clinica piu ampia e una migliore aderenza ai concetti di refertazione strutturata rispetto ad altre risorse BraTS arricchite con referti disponibili. La coerenza inter-lettore e stata valutata su casi sovrapposti, supportando l'affidabilita dell'approccio di refertazione.
+I referti sono stati anche utilizzati come supervisione semantica ausiliaria in un framework di segmentazione 3D dei tumori cerebrali. In questo contesto, gli embedding testuali dei referti sono stati allineati con le caratteristiche visive RM durante il training, mentre l'inferenza e rimasta basata solo sui dati di imaging. L'uso di referti curati da clinici ha migliorato le prestazioni di segmentazione rispetto a una baseline solo immagine e rispetto a risorse testuali alternative.
+Questi risultati supportano l'ipotesi che referti radiologici di alta qualita possano fornire una supervisione semantica significativa per l'analisi 3D di immagini mediche e giustificano l'estensione dello sforzo di annotazione all'intero dataset BraTS-GLI.
+4. Risultati Attesi e Impatto
+Il risultato atteso di questo sforzo collaborativo di annotazione e il rilascio di BraTS-ReportX, un ampio dataset multimodale pubblico che include 1.251 esami RM BraTS-GLI, segmentazioni tumorali, referti clinici radiologici in testo libero e campi strutturati. I principali impatti scientifici attesi sono:
+-
+
- Abilitare la ricerca su modelli RM 3D multimodali che utilizzano congiuntamente immagini e testo. +
- Supportare lo sviluppo di algoritmi di segmentazione guidati o supervisionati dal referto. +
- Fornire dati di training e valutazione per la generazione automatica di referti RM cerebrali. +
- Supportare la ricerca su sintesi RM condizionata dal testo e generazione di immagini. +
- Creare un benchmark clinicamente significativo per l'intelligenza artificiale in neuro-oncologia. +
- Fornire le basi per una possibile futura task MICCAI focalizzata su analisi multimodale RM dei tumori cerebrali. +
Il principale punto di forza del progetto e la combinazione di un dataset di imaging pubblico ampiamente utilizzato con referti radiologici generati da esperti e descrittori clinici strutturati. Rilasciando pubblicamente il dataset, BraTS-ReportX mira a facilitare la ricerca riproducibile e a consentire a piu laboratori di sviluppare, valutare e confrontare metodi multimodali su una risorsa condivisa.
+5. Authorship e Rilascio dei Dati
+Tutti i collaboratori che completano il lavoro di refertazione assegnato e soddisfano i requisiti del progetto saranno inclusi come coautori nella pubblicazione risultante che descrive il dataset. Il requisito di authorship e il completamento dei 60 casi assegnati dopo approvazione del controllo qualita.
+Il dataset finale sara preparato per il rilascio pubblico secondo le condizioni di condivisione dati applicabili del dataset BraTS originale e le policy del centro di coordinamento. La documentazione che accompagna il dataset includera le istruzioni di refertazione, la struttura dei dati, i campi strutturati e la citazione raccomandata.
+