Research Gap

Reviewed Paper

Advancements in Vision–Language Models for Remote Sensing: Datasets, Capabilities, and Enhancement Techniques

Category	Research Gap	Specific Example from Paper	Severity	Affected Paper/Model	Potential Impact
Regression Tasks	Text-based tokenization leads to precision loss in continuous value prediction.	Tokenization of "100" into ["1", "00"] causes errors in AGB (Above-Ground Biomass) estimation tasks.	High	REO-VLM	Improved environmental monitoring and carbon stock calculations.
Multispectral/SAR Adaptation	RGB-centric architectures underperform on non-RGB data (e.g., SAR, hyperspectral).	SpectralGPT struggles with SAR data due to inherited RGB-focused pretraining frameworks.	High	SpectralGPT	Enhanced utility in flood mapping, mineral exploration, and military surveillance.
Multimodal Output Limitation	Text-only outputs limit utility in dense predictions (e.g., segmentation, 3D).	VLMs cannot generate segmentation masks or 3D models, restricting flood mapping applications.	Moderate-High	CPSeg	Enable real-time hazard mapping and infrastructure planning.
Temporal Data Handling	Static image analysis neglects temporal dynamics critical for trends.	Changen2’s synthetic temporal data lacks real-world complexity for deforestation monitoring.	Moderate	Changen2	Improved climate change prediction and disaster response.
Benchmarking	No unified standards for cross-task evaluation (e.g., VQA, RSICC).	RSVQA-HR and LEVIR-CC use incompatible metrics, complicating cross-model comparisons.	Moderate	RSVQA, LEVIR-CC	Accelerate model innovation via standardized benchmarks.
Ethical AI & Bias	Auto-annotated datasets inherit biases from foundation models.	RS5M’s captions generated by BLIP2/GPT-4 reflect urban/rural bias, skewing agricultural monitoring insights.	Moderate	RS5M	Fairer AI applications in policy-making and environmental justice.
Sustainability	High computational costs hinder accessibility and scalability.	SkyEyeGPT’s training consumes excessive GPU resources, limiting adoption in resource-constrained regions.	High	SkyEyeGPT	Democratize access to VLM tools for global environmental monitoring.

Priority	Category	Issues	Notes
High	Regression Tasks	Text-based tokenization causes precision loss in continuous value prediction	AGB estimation errors in REO-VLM due to splitting "100" into ["1", "00"]
High	Multispectral/SAR Adaptation	RGB architectures ill-suited for SAR/hyperspectral data	SpectralGPT struggles with SAR due to RGB-focused pretraining
High	Sustainability	Excessive GPU requirements limit accessibility	SkyEyeGPT requires High-end GPUs unavailable in developing regions
Moderate-High	Multimodal Output	Text-only outputs restrict segmentation/3D tasks	CPSeg cannot generate flood masks directly via VLMs
Moderate	Temporal Analysis	Static models ignore temporal dynamics	Changen2's synthetic data lacks real-world temporal patterns
Moderate	Benchmarking	Lack unified evaluation standards	RSVQA vs LEVIR-CC use incompatible metrics
Moderate	Ethical AI & Bias	Auto-annotated data inherits LLM biases	RS5M captions show urban/rural bias affecting agriculture insights