Multimodal (Page 4 of 4)｜AI/Tech News Trends

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN Multimodal

MODUS: Decoder-Only Any-to-Any Modeling of Diverse Modalities

Computer Vision

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN Multimodal

Evaluating Multi-Turn Multimodal Diagnostic Reasoning on Challenging Real-World Clinical Cases

Machine Learning Reinforcement Learning

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN Developer Tools

Face De-Identification: A Domain-Centric Survey from Capture to Processing

Algorithms & Theory Computer Vision Deep Learning Neural Network Reinforcement Learning

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN Multimodal

Evaluating VLMs for Autonomous Agent-Driven Geometry Clipping Detection in Video Game QA

AI Agents Computer Vision Gemini GPT Llama

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN Multimodal

SAM3D-Guided Object-Centric Representation Alignment for Vision-Language-Action Models

Computer Vision Inference Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN Multimodal

HiFi-UMI: Learning Deployable Manipulation Policies from High-Fidelity UMI Data Alone

Computer Vision Neural Network Reinforcement Learning

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN New Model Releases

RSIBench-Data: Benchmarking Data-Centric Research for Recursive Self-Improvement

AI Agents Reinforcement Learning Software Engineering

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN New Model Releases

Shieldstral

Reinforcement Learning Software Engineering

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN Training & Fine-tuning

Detecting CSAM Text-to-Image LoRAs From Weights

Fine-tuning Inference Meta

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN Multimodal

Loss Invariance Determines What Concept Layers Encode: Volume Grounding in Echocardiography

Reinforcement Learning Transformer

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN Multimodal

Tools Are Not Islands: Set-Level Tool Retrieval for LLM Agents via Query-Conditioned Hyperedge Prediction

AI Agents Reinforcement Learning

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN Developer Tools

Cognivia: A Cognitive Behavioral Therapy Copilot for Evidence-Based Mental Healthcare

Neural Network Reinforcement Learning Software Engineering

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN Multimodal

DynaBridge: Dynamic Summary-Guided Cross-Task Multimodal Fusion for DASS-Structured Mental Health Assessment

Neural Network

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN Multimodal

MyMentorLLM: A psychotherapy GenAI environment with multimodal voice/text patients, trainees and experts for deliberate practice

Generative AI Reinforcement Learning Speech Processing

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN Developer Tools

Contextual Deconvolution for Variance-Stable Demand Sensing: Kernel-Modulated Operators in Promotional Retail

Machine Learning

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN Multimodal

Instruction-based Image Editing: A Survey on Data, Models, Evaluation, and Applications

Computer Vision

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN Funding & M&A

Beyond Self-Knowledge: Propagating Uncertainty Across Reasoning and Retrieval in LLMs

Neural Network Retrieval-Augmented Generation (RAG) Reinforcement Learning Software Engineering

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN Multimodal

Forensic Reproducibility Audit of a Radiology Vision-Language Model Benchmark: From Intended Protocol to Released Artifact

Claude Computer Vision Meta Neural Network

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN Inference & Efficiency

OrthKD: Extracting Generalized Clinical Knowledge from Heterogeneous Teachers for Lightweight Deployment

Neural Network Retrieval-Augmented Generation (RAG) Transformer

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN Multimodal

Architectural Backdoors in Vision-Language Model Supply Chains via Representation Steering

Computer Vision Embeddings Fine-tuning Meta Software Engineering

Read original (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN Multimodal

Temporal-Distance JEPA: Plan-Aware Representation Learning for Latent World Model Predictive Control

Embeddings Neural Network Reinforcement Learning

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN Funding & M&A

CLBench-V: Evaluating Multimodal Context Learning from Grounding to Knowledge Acquisition

Neural Network Reinforcement Learning Software Engineering

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN New Model Releases

MyoCardBench: A Real-World Data Benchmark for Evaluating Large Language Models in Clinically Authentic Cardiovascular Care Scenarios

Gemini GPT Neural Network Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-27 EN Multimodal

Mage-VL: An Efficient Codec-Native Streaming Multimodal Foundation Model

Computer Vision Inference

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-27 EN New Model Releases

ClinFusion: A Vision-Centric Multimodal LLM System for Holistic Medical Understanding

Gemini GPT Machine Learning Neural Network Software Engineering

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-27 EN Multimodal

KANEx: Translating Kolmogorov-Arnold Networks' Interpretability to Medical Explainability

Computer Vision Health & Bio Retrieval-Augmented Generation (RAG) Reinforcement Learning

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-27 EN Inference & Efficiency

Rethinking Classifier-Free Guidance in On-Policy Diffusion Distillation

Inference Reinforcement Learning

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-27 EN Multimodal

ERUnderstand: Evaluating Vision-Language Models on Structured ER Diagrams

Computer Vision Neural Network Reinforcement Learning

Read original (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-27 EN Multimodal

Evidence Attribution in Visual Document Understanding without Coordinates or Region Labels

Computer Vision Software Engineering

Read original (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-27 EN Multimodal

Looping Is Not Reliability: State-Bound Evidence and Typed Revision Contracts for Agentic Code Repair

AI Agents

Read original (arXiv cs.AI (Artificial Intelligence)) ↗