マルチモーダル (4 / 4 ページ)｜AI/Tech動向まとめ

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN マルチモーダル

MODUS: Decoder-Only Any-to-Any Modeling of Diverse Modalities

コンピュータビジョン

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN マルチモーダル

Evaluating Multi-Turn Multimodal Diagnostic Reasoning on Challenging Real-World Clinical Cases

機械学習強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN 開発者ツール

Face De-Identification: A Domain-Centric Survey from Capture to Processing

アルゴリズム・理論コンピュータビジョン深層学習ニューラルネットワーク強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN マルチモーダル

Evaluating VLMs for Autonomous Agent-Driven Geometry Clipping Detection in Video Game QA

AI エージェントコンピュータビジョン Gemini GPT Llama

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN マルチモーダル

SAM3D-Guided Object-Centric Representation Alignment for Vision-Language-Action Models

コンピュータビジョン推論 (Inference) 検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN マルチモーダル

HiFi-UMI: Learning Deployable Manipulation Policies from High-Fidelity UMI Data Alone

コンピュータビジョンニューラルネットワーク強化学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 新モデル・リリース

RSIBench-Data: Benchmarking Data-Centric Research for Recursive Self-Improvement

AI エージェント強化学習ソフトウェア工学

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 新モデル・リリース

Shieldstral

強化学習ソフトウェア工学

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN 学習・ファインチューニング

Detecting CSAM Text-to-Image LoRAs From Weights

ファインチューニング推論 (Inference) Meta

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN マルチモーダル

Loss Invariance Determines What Concept Layers Encode: Volume Grounding in Echocardiography

強化学習 Transformer

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN マルチモーダル

Tools Are Not Islands: Set-Level Tool Retrieval for LLM Agents via Query-Conditioned Hyperedge Prediction

AI エージェント強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN 開発者ツール

Cognivia: A Cognitive Behavioral Therapy Copilot for Evidence-Based Mental Healthcare

ニューラルネットワーク強化学習ソフトウェア工学

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN マルチモーダル

DynaBridge: Dynamic Summary-Guided Cross-Task Multimodal Fusion for DASS-Structured Mental Health Assessment

ニューラルネットワーク

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN マルチモーダル

MyMentorLLM: A psychotherapy GenAI environment with multimodal voice/text patients, trainees and experts for deliberate practice

生成 AI 強化学習音声処理

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN 開発者ツール

Contextual Deconvolution for Variance-Stable Demand Sensing: Kernel-Modulated Operators in Promotional Retail

機械学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN マルチモーダル

Instruction-based Image Editing: A Survey on Data, Models, Evaluation, and Applications

コンピュータビジョン

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 資金・M&A

Beyond Self-Knowledge: Propagating Uncertainty Across Reasoning and Retrieval in LLMs

ニューラルネットワーク検索拡張生成 (RAG) 強化学習ソフトウェア工学

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN マルチモーダル

Forensic Reproducibility Audit of a Radiology Vision-Language Model Benchmark: From Intended Protocol to Released Artifact

Claude コンピュータビジョン Meta ニューラルネットワーク

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN 推論・効率化

OrthKD: Extracting Generalized Clinical Knowledge from Heterogeneous Teachers for Lightweight Deployment

ニューラルネットワーク検索拡張生成 (RAG) Transformer

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN マルチモーダル

Architectural Backdoors in Vision-Language Model Supply Chains via Representation Steering

コンピュータビジョン埋め込み (Embeddings) ファインチューニング Meta ソフトウェア工学

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN マルチモーダル

Temporal-Distance JEPA: Plan-Aware Representation Learning for Latent World Model Predictive Control

埋め込み (Embeddings) ニューラルネットワーク強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 資金・M&A

CLBench-V: Evaluating Multimodal Context Learning from Grounding to Knowledge Acquisition

ニューラルネットワーク強化学習ソフトウェア工学

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-28 EN 新モデル・リリース

MyoCardBench: A Real-World Data Benchmark for Evaluating Large Language Models in Clinically Authentic Cardiovascular Care Scenarios

Gemini GPT ニューラルネットワーク検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-27 EN マルチモーダル

Mage-VL: An Efficient Codec-Native Streaming Multimodal Foundation Model

コンピュータビジョン推論 (Inference)

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-27 EN 新モデル・リリース

ClinFusion: A Vision-Centric Multimodal LLM System for Holistic Medical Understanding

Gemini GPT 機械学習ニューラルネットワークソフトウェア工学

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-27 EN マルチモーダル

KANEx: Translating Kolmogorov-Arnold Networks' Interpretability to Medical Explainability

コンピュータビジョンヘルスケア・バイオ検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-27 EN 推論・効率化

Rethinking Classifier-Free Guidance in On-Policy Diffusion Distillation

推論 (Inference) 強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-27 EN マルチモーダル

ERUnderstand: Evaluating Vision-Language Models on Structured ER Diagrams

コンピュータビジョンニューラルネットワーク強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-27 EN マルチモーダル

Evidence Attribution in Visual Document Understanding without Coordinates or Region Labels

コンピュータビジョンソフトウェア工学

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-27 EN マルチモーダル

Looping Is Not Reliability: State-Bound Evidence and Typed Revision Contracts for Agentic Code Repair

AI エージェント

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗