マルチモーダル (3 / 5 ページ)｜AI/Tech動向まとめ

arXiv cs.CL (Computation and Language) · 2026-07-29 EN 学習・ファインチューニング

DenseOn with the LateOn: Fully Open Dense and Late-Interaction Models for Multilingual, Long-Context, and Code Search

ファインチューニング機械学習検索拡張生成 (RAG)

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN マルチモーダル

Anatomy Contextualized Adaption of CT Foundation Models

コンピュータビジョン埋め込み (Embeddings) 強化学習 Transformer

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN マルチモーダル

DLAM: Distributional Latent Actions with Temporal Constraints

コンピュータビジョン深層学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-29 EN 新モデル・リリース

Equilibrium Training of Energy-Based Models with Parallel Trajectory Tempering

ニューラルネットワーク強化学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN マルチモーダル

Visual Credit Audit for Multimodal Spatial Reasoning

機械学習ニューラルネットワークソフトウェア工学

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN 新モデル・リリース

SciFigAlign: Scoring Scientific Figures by Fine-tuned Alignment of Visuals with Manuscript Evidence

機械学習ニューラルネットワーク検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-29 EN マルチモーダル

What Can Latent World Models Know? Physical Parameter Identifiability in Multimodal Predictive Representations

検索拡張生成 (RAG) 強化学習ソフトウェア工学

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-29 EN マルチモーダル

Foundation Models for Face Presentation Attack Detection: A Unified Linear-Probing Benchmark

コンピュータビジョンニューラルネットワーク Transformer

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN 新モデル・リリース

Progressive Multimodal Alignment for Continual Instruction Tuning

深層学習埋め込み (Embeddings) 機械学習強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN 新モデル・リリース

Dual-Path LLM Reasoning for Multimodal Few-Shot Knowledge Graph Completion

強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN 新モデル・リリース

Hearsay: Vision-Language Medical Diagnoses Without an Image

Claude コンピュータビジョン Gemini GPT 検索拡張生成 (RAG)

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-29 EN マルチモーダル

Amortized Moment Matching for Visual Generation

ニューラルネットワーク

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN 新モデル・リリース

See2Think: Do Multimodal Models Really Use Intermediate Visual States?

推論 (Inference) ニューラルネットワーク検索拡張生成 (RAG) 強化学習ソフトウェア工学

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN マルチモーダル

Multimodal fusion of visual and morphometric features for avian bone classification

ニューラルネットワーク強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN マルチモーダル

Zero-Shot Face-to-Speech Synthesis via Latent Space Adaptation of a Style-Diffusion TTS Model

音声処理

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-29 EN マルチモーダル

Dual Inversion for Text-to-Image Diffusion Models: From Both Prompt and Noise Perspectives

コンピュータビジョン

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN 推論・効率化

Where Detectors Fail: Closing the Tail-Domain Gap with Expert-Guided Mutual Distillation

ニューラルネットワーク検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN 新モデル・リリース

Learning Dynamic User Personas from Implicit Interaction Streams via Iterative Refinement

強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN 新モデル・リリース

Diagnosing Fine-Grained Inconsistency Classification in Financial Disclosure Text

埋め込み (Embeddings) GPT

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-29 EN マルチモーダル

Symphony of Bias: Exploring Gender Associations with Musical Instruments in Multimodal LLMs

ニューラルネットワーク強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN 推論・効率化

Pass the Baton: Trajectory-Relayed On-Policy Distillation

検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN マルチモーダル

$π\mathbf{R}^2$: Reactive Real-time Flow Policies

コンピュータビジョンニューラルネットワーク

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN 新モデル・リリース

Re-thinking Mammography Transfer Learning: The Dataset-Informed Transfer Learning (DITL) Framework for Breast Cancer Screening and Lesion Diagnosis

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN マルチモーダル

VetClaw: An Edge-Cloud Multimodal Agentic System for Veterinary Disease Screening

コンピュータビジョン深層学習強化学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN マルチモーダル

Reinformed Dreamer: An Asymmetric World Model Efficiently Trained through Latent Guidance

アルゴリズム・理論検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN マルチモーダル

CHARM: A Multimodal Graph Foundation Model with Hierarchical Context Modeling for Zero-Shot Transfer

ファインチューニングニューラルネットワーク強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN 推論・効率化

MDTransformer: A Hardware-Software Co-Design of Mode-Division Photonic Transformer Accelerator with Inverse-Designed Coherent Crossbar

推論 (Inference) 量子化検索拡張生成 (RAG) Transformer

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN 推論・効率化

Parallel Decoding Distillation for Fast Image and Video Generation

推論 (Inference)

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-28 EN 新モデル・リリース

Untangling Co-Drift: Proactive Multi-Intent Failure Prediction and Root-Cause Disambiguation for Self-Driving Networks

Mixture of Experts (MoE)

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-28 EN マルチモーダル

Knowledge-Guided Multimodal Reasoning over Interacting Streams for Video-Level Ambivalence and Hesitancy Recognition

Meta ニューラルネットワーク

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗