マルチモーダル A
101 件中 31〜60 件目を表示
-
Native Active Perception as Reasoning for Omni-Modal Understanding動画理解を効率化、難易度に応じ能動的に知覚する推論手法を提案長尺動画の理解で主流の「全フレーム一律処理」は、質問の難易度に関わらず計算量が動画長に比例して増える課題がある。本研究は知覚自体を推論として扱い、必要な箇所を能動的に観る「ネイティブ能動知覚」を提案。オムニモーダル理解を効率化する。
-
Rethinking Reward Supervision: Rubric-Conditioned Self-Distillationルーブリック条件付き自己蒸留で推論モデルの報酬監督を見直す推論言語モデルの事後学習は、教師蒸留や検証可能報酬による強化学習で進められるが、蒸留は高価な思考過程の注釈に依存しがち。本研究は採点基準(ルーブリック)を条件とする自己蒸留を提案し、コストを抑えつつ報酬監督を再構築する手法を示す。
-
Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors実環境の事前情報から多話者の音声シーンを生成する手法既存の多話者対話システムは、発話タグや多ストリーム転写、話者埋め込みなど構造的な教師情報で話者と発話を結び付ける。本研究は実環境(in-the-wild)の事前情報を参照して多話者の音声シーンを生成する手法を提案し、より自然な対話音声の合成を目指す。
-
Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action ModelsVLA モデルは常識を保持しているか、知識保持度を測る研究身体化された Vision-Language-Action(VLA)モデルは、強力な事前学習 VLM をロボットデータで微調整して得られるが、常識や事実知識をどれだけ保持しているかは不明だった。本研究はその知識保持度を測定し、微調整による忘却の程度と課題を明らかにする。
-
Risk Stratification for ICU Delirium using Pervasive Ambient Sensing Information病室の環境センシングで ICU せん妄の発症リスクを層別化せん妄は ICU で頻発する重篤な合併症で、罹患率や在院日数、医療費の増加に関わる。本研究は病室の環境センシング情報を活用し、ICU でのせん妄発症リスクを早期に層別化する手法を提案。早期介入につながる予測の可能性を示す。
-
A Multi-Domain Benchmark for Detecting AI-Generated Text-Rich Images from GPT-Image-2GPT-Image-2 生成の文字入り画像を見抜く多分野ベンチマーク文字を多く含む画像は、個人情報や取引・意思決定に関わる情報を含むことが多い。マルチモーダル生成モデルがリアルな文字や構造を合成できるようになる中、本研究は GPT-Image-2 による生成画像を検出する多分野ベンチマークを構築し、偽造画像の識別能力を評価する。
-
OneCanvas: 3D Scene Understanding via Panoramic ReprojectionOneCanvas、パノラマ再投影で VLM の 3D シーン理解を実現VLM による 3D シーン理解は、複雑なモデル固有の幾何エンコーダや大規模な学習予算に依存しがちだった。本研究は「OneCanvas」を提案し、パノラマ再投影を用いて空間推論を行うことで、専用の幾何エンコーダや大量学習に頼らず効率的に 3D シーンを理解する。
-
Transformer Geometry Observatory TGO-I: Spectral Geometry ObservatoryTGO-I、スペクトル幾何で Vision Transformer の内部構造を解析Vision Transformer(ViT)は広く普及し多くの画像課題で成功している一方、その次元的・表現的な幾何構造の基礎的理解は乏しい。本研究は「Transformer Geometry Observatory(TGO-I)」を提案し、スペクトル幾何の観点から ViT の表現空間を観測・解析する。
-
Hardware- and Vision-in-the-Loop Validation of Deep Monocular Pose Estimation for Autonomous Maritime UAV Flight単眼姿勢推定を HIL/VIL 検証、艦上 UAV の自律飛行へ艦船上での UAV 自律運用には信頼できる視覚ベースの相対姿勢推定が要るが、洋上検証は高コストで天候依存・危険を伴う。本研究は深層単眼姿勢推定を、ハードウェアおよびビジョンを組み込んだループ(HIL/VIL)で検証する手法を提示し、安全な開発を支援する。
-
ChronoSurv: A Clinical Pathway-Guided Graph Framework for Multimodal Survival AnalysisChronoSurv、臨床経路を導入したグラフで多モーダル生存解析頭頸部がんの個別化治療には正確な生存予測が不可欠だが、多モーダルな臨床データは異種で高次元なため難しい。本研究は臨床経路(クリニカルパス)に導かれるグラフ枠組み「ChronoSurv」を提案し、多モーダル情報を統合して生存予測の精度を高める。
-
Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation知覚と推論を分離し、近道に強い多モーダル自己蒸留を実現オンポリシー自己蒸留(OPSD)は、モデル自身のロールアウトで学習し、凍結した複製が参照目標に条件づけた密なトークン目標を与える。本研究は知覚と推論を分離する「Seeing Before Reasoning」を提案し、ショートカット(近道学習)に頑健な多モーダル OPSD を実現する。
-
Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning正例-未ラベル学習で LLM 評価の偏りを定量化・監査LLM はスケーラブルな評価の「審判」として使われるが、冗長性バイアスなど意味的品質と無関係な系統的偏りを示す。本研究は正例-未ラベル(Positive-Unlabeled)学習を用い、LLM-as-a-Judge の評価を定量化・監査する手法を提案し、バイアスの検出と是正を支える。
-
A Hybrid LSTM--Vision Transformer Architecture for Predicting HRRR Forecast ErrorsLSTM と ViT の融合で高解像度数値予報 HRRR の誤差を予測高解像度数値天気予報(HRRR など NWP)の予測誤差は、未解像の惑星境界層(PBL)過程や対流、地形起源の循環など鉛直構造を持つ現象に関係することが多い。本研究は LSTM と Vision Transformer を組み合わせたハイブリッド構造で、HRRR の予報誤差を予測する。
-
ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection解釈可能なマルチモーダル虚偽検出のRL枠組み「ThinkDeception」虚偽検出の既存手法は端から端までのブラックボックスで、推論過程を示せず解釈性に乏しい。本研究は段階的な強化学習の枠組みThinkDeceptionを提案し、複数モダリティにまたがる微妙な手掛かりを明示的に捉えながら、透明な推論軌跡を伴う虚偽検出を実現する。
-
CAPRA: Scaling Feedback on Software Architecture Deliverables with a Multi-Agent LLM Systemソフト設計成果物の添削を自動化するマルチエージェントLLM「CAPRA」ソフトウェア工学教育では自動評価が進むが、設計成果物への質の高いフィードバックは難しい。CAPRAは複数のLLMエージェントが協調し、ソフトウェアアーキテクチャの成果物に対する添削とフィードバックを大規模にスケールさせる仕組みを提案する。
-
RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models視覚言語モデルの戦略的推論を測るRTSベンチマーク最新の視覚言語モデル(VLM)は戦略的な推論を苦手とする。RTSGameBenchはリアルタイムストラテジー(RTS)ゲームを題材に、状況判断や計画立案といったVLMの戦略的推論能力を評価するベンチマークを提供する。
-
REVES: REvision and VErification--Augmented Training for Test-Time Scaling逐次修正によるテスト時スケーリングを強化する「REVES」逐次的に出力を修正するテスト時スケーリングは有力な手法として注目される。REVESは修正と検証を組み込んだ訓練法を提案し、モデルが自らの出力を見直し検証する能力を高めることで、テスト時の追加計算をより効果的に性能向上へ結び付ける。
-
Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extractionマルチモーダル感情原因対抽出の対の信頼度を頑健に学習マルチモーダル感情原因対抽出(MECPE)は、感情とその原因の対を信頼性高く特定する必要がある。本研究は対の信頼度を頑健に学習する手法を提案し、ノイズや曖昧さに強い感情原因対の抽出を実現する。
-
Efficient Financial Language Understanding via Distillation with Synthetic Data合成データ蒸留で効率的な金融言語理解を実現指示追従型の大規模モデルは強力だが運用コストが高く、特に金融分野での展開は負担が大きい。本研究は合成データを用いた蒸留により、軽量でも金融言語を効率的に理解できるモデルを構築する手法を提案する。
-
SAMA: Semantic Anchor-aligned Augmentation for Unified Low-Resource Multimodal Information Extraction低資源マルチモーダル情報抽出の意味アンカー拡張「SAMA」マルチモーダル情報抽出(MIE)は多様なタスクを含むが、低資源環境では学習データが不足する。SAMAは意味的なアンカーに整合させたデータ拡張を提案し、低資源条件でも統一的にマルチモーダル情報抽出の性能を高める。
-
Building AI Agents for AR Glasses and XR Devices with NVIDIA XR AINVIDIA、ARグラス/XR向けAIエージェント構築基盤「XR AI」を発表NVIDIAは、ARグラスやウェアラブル端末向けにAIエージェントを構築するための基盤「NVIDIA XR AI」を発表した。ハードウェアは整いつつある一方、リアルタイムなAI体験の統合には依然として課題があるとし、開発者向けにその橋渡しを図る狙いだという。具体的な機能・性能はNVIDIA側の発表に基づくもので、第三者検証は未確認。
-
Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement汎用ロボット方策を推論時に検証・自己改善する枠組みVERITASを提案汎用ロボット方策を生成器とし、勾配を使わない視覚検証器が推論時に各行動を評価する生成器・検証器フレームワークVERITASを提案する論文。追加学習なしで推論時に方策を誘導して性能を高め、自律的な方策改善も可能になると論じる。
-
Rethinking Dataset Distillation for Classification: Do Distilled Sets Outperform Coresets?分類のデータセット蒸留はコアセットを超えるか検証データセット蒸留はコンパクトな訓練集合を合成しデータ中心の機械学習を効率化する。本論文は分類タスクで蒸留集合が実データ部分集合(コアセット)を本当に上回るのかを再検討し、その条件を問う。
-
Trust the Right Teacher: Quality-Aware Self-Distillation for GUI GroundingGUI接地向けの品質考慮型自己蒸留手法を提案高解像度画面で小さな対象要素の座標を予測するGUI接地で、密な教師信号を与えるオンポリシー自己蒸留(OPSD)に着目する論文。素朴なOPSDが座標トークンの教師信号劣化を招く課題に対し、品質を考慮した自己蒸留を提案すると述べる。
-
Uncertainty Quantification for Flow-Based Vision-Language-Action ModelsフローベースVLAモデルの不確実性定量化視覚言語行動(VLA)モデルは視覚言語基盤に、フローマッチングで訓練した表現力ある行動ヘッドを組み合わせる。強い実績を持つ一方、本研究はフローベースVLAに対する不確実性定量化の手法を検討する。
-
STAR: SpatioTemporal Adaptive Reward Allocation for Text-to-Image RL Post-Trainingtext-to-image RL後学習の時空間適応的報酬配分STARを提案text-to-image生成のRL後学習が最終画像の報酬を単一スカラーとして全軌跡に一様適用する点に着目した論文。脱ノイズ段階や画像領域ごとに役割が異なる時空間構造を踏まえ、報酬を適応的に配分する手法STARを提案すると述べる。
-
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?GameCraft-Bench、実ゲームエンジンで遊べるゲームを作れるかゲーム生成はコーディングエージェントの新応用で、自然言語仕様を遊べる対話システムへ変換する必要がある。GameCraft-Benchは、スクリプト・シーン・アセット・描画・実行時挙動が協調する実ゲームエンジン上で、エージェントが端から端までゲームを構築できるかを測る。
-
Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation ModelsQwen-RobotManip、整合がロボット操作基盤モデルの規模化を解放言語・マルチモーダルの基盤モデルは異種データを統一定式化で整合し大規模学習で汎化する。本報告はこの規模化レシピがロボット操作に適用できるかを検証し、整合がスケールを解放するとして操作基盤モデルを示す。
-
Environment-Grounded Automated Prompt Optimization for LLM Game Agents環境に接地した自動プロンプト最適化でLLMゲームエージェント対話的環境のLLMエージェントはプロンプトに敏感だがプロンプト工学は手作業で課題依存。本研究は観測から行動への過程を分解し、環境に接地した自動プロンプト最適化の枠組みをLLMゲームエージェント向けに提案する。
-
The Slop Paradox: How Synthetic Standardization Erodes Clinical Uncertainty and Cross-Modal Alignment in AI-Rewritten Radiology Reportsスロップの逆説、AI書換え放射線レポートが臨床的不確実性を侵食AI支援の臨床文書ツールはLLMで放射線レポートを要約・標準化・整形する。本研究はインディアナ大の胸部X線レポート450件を用い、合成版が引き起こす情報劣化を統制的に計測し、臨床的不確実性とモダリティ整合の侵食を示す。