マルチモーダル A

101 件中 31〜60 件目を表示
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Native Active Perception as Reasoning for Omni-Modal Understanding
    動画理解を効率化、難易度に応じ能動的に知覚する推論手法を提案
    深層学習 ファインチューニング 機械学習 ニューラルネットワーク 検索拡張生成 (RAG)
    長尺動画の理解で主流の「全フレーム一律処理」は、質問の難易度に関わらず計算量が動画長に比例して増える課題がある。本研究は知覚自体を推論として扱い、必要な箇所を能動的に観る「ネイティブ能動知覚」を提案。オムニモーダル理解を効率化する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 推論・効率化 抜粋
    Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation
    ルーブリック条件付き自己蒸留で推論モデルの報酬監督を見直す
    ニューラルネットワーク 強化学習
    推論言語モデルの事後学習は、教師蒸留や検証可能報酬による強化学習で進められるが、蒸留は高価な思考過程の注釈に依存しがち。本研究は採点基準(ルーブリック)を条件とする自己蒸留を提案し、コストを抑えつつ報酬監督を再構築する手法を示す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors
    実環境の事前情報から多話者の音声シーンを生成する手法
    埋め込み (Embeddings) 検索拡張生成 (RAG) 強化学習 音声処理
    既存の多話者対話システムは、発話タグや多ストリーム転写、話者埋め込みなど構造的な教師情報で話者と発話を結び付ける。本研究は実環境(in-the-wild)の事前情報を参照して多話者の音声シーンを生成する手法を提案し、より自然な対話音声の合成を目指す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action Models
    VLA モデルは常識を保持しているか、知識保持度を測る研究
    AI エージェント コンピュータビジョン ファインチューニング ロボティクス ソフトウェア工学
    身体化された Vision-Language-Action(VLA)モデルは、強力な事前学習 VLM をロボットデータで微調整して得られるが、常識や事実知識をどれだけ保持しているかは不明だった。本研究はその知識保持度を測定し、微調整による忘却の程度と課題を明らかにする。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    Risk Stratification for ICU Delirium using Pervasive Ambient Sensing Information
    病室の環境センシングで ICU せん妄の発症リスクを層別化
    ニューラルネットワーク 強化学習
    せん妄は ICU で頻発する重篤な合併症で、罹患率や在院日数、医療費の増加に関わる。本研究は病室の環境センシング情報を活用し、ICU でのせん妄発症リスクを早期に層別化する手法を提案。早期介入につながる予測の可能性を示す。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    A Multi-Domain Benchmark for Detecting AI-Generated Text-Rich Images from GPT-Image-2
    GPT-Image-2 生成の文字入り画像を見抜く多分野ベンチマーク
    コンピュータビジョン GPT OpenAI 検索拡張生成 (RAG)
    文字を多く含む画像は、個人情報や取引・意思決定に関わる情報を含むことが多い。マルチモーダル生成モデルがリアルな文字や構造を合成できるようになる中、本研究は GPT-Image-2 による生成画像を検出する多分野ベンチマークを構築し、偽造画像の識別能力を評価する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    OneCanvas: 3D Scene Understanding via Panoramic Reprojection
    OneCanvas、パノラマ再投影で VLM の 3D シーン理解を実現
    コンピュータビジョン 埋め込み (Embeddings) ニューラルネットワーク ロボティクス ソフトウェア工学
    VLM による 3D シーン理解は、複雑なモデル固有の幾何エンコーダや大規模な学習予算に依存しがちだった。本研究は「OneCanvas」を提案し、パノラマ再投影を用いて空間推論を行うことで、専用の幾何エンコーダや大量学習に頼らず効率的に 3D シーンを理解する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN 新モデル・リリース 抜粋
    Transformer Geometry Observatory TGO-I: Spectral Geometry Observatory
    TGO-I、スペクトル幾何で Vision Transformer の内部構造を解析
    コンピュータビジョン 強化学習 Transformer
    Vision Transformer(ViT)は広く普及し多くの画像課題で成功している一方、その次元的・表現的な幾何構造の基礎的理解は乏しい。本研究は「Transformer Geometry Observatory(TGO-I)」を提案し、スペクトル幾何の観点から ViT の表現空間を観測・解析する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 推論・効率化 抜粋
    Hardware- and Vision-in-the-Loop Validation of Deep Monocular Pose Estimation for Autonomous Maritime UAV Flight
    単眼姿勢推定を HIL/VIL 検証、艦上 UAV の自律飛行へ
    Transformer
    艦船上での UAV 自律運用には信頼できる視覚ベースの相対姿勢推定が要るが、洋上検証は高コストで天候依存・危険を伴う。本研究は深層単眼姿勢推定を、ハードウェアおよびビジョンを組み込んだループ(HIL/VIL)で検証する手法を提示し、安全な開発を支援する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    ChronoSurv: A Clinical Pathway-Guided Graph Framework for Multimodal Survival Analysis
    ChronoSurv、臨床経路を導入したグラフで多モーダル生存解析
    ニューラルネットワーク
    頭頸部がんの個別化治療には正確な生存予測が不可欠だが、多モーダルな臨床データは異種で高次元なため難しい。本研究は臨床経路(クリニカルパス)に導かれるグラフ枠組み「ChronoSurv」を提案し、多モーダル情報を統合して生存予測の精度を高める。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation
    知覚と推論を分離し、近道に強い多モーダル自己蒸留を実現
    コンピュータビジョン 機械学習 ソフトウェア工学
    オンポリシー自己蒸留(OPSD)は、モデル自身のロールアウトで学習し、凍結した複製が参照目標に条件づけた密なトークン目標を与える。本研究は知覚と推論を分離する「Seeing Before Reasoning」を提案し、ショートカット(近道学習)に頑健な多モーダル OPSD を実現する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 安全性・評価 抜粋
    Quantifying and Auditing LLM Evaluation via Positive--Unlabeled Learning
    正例-未ラベル学習で LLM 評価の偏りを定量化・監査
    埋め込み (Embeddings)
    LLM はスケーラブルな評価の「審判」として使われるが、冗長性バイアスなど意味的品質と無関係な系統的偏りを示す。本研究は正例-未ラベル(Positive-Unlabeled)学習を用い、LLM-as-a-Judge の評価を定量化・監査する手法を提案し、バイアスの検出と是正を支える。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    A Hybrid LSTM--Vision Transformer Architecture for Predicting HRRR Forecast Errors
    LSTM と ViT の融合で高解像度数値予報 HRRR の誤差を予測
    強化学習 Transformer
    高解像度数値天気予報(HRRR など NWP)の予測誤差は、未解像の惑星境界層(PBL)過程や対流、地形起源の循環など鉛直構造を持つ現象に関係することが多い。本研究は LSTM と Vision Transformer を組み合わせたハイブリッド構造で、HRRR の予報誤差を予測する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection
    解釈可能なマルチモーダル虚偽検出のRL枠組み「ThinkDeception」
    機械学習 ニューラルネットワーク 強化学習
    虚偽検出の既存手法は端から端までのブラックボックスで、推論過程を示せず解釈性に乏しい。本研究は段階的な強化学習の枠組みThinkDeceptionを提案し、複数モダリティにまたがる微妙な手掛かりを明示的に捉えながら、透明な推論軌跡を伴う虚偽検出を実現する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    CAPRA: Scaling Feedback on Software Architecture Deliverables with a Multi-Agent LLM System
    ソフト設計成果物の添削を自動化するマルチエージェントLLM「CAPRA」
    AI エージェント GPT 機械学習 ソフトウェア工学
    ソフトウェア工学教育では自動評価が進むが、設計成果物への質の高いフィードバックは難しい。CAPRAは複数のLLMエージェントが協調し、ソフトウェアアーキテクチャの成果物に対する添削とフィードバックを大規模にスケールさせる仕組みを提案する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models
    視覚言語モデルの戦略的推論を測るRTSベンチマーク
    AI エージェント コンピュータビジョン ニューラルネットワーク 検索拡張生成 (RAG)
    最新の視覚言語モデル(VLM)は戦略的な推論を苦手とする。RTSGameBenchはリアルタイムストラテジー(RTS)ゲームを題材に、状況判断や計画立案といったVLMの戦略的推論能力を評価するベンチマークを提供する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 推論・効率化 抜粋
    REVES: REvision and VErification--Augmented Training for Test-Time Scaling
    逐次修正によるテスト時スケーリングを強化する「REVES」
    推論 (Inference) 強化学習 ソフトウェア工学
    逐次的に出力を修正するテスト時スケーリングは有力な手法として注目される。REVESは修正と検証を組み込んだ訓練法を提案し、モデルが自らの出力を見直し検証する能力を高めることで、テスト時の追加計算をより効果的に性能向上へ結び付ける。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 開発者ツール 抜粋
    Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extraction
    マルチモーダル感情原因対抽出の対の信頼度を頑健に学習
    推論 (Inference) 検索拡張生成 (RAG)
    マルチモーダル感情原因対抽出(MECPE)は、感情とその原因の対を信頼性高く特定する必要がある。本研究は対の信頼度を頑健に学習する手法を提案し、ノイズや曖昧さに強い感情原因対の抽出を実現する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 推論・効率化 抜粋
    Efficient Financial Language Understanding via Distillation with Synthetic Data
    合成データ蒸留で効率的な金融言語理解を実現
    ニューラルネットワーク 自然言語処理 (NLP) 強化学習
    指示追従型の大規模モデルは強力だが運用コストが高く、特に金融分野での展開は負担が大きい。本研究は合成データを用いた蒸留により、軽量でも金融言語を効率的に理解できるモデルを構築する手法を提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    SAMA: Semantic Anchor-aligned Augmentation for Unified Low-Resource Multimodal Information Extraction
    低資源マルチモーダル情報抽出の意味アンカー拡張「SAMA」
    機械学習 検索拡張生成 (RAG)
    マルチモーダル情報抽出(MIE)は多様なタスクを含むが、低資源環境では学習データが不足する。SAMAは意味的なアンカーに整合させたデータ拡張を提案し、低資源条件でも統一的にマルチモーダル情報抽出の性能を高める。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • NVIDIA Developer Blog · EN エージェント・ツール使用 抜粋
    Building AI Agents for AR Glasses and XR Devices with NVIDIA XR AI
    NVIDIA、ARグラス/XR向けAIエージェント構築基盤「XR AI」を発表
    AI エージェント コンピュータビジョン 生成 AI NVIDIA
    NVIDIAは、ARグラスやウェアラブル端末向けにAIエージェントを構築するための基盤「NVIDIA XR AI」を発表した。ハードウェアは整いつつある一方、リアルタイムなAI体験の統合には依然として課題があるとし、開発者向けにその橋渡しを図る狙いだという。具体的な機能・性能はNVIDIA側の発表に基づくもので、第三者検証は未確認。
    元記事を読む (NVIDIA Developer Blog) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 業界導入・応用 抜粋
    Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement
    汎用ロボット方策を推論時に検証・自己改善する枠組みVERITASを提案
    推論 (Inference) 強化学習
    汎用ロボット方策を生成器とし、勾配を使わない視覚検証器が推論時に各行動を評価する生成器・検証器フレームワークVERITASを提案する論文。追加学習なしで推論時に方策を誘導して性能を高め、自律的な方策改善も可能になると論じる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN 推論・効率化 抜粋
    Rethinking Dataset Distillation for Classification: Do Distilled Sets Outperform Coresets?
    分類のデータセット蒸留はコアセットを超えるか検証
    機械学習 検索拡張生成 (RAG)
    データセット蒸留はコンパクトな訓練集合を合成しデータ中心の機械学習を効率化する。本論文は分類タスクで蒸留集合が実データ部分集合(コアセット)を本当に上回るのかを再検討し、その条件を問う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    Trust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding
    GUI接地向けの品質考慮型自己蒸留手法を提案
    コンピュータビジョン
    高解像度画面で小さな対象要素の座標を予測するGUI接地で、密な教師信号を与えるオンポリシー自己蒸留(OPSD)に着目する論文。素朴なOPSDが座標トークンの教師信号劣化を招く課題に対し、品質を考慮した自己蒸留を提案すると述べる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN 学習・ファインチューニング 抜粋
    Uncertainty Quantification for Flow-Based Vision-Language-Action Models
    フローベースVLAモデルの不確実性定量化
    コンピュータビジョン ファインチューニング 検索拡張生成 (RAG) 強化学習
    視覚言語行動(VLA)モデルは視覚言語基盤に、フローマッチングで訓練した表現力ある行動ヘッドを組み合わせる。強い実績を持つ一方、本研究はフローベースVLAに対する不確実性定量化の手法を検討する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    STAR: SpatioTemporal Adaptive Reward Allocation for Text-to-Image RL Post-Training
    text-to-image RL後学習の時空間適応的報酬配分STARを提案
    強化学習
    text-to-image生成のRL後学習が最終画像の報酬を単一スカラーとして全軌跡に一様適用する点に着目した論文。脱ノイズ段階や画像領域ごとに役割が異なる時空間構造を踏まえ、報酬を適応的に配分する手法STARを提案すると述べる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?
    GameCraft-Bench、実ゲームエンジンで遊べるゲームを作れるか
    AI エージェント
    ゲーム生成はコーディングエージェントの新応用で、自然言語仕様を遊べる対話システムへ変換する必要がある。GameCraft-Benchは、スクリプト・シーン・アセット・描画・実行時挙動が協調する実ゲームエンジン上で、エージェントが端から端までゲームを構築できるかを測る。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models
    Qwen-RobotManip、整合がロボット操作基盤モデルの規模化を解放
    コンピュータビジョン
    言語・マルチモーダルの基盤モデルは異種データを統一定式化で整合し大規模学習で汎化する。本報告はこの規模化レシピがロボット操作に適用できるかを検証し、整合がスケールを解放するとして操作基盤モデルを示す。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Environment-Grounded Automated Prompt Optimization for LLM Game Agents
    環境に接地した自動プロンプト最適化でLLMゲームエージェント
    AI エージェント ファインチューニング 強化学習
    対話的環境のLLMエージェントはプロンプトに敏感だがプロンプト工学は手作業で課題依存。本研究は観測から行動への過程を分解し、環境に接地した自動プロンプト最適化の枠組みをLLMゲームエージェント向けに提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    The Slop Paradox: How Synthetic Standardization Erodes Clinical Uncertainty and Cross-Modal Alignment in AI-Rewritten Radiology Reports
    スロップの逆説、AI書換え放射線レポートが臨床的不確実性を侵食
    AI支援の臨床文書ツールはLLMで放射線レポートを要約・標準化・整形する。本研究はインディアナ大の胸部X線レポート450件を用い、合成版が引き起こす情報劣化を統制的に計測し、臨床的不確実性とモダリティ整合の侵食を示す。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗