マルチモーダル A

104 件中 1〜30 件目を表示
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning
    UNIEGO、複数視点・モダリティを統合する自己中心視点動画エンコーダ
    ニューラルネットワーク
    UNIEGOは、階層的なマルチティーチャー蒸留で学習する統合的な自己中心視点動画エンコーダ。複数の視点・モダリティ・基盤モデルにまたがる教師の知識を、表現ごとのプロキシモデルを介して均質な自己中心空間へ変換し、自己中心視点の動画のみから利用可能にする設計を提案する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 業界導入・応用 抜粋
    Structuring and Tokenizing Distributed User Interest Context for Generative Recommendation
    生成的レコメンドのユーザー興味コンテキストの構造化とトークン化
    ニューラルネットワーク
    ユーザーの履歴から次の行動を予測する生成的レコメンドにおいて、アイテムの意味とモデルを橋渡しするアイテムトークン化が中核となる。本研究は分散したユーザー興味コンテキストを構造化・トークン化する手法を提案する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    How Do Instructions Shape Speech? Cross-Attention Attribution for Style-Captioned Text-to-Speech
    スタイル指定音声合成で指示が音声に与える影響を注意機構で帰属分析
    強化学習 音声処理
    自然言語で声の特徴を制御するスタイルキャプション型音声合成について、個々の指示語がどのように音声へ反映されるかをクロスアテンション帰属で分析する研究。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
    少数の視覚的手がかりがMLLMの社会的バイアスの大半を生むと解明
    機械学習 強化学習
    本研究StylisticBiasは、マルチモーダル大規模言語モデル(MLLM)が人物をどう判断するかを左右する視覚的手がかりを分析する。ごく少数の人間的な視覚的手がかりが、MLLMが示す社会的バイアスの大半を駆動していることを示し、影響の大きい応用での懸念を指摘する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm
    80cm解像度の世界規模スラントSAR・光学データセットSARLO-80
    深層学習 強化学習
    マルチモーダル基盤モデルは大規模な光学ベンチマークで急速に進歩した一方、SAR向けの資源は不足している。SARLO-80は80cm解像度の世界規模スラントSAR・光学データセットを提供する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS
    フローマッチングTTSに生涯発音適応を与えるFlowEdit
    埋め込み (Embeddings) 推論 (Inference) 音声処理
    フローマッチング音声合成は高いゼロショット品質を実現するが、展開後は静的になる。FlowEditは連想メモリを用いて生涯にわたる発音適応を可能にする。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    Scalable Training of Spatially Grounded 2D Vision-Language Models for Radiology
    放射線科向け空間接地VLMの大規模学習とデータセットRefRad2D
    コンピュータビジョン ファインチューニング ニューラルネットワーク ソフトウェア工学
    本論文は、手動の空間アノテーションなしに放射線科向けの空間接地済み視覚言語モデル(VLM)を学習する方法を研究する。臨床由来のCT・MR画像とテキストの対120万組からなる大規模な独英バイリンガルデータセットRefRad2Dを提案し、VQAや空間接地のサブセットを備える。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN 推論・効率化 抜粋
    HEPTv2: End-to-End Efficient Point Transformer for Charged Particle Reconstruction
    荷電粒子の軌跡再構成に向けた効率的点群TransformerのHEPTv2
    推論 (Inference) 機械学習 ニューラルネットワーク NVIDIA Transformer
    本論文は、荷電粒子の飛跡再構成に向けたエンドツーエンドで効率的な点群Transformer「HEPTv2」を提案する。疎な検出器計測から軌跡を復元する高エネルギー物理の推論課題を扱い、高輝度LHC(HL-LHC)でも高精度と効率を両立することを目指す。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    Towards Modality-imbalanced Federated Graph Learning: A Data Synthesis-based Approach
    連合グラフ学習のモダリティ不均衡をデータ合成で緩和する手法
    本論文は、マルチモーダル連合グラフ学習(MM-FGL)におけるモダリティ不均衡を、データ合成に基づく手法で緩和する。クライアントが特定モダリティを丸ごと欠くクライアントレベルと、個々のノードでモダリティが欠けるノードレベルという、二つの粒度の不均衡に対処する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 学習・ファインチューニング 抜粋
    Train, Retrieve, or Both? A Four-Arm Head-to-Head for Correct Statutory Citation on the Ontario Residential Tenancies Act
    条文引用タスクで微調整・検索・併用を比較する4アーム評価
    深層学習 ファインチューニング ニューラルネットワーク 検索拡張生成 (RAG)
    本論文は、オンタリオ州住宅賃貸借法(RTA)とその主要規則を対象に、正しい条文引用を返すタスクで微調整・検索(retrieval)・両者の併用を四つの構成で直接比較する。借主・貸主・窓口担当が、問いを実際に規定する条文へ正しく導かれる必要性に応える。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 新モデル・リリース 抜粋
    Integrating national forest inventory, airborne lidar, and satellite imagery for wall-to-wall mapping of forest structure with computer vision
    森林調査・LiDAR・衛星画像を統合した全域の森林構造マッピング
    コンピュータビジョン ニューラルネットワーク
    本論文は、国家森林資源調査・航空機LiDAR・衛星画像をコンピュータビジョンで統合し、森林構造を隙間なく(wall-to-wall)地図化する手法を提案する。森林・山火事リスク管理に必要な、広域かつ毎年更新される地図を継続的に得ることを狙う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    PsyScore: A Psychometrically-Aware Framework for Trait-Adaptive Essay Scoring and ZPD-Scaffolded Feedback
    心理測定を取り入れた特性適応型の作文採点・足場かけ手法PsyScore
    検索拡張生成 (RAG)
    本論文は、心理測定(psychometrics)を意識した自動作文採点の枠組み「PsyScore」を提案する。書き手の特性に適応して採点し、最近接発達領域(ZPD)に基づく足場かけ型フィードバックを与える。採点とフィードバックを別個に扱ってきた従来手法を統合し、信頼できる評価と解釈可能な指導の両立を狙う。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    ELVA: Exploring Ranking-Driven Universal Multimodal Retrieval
    ランキング駆動の汎用マルチモーダル検索ELVA
    深層学習 機械学習 検索拡張生成 (RAG) 強化学習
    対照学習でMLLMを活用するマルチモーダル検索が主流となるなか、ELVAはランキング駆動の汎用マルチモーダル検索を探求する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    Lagrange: An Open-Vocabulary, Energy-Based Sparse Framework for Generalized End-to-End Driving
    開語彙・エネルギーベースの疎な端到端運転枠組みLagrange
    コンピュータビジョン 機械学習 ニューラルネットワーク 強化学習
    端到端の自動運転を複雑な実世界環境へ拡張するには高度な知覚が要る。Lagrangeは開語彙でエネルギーベースの疎な枠組みにより一般化された端到端運転を実現する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    Confidence-Aware Automated Assessment of Student-Drawn Scientific Models
    生徒の描いた科学モデルを確信度考慮で自動評価
    深層学習 検索拡張生成 (RAG) Transformer
    生徒の描画は理科教育で概念理解の評価に広く使われる。本研究は確信度を考慮して、生徒が描いた科学モデルを自動評価する手法を示す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 学習・ファインチューニング 抜粋
    Finetuning Vision-Language-Action Models Requires Fewer Layers Than You Think
    VLAモデルの微調整は想定より少ない層で足りる
    コンピュータビジョン ファインチューニング 推論 (Inference) 機械学習 強化学習
    膨大な動画ロボットデータで事前学習されたVLAモデルはロボット制御を革新した。本研究は、その微調整に必要な層数が想定より少なくて済むことを示す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    SPOT-E: Test-Time Entropy Shaping with Visual Spotlights for Frozen VLMs
    凍結VLM向けの視覚スポットライトによるテスト時エントロピー整形SPOT-E
    コンピュータビジョン 推論 (Inference) 強化学習 ソフトウェア工学
    VLMは証拠の多い課題で決定的な視覚手がかりを見落とし性能が落ちる。SPOT-Eは視覚スポットライトを用いたテスト時のエントロピー整形でこれを改善する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 業界導入・応用 抜粋
    Augmenting Game AI with Deep Reinforcement Learning
    深層強化学習でゲームAIを強化する研究
    AI エージェント 機械学習 強化学習
    ゲームへの没入はグラフィックや音、機構だけでなくゲームAIの質にも依存する。本研究は深層強化学習によりゲームAIを強化する手法を扱う。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    FlowMaps: Modeling Long-Term Multimodal Object Dynamics with Flow Matching
    フローマッチングで長期のマルチモーダル物体動態を予測するFlowMaps
    AI エージェント 強化学習
    3Dシーンの空間・時間理解はロボット展開に不可欠。FlowMapsはフローマッチングにより長期のマルチモーダルな物体動態をモデル化する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Conversion
    音声教師ありのヘブライ語書記素音素変換ReNikudを提案
    ニューラルネットワーク 音声処理
    本論文は、現代ヘブライ語の書記素音素変換(G2P)に向けた、音声を教師信号とする手法「ReNikud」を提案する。母音をほとんど表記しないアブジャド文字に由来する曖昧さに対処し、まず母音記号(nikud)を予測する従来手法を超える、音声合成向けのG2Pを目指す。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    MedRLM: Recursive Multimodal Health Intelligence for Long-Context Clinical Reasoning, Sensor-Guided Screening, Evidence-Grounded Decision Support, and Community-to-Tertiary Referral Optimization
    長文脈の臨床推論に向けた再帰的マルチモーダル医療AI「MedRLM」
    AI エージェント ニューラルネットワーク 検索拡張生成 (RAG) 強化学習 ソフトウェア工学
    本論文は、長文脈の臨床推論・センサー誘導スクリーニング・根拠に基づく意思決定支援・地域から高次医療への紹介最適化を担う、再帰的マルチモーダルの医療知能システム「MedRLM」を提案する。単発のプロンプトや検索にとどまる既存の医療LLMやRAGを超え、異種かつ縦断的な患者情報を横断して推論することを狙う。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    NAMESAKES: Probing Identity Memorization in Text-to-Image Models
    テキスト画像モデルの人物記憶を調べるNAMESAKESを提案
    ニューラルネットワーク
    本論文は、人物名から実在の人物に似た顔を生成しうるテキスト画像(T2I)モデルにおける、本人性の記憶(identity memorization)を調べる研究「NAMESAKES」を提案する。生成顔が記憶由来か捏造かを、正解写真・訓練データ・ホワイトボックスアクセスなしに判別する難しさに取り組み、プライバシー上の懸念を検討する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    PASQA: Pitch-Accent-Focused Speech Quality Assessment Model Trained on Synthetic Speech with Accent Errors
    ピッチアクセント誤りに着目した音声品質評価モデルPASQA
    音声処理
    本論文は、ピッチアクセントの正しさに明示的に着目する音声品質評価モデル「PASQA」を提案する。アクセント誤りを含む合成音声で学習し、発話全体の自然さ(MOS)を予測する既存モデルが局所的なピッチアクセント誤りに鈍感である問題に対処する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship
    検証可能な指示追従の修正で自己選好が弱い/不在と報告
    ニューラルネットワーク
    本論文は、大規模言語モデルが、検証可能な指示追従の修正において自分の文章への妥当な訂正を拒むかどうかを検証する。実際に自分が書いた文章を対象に四つのモデルで検証し、判定者として自作を好む「自己選好バイアス」が、この修正設定では弱いか存在しないことを示す。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis
    潜在的なChain-of-Thoughtの有効な監督を情報理論で分析
    本論文は、推論を連続的な隠れ状態の中で内在化する潜在的な思考連鎖(latent CoT)について、どのような教師信号が有効かを情報理論的に分析する。結果のみに基づく監督が弱い学習信号しか与えず、頑健な潜在推論が難しくなる理由を考察する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    Investigating Human-Model Discrepancies in Speech Quality Assessment via Acoustic and Prosodic Perturbations
    音響・韻律摂動で音声品質評価の人間とモデルの乖離を調査
    音声処理
    本論文は、音響的・韻律的な制御された摂動を用いて、音声品質評価における人間の判断とMOS予測モデルとの乖離を調査する。TTS研究で代理指標として広く使われるこれらのモデルが、音響的忠実度を超えた品質差を捉えられるかを検証する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • Hacker News (Front Page) · EN 新モデル・リリース 抜粋
    DeepSeek Introduces Vision
    DeepSeek、視覚(マルチモーダル)機能を導入
    DeepSeek
    中国のAI企業DeepSeekが、画像を扱える視覚(ビジョン)機能を導入したことを伝える記事。テキスト中心だったモデルにマルチモーダル対応が加わり、画像理解を含むタスクへの応用が広がる動きを紹介している。
    元記事を読む (Hacker News (Front Page)) ↗
  • arXiv cs.CL (Computation and Language) · EN マルチモーダル 抜粋
    NRITYAM: Language Models Meet Art and Heritage of Dance
    世界の舞踊文化でLMの文化理解を測るベンチマークNRITYAM
    ニューラルネットワーク 強化学習 ソフトウェア工学
    本論文は、世界各地の舞踊(ダンス)の伝統を題材に、言語モデルの文化的理解力を評価する包括的ベンチマーク「NRITYAM」を提案する。言語モデルが世界規模で有効であるには、地域固有の社会文化的文脈を細やかに理解する必要があるという課題に取り組む。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • Hacker News (Front Page) · EN マルチモーダル 抜粋
    Midjourney Medical
    Midjourney、医療向け「Midjourney Medical」を提示
    画像生成で知られるMidjourneyが、医療分野に向けた「Midjourney Medical」を打ち出したことを伝える記事。デモ動画とともに、画像生成技術を医療領域に応用しようとする新たな取り組みとして紹介されている。
    元記事を読む (Hacker News (Front Page)) ↗
  • Simon Willison's Weblog · EN インフラ・ハードウェア 抜粋
    GLM-5.2 is probably the most powerful text-only open weights LLM
    GLM-5.2、テキスト特化の最強級オープンウェイトLLMか
    DeepSeek Mixture of Experts (MoE)
    中国のAIラボZ.aiが、コーディングプラン向けに6月13日公開したGLM-5.2を、6月16日にMITライセンスで完全なオープンウェイトとして公開した。従来のGLM-5やGLM-5.1と同規模ながら、テキスト専用では最も強力なオープンウェイトLLMの可能性があるとサイモン・ウィリソン氏は評している。
    元記事を読む (Simon Willison's Weblog) ↗