マルチモーダル A
104 件中 1〜30 件目を表示
-
UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation LearningUNIEGO、複数視点・モダリティを統合する自己中心視点動画エンコーダUNIEGOは、階層的なマルチティーチャー蒸留で学習する統合的な自己中心視点動画エンコーダ。複数の視点・モダリティ・基盤モデルにまたがる教師の知識を、表現ごとのプロキシモデルを介して均質な自己中心空間へ変換し、自己中心視点の動画のみから利用可能にする設計を提案する。
-
Structuring and Tokenizing Distributed User Interest Context for Generative Recommendation生成的レコメンドのユーザー興味コンテキストの構造化とトークン化ユーザーの履歴から次の行動を予測する生成的レコメンドにおいて、アイテムの意味とモデルを橋渡しするアイテムトークン化が中核となる。本研究は分散したユーザー興味コンテキストを構造化・トークン化する手法を提案する。
-
How Do Instructions Shape Speech? Cross-Attention Attribution for Style-Captioned Text-to-Speechスタイル指定音声合成で指示が音声に与える影響を注意機構で帰属分析自然言語で声の特徴を制御するスタイルキャプション型音声合成について、個々の指示語がどのように音声へ反映されるかをクロスアテンション帰属で分析する研究。
-
StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs少数の視覚的手がかりがMLLMの社会的バイアスの大半を生むと解明本研究StylisticBiasは、マルチモーダル大規模言語モデル(MLLM)が人物をどう判断するかを左右する視覚的手がかりを分析する。ごく少数の人間的な視覚的手がかりが、MLLMが示す社会的バイアスの大半を駆動していることを示し、影響の大きい応用での懸念を指摘する。
-
SARLO-80: Worldwide Slant SAR Language Optic Dataset 80cm80cm解像度の世界規模スラントSAR・光学データセットSARLO-80マルチモーダル基盤モデルは大規模な光学ベンチマークで急速に進歩した一方、SAR向けの資源は不足している。SARLO-80は80cm解像度の世界規模スラントSAR・光学データセットを提供する。
-
FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTSフローマッチングTTSに生涯発音適応を与えるFlowEditフローマッチング音声合成は高いゼロショット品質を実現するが、展開後は静的になる。FlowEditは連想メモリを用いて生涯にわたる発音適応を可能にする。
-
Scalable Training of Spatially Grounded 2D Vision-Language Models for Radiology放射線科向け空間接地VLMの大規模学習とデータセットRefRad2D本論文は、手動の空間アノテーションなしに放射線科向けの空間接地済み視覚言語モデル(VLM)を学習する方法を研究する。臨床由来のCT・MR画像とテキストの対120万組からなる大規模な独英バイリンガルデータセットRefRad2Dを提案し、VQAや空間接地のサブセットを備える。
-
HEPTv2: End-to-End Efficient Point Transformer for Charged Particle Reconstruction荷電粒子の軌跡再構成に向けた効率的点群TransformerのHEPTv2本論文は、荷電粒子の飛跡再構成に向けたエンドツーエンドで効率的な点群Transformer「HEPTv2」を提案する。疎な検出器計測から軌跡を復元する高エネルギー物理の推論課題を扱い、高輝度LHC(HL-LHC)でも高精度と効率を両立することを目指す。
-
Towards Modality-imbalanced Federated Graph Learning: A Data Synthesis-based Approach連合グラフ学習のモダリティ不均衡をデータ合成で緩和する手法本論文は、マルチモーダル連合グラフ学習(MM-FGL)におけるモダリティ不均衡を、データ合成に基づく手法で緩和する。クライアントが特定モダリティを丸ごと欠くクライアントレベルと、個々のノードでモダリティが欠けるノードレベルという、二つの粒度の不均衡に対処する。
-
Train, Retrieve, or Both? A Four-Arm Head-to-Head for Correct Statutory Citation on the Ontario Residential Tenancies Act条文引用タスクで微調整・検索・併用を比較する4アーム評価本論文は、オンタリオ州住宅賃貸借法(RTA)とその主要規則を対象に、正しい条文引用を返すタスクで微調整・検索(retrieval)・両者の併用を四つの構成で直接比較する。借主・貸主・窓口担当が、問いを実際に規定する条文へ正しく導かれる必要性に応える。
-
Integrating national forest inventory, airborne lidar, and satellite imagery for wall-to-wall mapping of forest structure with computer vision森林調査・LiDAR・衛星画像を統合した全域の森林構造マッピング本論文は、国家森林資源調査・航空機LiDAR・衛星画像をコンピュータビジョンで統合し、森林構造を隙間なく(wall-to-wall)地図化する手法を提案する。森林・山火事リスク管理に必要な、広域かつ毎年更新される地図を継続的に得ることを狙う。
-
PsyScore: A Psychometrically-Aware Framework for Trait-Adaptive Essay Scoring and ZPD-Scaffolded Feedback心理測定を取り入れた特性適応型の作文採点・足場かけ手法PsyScore本論文は、心理測定(psychometrics)を意識した自動作文採点の枠組み「PsyScore」を提案する。書き手の特性に適応して採点し、最近接発達領域(ZPD)に基づく足場かけ型フィードバックを与える。採点とフィードバックを別個に扱ってきた従来手法を統合し、信頼できる評価と解釈可能な指導の両立を狙う。
-
ELVA: Exploring Ranking-Driven Universal Multimodal Retrievalランキング駆動の汎用マルチモーダル検索ELVA対照学習でMLLMを活用するマルチモーダル検索が主流となるなか、ELVAはランキング駆動の汎用マルチモーダル検索を探求する。
-
Lagrange: An Open-Vocabulary, Energy-Based Sparse Framework for Generalized End-to-End Driving開語彙・エネルギーベースの疎な端到端運転枠組みLagrange端到端の自動運転を複雑な実世界環境へ拡張するには高度な知覚が要る。Lagrangeは開語彙でエネルギーベースの疎な枠組みにより一般化された端到端運転を実現する。
-
Confidence-Aware Automated Assessment of Student-Drawn Scientific Models生徒の描いた科学モデルを確信度考慮で自動評価生徒の描画は理科教育で概念理解の評価に広く使われる。本研究は確信度を考慮して、生徒が描いた科学モデルを自動評価する手法を示す。
-
Finetuning Vision-Language-Action Models Requires Fewer Layers Than You ThinkVLAモデルの微調整は想定より少ない層で足りる膨大な動画ロボットデータで事前学習されたVLAモデルはロボット制御を革新した。本研究は、その微調整に必要な層数が想定より少なくて済むことを示す。
-
SPOT-E: Test-Time Entropy Shaping with Visual Spotlights for Frozen VLMs凍結VLM向けの視覚スポットライトによるテスト時エントロピー整形SPOT-EVLMは証拠の多い課題で決定的な視覚手がかりを見落とし性能が落ちる。SPOT-Eは視覚スポットライトを用いたテスト時のエントロピー整形でこれを改善する。
-
Augmenting Game AI with Deep Reinforcement Learning深層強化学習でゲームAIを強化する研究ゲームへの没入はグラフィックや音、機構だけでなくゲームAIの質にも依存する。本研究は深層強化学習によりゲームAIを強化する手法を扱う。
-
FlowMaps: Modeling Long-Term Multimodal Object Dynamics with Flow Matchingフローマッチングで長期のマルチモーダル物体動態を予測するFlowMaps3Dシーンの空間・時間理解はロボット展開に不可欠。FlowMapsはフローマッチングにより長期のマルチモーダルな物体動態をモデル化する。
-
ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Conversion音声教師ありのヘブライ語書記素音素変換ReNikudを提案本論文は、現代ヘブライ語の書記素音素変換(G2P)に向けた、音声を教師信号とする手法「ReNikud」を提案する。母音をほとんど表記しないアブジャド文字に由来する曖昧さに対処し、まず母音記号(nikud)を予測する従来手法を超える、音声合成向けのG2Pを目指す。
-
MedRLM: Recursive Multimodal Health Intelligence for Long-Context Clinical Reasoning, Sensor-Guided Screening, Evidence-Grounded Decision Support, and Community-to-Tertiary Referral Optimization長文脈の臨床推論に向けた再帰的マルチモーダル医療AI「MedRLM」本論文は、長文脈の臨床推論・センサー誘導スクリーニング・根拠に基づく意思決定支援・地域から高次医療への紹介最適化を担う、再帰的マルチモーダルの医療知能システム「MedRLM」を提案する。単発のプロンプトや検索にとどまる既存の医療LLMやRAGを超え、異種かつ縦断的な患者情報を横断して推論することを狙う。
-
NAMESAKES: Probing Identity Memorization in Text-to-Image Modelsテキスト画像モデルの人物記憶を調べるNAMESAKESを提案本論文は、人物名から実在の人物に似た顔を生成しうるテキスト画像(T2I)モデルにおける、本人性の記憶(identity memorization)を調べる研究「NAMESAKES」を提案する。生成顔が記憶由来か捏造かを、正解写真・訓練データ・ホワイトボックスアクセスなしに判別する難しさに取り組み、プライバシー上の懸念を検討する。
-
PASQA: Pitch-Accent-Focused Speech Quality Assessment Model Trained on Synthetic Speech with Accent Errorsピッチアクセント誤りに着目した音声品質評価モデルPASQA本論文は、ピッチアクセントの正しさに明示的に着目する音声品質評価モデル「PASQA」を提案する。アクセント誤りを含む合成音声で学習し、発話全体の自然さ(MOS)を予測する既存モデルが局所的なピッチアクセント誤りに鈍感である問題に対処する。
-
Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship検証可能な指示追従の修正で自己選好が弱い/不在と報告本論文は、大規模言語モデルが、検証可能な指示追従の修正において自分の文章への妥当な訂正を拒むかどうかを検証する。実際に自分が書いた文章を対象に四つのモデルで検証し、判定者として自作を好む「自己選好バイアス」が、この修正設定では弱いか存在しないことを示す。
-
What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis潜在的なChain-of-Thoughtの有効な監督を情報理論で分析本論文は、推論を連続的な隠れ状態の中で内在化する潜在的な思考連鎖(latent CoT)について、どのような教師信号が有効かを情報理論的に分析する。結果のみに基づく監督が弱い学習信号しか与えず、頑健な潜在推論が難しくなる理由を考察する。
-
Investigating Human-Model Discrepancies in Speech Quality Assessment via Acoustic and Prosodic Perturbations音響・韻律摂動で音声品質評価の人間とモデルの乖離を調査本論文は、音響的・韻律的な制御された摂動を用いて、音声品質評価における人間の判断とMOS予測モデルとの乖離を調査する。TTS研究で代理指標として広く使われるこれらのモデルが、音響的忠実度を超えた品質差を捉えられるかを検証する。
-
DeepSeek Introduces VisionDeepSeek、視覚(マルチモーダル)機能を導入中国のAI企業DeepSeekが、画像を扱える視覚(ビジョン)機能を導入したことを伝える記事。テキスト中心だったモデルにマルチモーダル対応が加わり、画像理解を含むタスクへの応用が広がる動きを紹介している。
-
NRITYAM: Language Models Meet Art and Heritage of Dance世界の舞踊文化でLMの文化理解を測るベンチマークNRITYAM本論文は、世界各地の舞踊(ダンス)の伝統を題材に、言語モデルの文化的理解力を評価する包括的ベンチマーク「NRITYAM」を提案する。言語モデルが世界規模で有効であるには、地域固有の社会文化的文脈を細やかに理解する必要があるという課題に取り組む。
-
Midjourney MedicalMidjourney、医療向け「Midjourney Medical」を提示画像生成で知られるMidjourneyが、医療分野に向けた「Midjourney Medical」を打ち出したことを伝える記事。デモ動画とともに、画像生成技術を医療領域に応用しようとする新たな取り組みとして紹介されている。
-
GLM-5.2 is probably the most powerful text-only open weights LLMGLM-5.2、テキスト特化の最強級オープンウェイトLLMか中国のAIラボZ.aiが、コーディングプラン向けに6月13日公開したGLM-5.2を、6月16日にMITライセンスで完全なオープンウェイトとして公開した。従来のGLM-5やGLM-5.1と同規模ながら、テキスト専用では最も強力なオープンウェイトLLMの可能性があるとサイモン・ウィリソン氏は評している。