開発者ツール B
304 件中 211〜240 件目を表示
-
Context-Aware RL for Agentic and Multimodal LLMs文脈選択を報酬化するRL手法ContextRLを提案長文・多モーダルでの根拠特定を改善する強化学習手法ContextRLを提案。最終回答だけでなく、クエリと回答を支持する文脈を選ばせて報酬を与える間接的な補助目的により、細かな根拠付けを促す。コーディングのトラジェクトリと画像の対照データで学習し、標準的なGRPOに対し平均+2.2%の向上を示した。
-
Geometric Action Model for Robot Policy Learning幾何基盤モデルを再利用するロボット操作方策GAMを提案3次元幾何を扱える事前学習済みの幾何基盤モデル(GFM)を、知覚・時間予測・行動デコードの共通基盤として再利用する言語条件付きロボット操作方策GAMを提案。GFMを中間層で分割し、浅い層を観測エンコーダとして用い、分割点に挿入した因果的予測器が言語や固有受容感覚・行動履歴から将来の潜在トークンを予測する構成とする。
-
Benchmarking LLM Agents on Meta-Analysis Articles from Nature PortfolioNature系メタ分析論文でLLMエージェントを評価するベンチマークNature Portfolio掲載のメタ分析論文を題材として、LLMエージェントの処理・推論能力を評価するベンチマークを提示する研究。本文抜粋が取得できなかったため、要約はタイトルに基づく中立的な記述に留める。
-
The Importance of Phase in Neural Representations: An Internal Oppenheim-Lim Test of Image Classifiers画像分類器の内部表現でも位相が同一性を担うと検証フーリエ位相のみで画像が認識可能だとする古典的知見(Oppenheim-Lim, 1981)が、学習済み画像分類器の内部表現でも成り立つかを因果的に検証した研究。ある画像の位相を別画像の振幅に移植して予測の追従先を調べたところ、PRISM2DやGFNet、ViT-B/16では予測が位相側に従い、画像固有の振幅を除いても精度はほぼ変わらなかった。ResNet-50も介入位置を正せば後段に強い符号情報が見られたとする。
-
Learning the Geometry of Data: A Mathematical Review of Shape Space Analysisデータの幾何学を学ぶ ─ 形状空間解析の数理を体系的にレビュー観測データが豊かな幾何形状を持つ「形状空間」を扱う研究を体系化した総説。生物・医療・人類学・CVなど多分野で重要となる微妙な幾何差を従来の機械学習が扱いにくい点を指摘し、微分幾何・統計・機械学習の知見を統合。形状の表現とパラメータ化や距離の構成など、共通の解析パイプラインに沿って急成長中の文献を整理する。
-
Filtered Conformal Ellipsoids for Graph-Native Time Seriesフィルタ型コンフォーマル楕円体、多変量時系列に単一被覆の予測集合多変量時系列の同時予測集合は座標間依存に適応しつつ単一事象を制御すべきという課題に対し、フィルタ型コンフォーマル楕円体を提案。凍結した状態空間フィルタが1ステップ予測の平均・共分散を出し、マハラノビス得点に分割コンフォーマル較正を適用する。フィルタが楕円の形状を、較正がスカラ半径を決め、ガウス裾確率に依存せず学習済み共分散を活用する。
-
From Tokens to Policy: Causal and Interpretable Heterogeneous Treatment Effects Identification因果的に解釈可能な異質処理効果を同定する手法NEXISを提案論文は、介入効果の異質性(HTE)を因果的に解釈する新手法NEXIS(Neural EXposure Interaction Search)を提案。多モーダル・多視点の事前測定とスケーラブルな表現学習を活用し、HTE同定を十分かつ整合的な事前表現上のマルコフブランケット探索問題として再定式化する。表現力と解釈性のトレードオフ緩和を狙うとする。
-
Analytic Torsion and Spectral Gap Capture Persistent-Laplacian Performance持続ラプラシアンを3つの不変量に圧縮する固定長表現を提案論文は、持続ラプラシアン(PL)の全固有スペクトルを利用する際の高次元性と、フィルトレーション尺度ごとに「長さが変動する」問題に対し、ベッチ数・スペクトルギャップ・解析的トーションの3つの不変量へ蒸留する固定長の表現を提案。MNISTやQM-3Dなどのベンチマークで、計算量を抑えつつ全スペクトルと同等以上の予測性能を示したと報告する。
-
Stable Menus of Public Goods: AI-Enabled Progress経済学の未解決問題でAI研究ワークフローの有効性を検証経済設計(EconCS)の未解決問題を題材に、AIを用いた研究ワークフローの有効性を実験した論文。プロンプトへの人間の直観の付与や多ターン対話が有効か、LLMが博士1年生を上回るかを検討。直観の付与と「野心的」な手順を促す多ターンが有効な一方、LLMは博士学生よりわずかに劣ったと報告する。
-
Consensus-based Agentic Large Language Model Framework for Harmonized Tariff Schedule Code Classification関税分類HTSコードを判定するエージェント型LLM枠組みを提案税関手続きや関税査定に不可欠な調和関税表(HTS)コードの分類を対象に、エージェント型LLMの枠組みを提案する論文。多エージェント検索、公式関税文書の意味検索、根拠に基づく推論、合意による検証、信頼度推定、人間によるエスカレーションを統合し、カナダの10桁HTSコード分類を扱うとする。
-
Sobolev Approximation by Fixed-Size Neural Networks with Arbitrary Accuracy固定サイズのニューラルネットで任意精度のソボレフ近似を実現本研究は、固定サイズのニューラルネットワークによる任意精度のソボレフ近似を可能にする新たな活性化関数を検討する。まずElementary Universal Activation Function(EUAF)を用い、W^{2,∞}空間の関数をW^{1,∞}ノルムで任意精度近似できることを示す。さらに微分可能なDUAF_∞を導入し、より高次のソボレフ空間W^{s,∞}の関数をW^{s-1,∞}ノルムで任意精度近似できることを証明し、シグモイド型の変種も構築したとする。
-
The embrace of open science: An analysis of a decade of AI research and 56 800 conference papersAI主要会議10年分の論文を分析、コード・データ公開が大幅増と報告5つの主要AI会議で過去10年に発表された56,800本の論文を対象に、再現性に関わる7変数を分析した研究。コードとデータの両方を公開する論文は2014年の11%から2024年に64%へと約6倍に増えたと報告。文書化慣行に基づく推定として、再現性も同期間に向上したとする。
-
How Much Do Reviews Really Contribute? A Study on Text-Enriched Matrix Factorization for Recommendationsレビュー文が推薦に本当に寄与するかを行列分解で体系的に検証テキストレビューを推薦システムに取り込み協調シグナルを意味情報で補強する手法が広まっているが、強い協調ベースライン下でのレビュー由来表現の実際の寄与は未解明である。本研究は共通の協調バックボーン上で 3 つの補強戦略を導入・比較し、行列分解へのテキスト情報の影響を体系的に調べる。まず訓練中に協調とテキストのシグナルを適応的に均衡させる学習可能なゲート機構を提案し、複数の異なるレビュー表現に適用すると述べる。
-
Probing Low Frame Rate Degradation in Neural Audio Codecsニューラル音声コーデックの低フレームレート劣化の原因を実験的に解明低フレームレートのニューラル音声コーデックは、生成コストが系列長に比例する自己回帰音声合成で魅力的である。先行研究は 12.5 Hz 以下での動作を示したが、低フレームレート劣化の機序は十分理解されていない。本研究は制御されたフレームレート除去実験でこれを調べ、6.25 Hz での品質崖を再現。音素衝突やコードブック飽和という候補説明には根本的障壁の証拠が無く、崖はむしろ訓練時の固定クリップ長など準最適な訓練設定に起因すると述べる。
-
Phantoms and Disclosures: a Causal Framework for Auditing Synthetic Data合成データの情報漏洩を監査する因果フレームワークを提案生成AI・LLMの普及で、機微な実データの代替として合成データが注目される一方、訓練データの私的情報を記憶・再生するリスクが伴う。本研究は、システムが利用者情報を直接再生する「真の漏洩」と偶発的に生成する「幻影漏洩」を区別する、カスタマイズ可能な実証監査フレームワークを提案する。入力を訓練用とホールドアウトに分割し統計的仮説検定を適用することで、観測された漏洩がゼロ学習などの厳格なプライバシー基準と整合するかを判定するという。
-
Latent space mapping of interpretable structural coordinates from stochastic single-molecule signalsナノポア信号を対照学習で解釈可能な分子座標へ写像する手法を提案ナノポアは万能な単一分子センサだが、確率的な通過動態が符号化情報を歪めるため有用性が制約される。本研究は時間領域解析から、物理情報モデルのシミュレーション信号のみで訓練した対照学習エンコーダによる潜在空間写像へ移行。設計したDNAバーコードの固体ナノポア信号を解釈可能な分子座標系へ写像し、取得条件には不変で構造パラメータには応答する表現を学習するとする。
-
Boosting MoE Training Throughput with Advanced Fusion KernelsNVIDIA、融合カーネルでMoE学習スループットを向上NVIDIAが開発者ブログで、Mixture-of-Experts(MoE)モデルの学習スループットを高める高度な融合カーネル(fusion kernels)の手法を解説した。MoEは大規模AIシステムの基盤的構成要素として急速に普及しており、本記事は学習処理の効率化に向けたカーネルレベルの最適化アプローチを紹介する内容とみられる。
-
A Causal Model of Theory of Mind in Conflict for Artificial Intelligence対立場面で心の理論をいつ働かせるべきかを定式化する構造的因果モデルを提案心の理論(ToM)は他者に心的状態を帰属し予測・推論に用いる能力で、人と機械の統合に不可欠とされる。既存の AI-ToM モデルは「どう」心を読むかを扱うが、「いつ」働かせるべきかはほぼ未解明だった。本論文は、対立においてどの状況・エージェント条件下で ToM の関与が因果的に正当化されるかを問い、ToM を常時稼働ではなく状況・エージェント条件で起動する機構として有向非巡回グラフ(DAG)による構造的因果モデルで定式化すると述べる。
-
A nonparametric two-sample test using a parametric integral probability metric単一ノード判別器のIPMに基づく新たなノンパラメトリック二標本検定を提案二つの独立標本の分布差検出は統計学と機械学習の基礎課題で、ノンパラメトリック二標本検定は分布形を仮定せず両標本が同一分布由来かを判定する原理的枠組みを与える。本研究は、ニューラルネットの単一ノードからなる特別設計のパラメトリック判別器クラスを用いた、新たな積分確率測度(IPM)に基づく検定統計量を提案し、得られる検定の性質を理論的に示すとする。
-
CrossMaps: Confidence-Aware Open-Vocabulary Semantic Mapping for Rover Navigationローバー航法向け、信頼度を考慮した開語彙意味地図CrossMapsを提案ローバーは知覚により物体とセンサ品質(測距信頼性、照明アーティファクト、データ密度等)を符号化する空間地図を維持し、部分観測下でのデータ融合・埋め込み更新・航法を導く。本研究はRGB-Dから言語で問い合わせ可能な地図を構築するリアルタイムの信頼度考慮型・開語彙意味マッピングCrossMapsを提案。VLMaps系手法を基に多スケールCLIP埋め込みと信頼度考慮融合、二重メモリ構造を統合するとする。
-
MA-SBI: Misspecification-Aware Simulation-Based Inference via Side-Channel Guidanceシミュレータ誤設定に頑健な推論 MA-SBI を提案、副次情報で較正不要にシミュレーションベース推論(SBI)は、モデル簡略化に起因するシミュレータの誤設定(実観測との乖離)に悩まされる。頑健 SBI の最新手法 RoPE は実・模擬観測の表現間の最適輸送で対処するが、SBI が必要な場面では入手困難な真値パラメータの較正ペアを要する。実務者が持つのは体制ラベルや指示テキスト、政策公報など非構造の副次情報である。本研究はこれを活用する誤設定考慮型推論 MA-SBI を提案すると述べる。
-
IMPACTeen: Intentions, Manipulation, Persuasion, Annotations, and Consequences in Teen Communication Dataset思春期の社会的影響を扱うデータセット『IMPACTeen』を提案青少年を文脈とした対人・メディア・デジタル上の社会的影響シナリオを集めたデータセット『IMPACTeen』を提案した論文。1,021 テキストと 5,100 件の注釈レコードを含み、各テキストを10代・親・心理士・コミュニケーション専門家・教師の5視点から注釈したとする。制約付き LLM 生成と2段階の人手編集で構築し、ポーランド語と英語版を提供すると述べる。abstract ベースの中立要約。
-
LESS Is More: Mutual-Stability Sampling for Diffusion Language Models拡散言語モデル向け学習不要の適応サンプラ『LESS』を提案拡散大規模言語モデル(dLLM)の効率を高める、学習不要・モデル非依存の適応的サンプラ『LESS』を提案した論文。トークン確定を逐次的な停止問題として扱い、top-1 予測の確信度・持続性・分布安定性を組み合わせた相互安定性ルールで、未確定位置の解除可否を判断するとする。Dream-7B や LLaDA-8B などで評価したと述べる。abstract ベースの中立要約。
-
Speaking the Language of Science: Toward a General-Purpose Generative Foundation Model for the Natural Sciences自然科学を統一する生成基盤モデル『LOGOS』を提案した報告自然科学の多様なタスクを単一の自己回帰フレームワークで統一する生成言語モデル『LOGOS』を提案した報告。共通の『科学の文法』に基づき、多様な科学的対象とその空間的相互作用をトークン列として表現し、座標や幾何ニューラルネットに依存せず構造的相互作用を逐次的に捉えるとする。多領域の継続事前学習と下流タスクを次トークン予測として整合させ、領域特化ベースラインに匹敵または上回ったと述べる。abstract ベースの中立要約。
-
Factorized Neural Operators Decompose Dynamic and Persistent Responses多スケール物理を捉える神経作用素FaNO、動的応答と持続応答を分解して提案物理系は急速に変化する動態と持続的な構造が共存する不均質な機構を示すことが多く、単一の支配的な帰納バイアスに依存する既存の神経作用素では異なる物理応答を共有表現に結合してしまう。本研究はドメイン横断の統一グリーン関数枠組みを導入し、スペクトル表現を同変な動的応答と不変な持続応答に分解する因子化神経作用素FaNOを提案。多スケールの物理挙動の表現性能向上を狙うとする。
-
Fantastic Pretraining Optimizers and Where to Find Them II: Hyperball Optimization行列ベース最適化器Muonの大規模時の効果減衰を補うラッパー手法Hyperballを提案Muon等の行列ベース最適化器は言語モデルの事前学習を高速化するが、標準的な定数分離型重み減衰ではモデルとデータの規模拡大に伴いAdamWに対する優位が縮小する。本研究は重み行列とその最適化更新のフロベニウスノルムを固定値に保つ簡素なラッパーHyperballを提案。Qwen3系の最大1.2BパラメータでMuon+Hyperballが重み減衰ベースラインに対しトークン換算20〜30%の高速化を達成したと報告する。
-
Contrastive-Difference CKA Reveals Concept-Specific Structural Alignment Across Language Model ArchitecturesCKA_Delta で LLM 間の概念表現の幾何と機能的転移の乖離を分析異なる LLM アーキテクチャが高次概念を構造的に互換な形で符号化するかを、訓練不要の診断指標 contrastive-difference CKA(CKA_Delta)で体系的に特徴づける arxiv 論文。中程度の幾何的収束とほぼ完全な機能的転移が併存する「幾何-機能の普遍性乖離」を報告する(abstract ベースの中立要約)。
-
Beyond Weights and Gradients: A Taxonomy of Federated Learning Messages連合学習で交換される「メッセージ」を形式定義し3分類する体系を提案連合学習が従来の重み・勾配交換を超え合成データや連合分析へ広がる中、効用とプライバシーを捉える連合メッセージの形式的定義を提案。モデル構造・統計要約・データ条件付き表現の3カテゴリに整理し、計算量・通信コスト・プライバシーリスクで評価。202本のレビューから多様化の潮流を示す。
-
Compositional Reasoning Depth Predicts Clinical AI Failure: Empirical Evidence Consistent with Transformer Compositionality Limits in Electronic Health Record Question Answering推論ホップ数が臨床 AI の誤りを予測、Transformer の合成性限界を示唆電子カルテ(EHR)質問応答で、必要な推論ステップ(ホップ)が多い質問ほど LLM の誤りが不釣り合いに増える構造を、事前定義したホップ数分類で示す arxiv 論文。集約精度では隠れる失敗構造を、Transformer の合成性(compositionality)限界に関する理論と整合的に論じる(abstract ベースの中立要約)。
-
Integrated Marketing Attribution: A Bayesian Framework for Privacy-Safe Granular Measurement Anchored in MMMIMA: MMMとベイズ帰属を統合したプライバシー安全な広告効果測定枠組みユーザー単位の追跡に頼らず細粒度の広告効果を測る需要に対し、チャネル計画向きだが粗いMMMと、粒度は高いがプライバシー制約に弱いMTAの長所を統合するIntegrated Marketing Attribution(IMA)を提案。MMM由来の事前分布でキャンペーン単位の効果を集約データから導く。