新モデル・リリース A
268 件中 121〜150 件目を表示
-
RubricsTree: Scalable and Evolving Open-Ended Evaluation of Personal Health Agents across Health Memory and Medical SkillsRubricsTree、個人健康エージェントの開放型評価を拡張センサ指標を伴うLLMの個人健康エージェントは医療格差緩和に期待されるが、開放型評価のボトルネックが大規模臨床展開を妨げる。RubricsTreeは健康メモリと医療スキルにまたがるスケーラブルで進化的な開放型評価を提案する。
-
Learning from the Self-future: On-policy Self-distillation for dLLMs拡散LLM向けのオンポリシー自己蒸留OPSDを探究オンポリシー自己蒸留(OPSD)はLLMの事後訓練に有効だが拡散LLM(dLLM)への応用は未開拓。既存OPSDは自己回帰中心で左から右への接頭辞条件付けに依存しており、拡散LLMに適した自己蒸留の在り方を検討する。
-
The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining DataSEC開示文書を再構成した金融向け事前学習データSEFDを公開高品質な長文コーパスが枯渇する中、SEC提出書類をレイアウト忠実なMultiMarkdownへ再構成したオープンデータセットStanford EDGAR Filings Dataset(SEFD)を提示する論文。金融言語モデルの学習・評価用に監査済み財務諸表などを提供すると述べる。
-
DRFLOW: A Deep Research Benchmark for Personalized Workflow Prediction個別化ワークフロー予測を測るDeep Researchベンチマークを提案Deep Researchシステムの多くが報告書や要約の生成に偏る一方、企業業務は具体的な行動手順の特定を要すると指摘し、個別化ワークフロー予測を評価するベンチマークDRFLOWを導入する論文。手順列としてのワークフロー予測能力を測ると述べる。
-
Kolmogorov Regression for Robust Diffusion Policiesコルモゴロフ回帰で頑健な拡散方策を学習有限次元の拡散方策は離散化由来の時間ドリフトで長期性能が劣化する。本研究は後退コルモゴロフ方程式により拡散方策をキャメロン・マルティン空間へ引き上げ、確率的要素を扱い頑健化する手法を提案する。
-
A Diffusion Approximation for Temporal-Difference Learning with Linear Features under Markovian Noiseマルコフ雑音下のTD学習に拡散近似を導入線形関数近似による時間差分(TD)学習の古典的連続時間記述は常微分方程式で、漸近平均は捉えるが確率性を無視する。本論文はマルコフ雑音下のTD学習に対し、その揺らぎを捉える拡散近似を与える。
-
ReAge3D: Re-Aging 3D Faces with View Consistency視点整合性を保つ3D顔の加齢編集フレームワークReAge3Dを提案同一性を保ちつつ詳細な3D顔の加齢・若返り編集を行う枠組みReAge3Dを提案する論文。合成画像ペアで学習した2D拡散モデルDiffReagingと中心から外側へ広げる手法により、視点間の不整合による細部の平滑化を抑えると述べる。
-
Your AI Travel Agent Would Book You a Bullfight: An Agentic Benchmark for Implicit Animal Welfare in Frontier AI Models動物福祉の暗黙的配慮を測るエージェント型ベンチマークAIエージェントは助言者から旅行予約等を代行する実行者へ移行している。既存の動物福祉ベンチマークはテキスト応答のみを評価するため、本研究はエージェント的展開で暗黙の動物福祉配慮が行動に転移するかを測る基準を提案する。
-
Descriptor: Certus Caliber Classification Gunshot Dataset (C3GD)銃口爆音を集めた公開データセットC3GDを構築銃口の爆発音を解析するための公開データセットCertus Caliber Classification Gunshot Dataset(C3GD)を構築した論文。28種の銃器・16口径から現地収集した8000点超を含み、銃器や口径、マイク位置などの詳細なメタデータを備えると述べる。
-
Knowledge Reutilization in Meta-Reinforcement Learningメタ強化学習で知識を再利用する転移フレームワークを提案既存のメタ強化学習が課題推論と身体固有の制御を結合しがちな点に着目し、簡略化したエージェントで課題レベルの知識を学び異種エージェントへ転移する枠組みを提案する論文。ベイズ非パラメトリック事前分布で潜在課題モードを整理すると述べる。
-
Towards Understanding and Measuring COGNITIVE ATROPHY in LLM BehaviourLLM対話の認知萎縮を測る過程指標を定式化した研究メンタルヘルス支援に使われるLLMで、表層的な安全スコアが時間的な相互作用の質を捉えない評価ギャップを指摘する論文。利用者が自ら省察・対処・意思決定を続けられるかという過程レベルの指標を「認知萎縮(COGNITIVE ATROPHY)」として定式化すると述べる。
-
Unintended Effects of Geographic Conditioning in Large Language Models地理条件付けがLLMに生む意図せぬ地域バイアス対話型AIは応答の現地化にユーザのメタデータを使うが、この隠れた文脈が生む地域バイアスは十分理解されていない。本研究は地理的条件付けがLLM応答に与える意図せぬ影響を分析する。
-
Structural Role Injection in Handlebars-Templated LLM Prompts: Triple-Brace Interpolation, Delimiter Family, and the Limits of HTML Auto-EscapingHandlebarsテンプレのLLMプロンプトに潜む役割注入LLMアプリはテンプレートからプロンプトを組み立て、Handlebars(Semantic Kernel既定)を広く使う。本研究は二重括弧のHTMLエスケープに対し三重括弧補間が値をそのまま挿入する点に着目し、構造的な役割注入の危険と自動エスケープの限界を分析する。
-
datasette-tailscale 0.1a0Simon Willison、Datasetteをtailscaleに繋ぐ実験的プラグインを公開Simon Willison氏が、ローカルのDatasetteサーバーをTailscale経由で自身のTailnetに接続できる実験的なアルファ版プラグイン「datasette-tailscale 0.1a0」を公開した。認証キーとホスト名を指定して起動すると、Tailnet内から該当ホスト名でDatasetteにアクセスできるようになる。実装には実験的なtailscale-rsライブラリのPythonバインディングを利用しており、本人もプロキシ設定のより良い方法を問うissueを立てたと述べている。
-
Querying an astronomical database using large language models: the ALeRCE text-to-SQL systemLLMで天文DBを問い合わせるtext-to-SQLシステムを開発LLMと文脈内学習に基づくtext-to-SQLシステムを開発し、天文ブローカーALeRCEのデータベースに適用した論文。自然言語の問い合わせから実行可能なSQLを生成し、110組の自然言語・SQL対データで段階的生成手法を評価すると述べる。
-
HistoRAG: Embedding Historical Methodology in Retrieval-Augmented Generation Through Critical Technical PracticeHistoRAG、歴史方法論をRAGに組み込む批判的実践RAGは言語モデル出力を外部根拠に接地するが、評価や既定設定は事実QA志向に偏る。HistoRAGは解釈的な歴史研究向けに、批判的技術実践を通じて歴史方法論をRAGへ組み込む枠組みを示す。
-
Volterra Generative ModelsVolterra生成モデル、記憶を持つ摂動で拡散を一般化スコアベース拡散モデルは扱いやすい逆時間ダイナミクスを与えるブラウン摂動を使うが記憶を持たない。Volterra生成モデルは記憶のある連続時間摂動を導入し、拡散生成を一般化する。
-
NoiseTilt: Noise-Tilted Reverse Kernels for Diffusion Reward AlignmentNoiseTilt、雑音項に報酬勾配を注入する拡散整合NoiseTilt(NTRK)は報酬誘導の拡散サンプラーで、逆カーネルの雑音項を通じて報酬勾配を注入し、スコアカーネルを変えず1ステップ1サンプルで済む。事前学習済み拡散モデルの報酬整合を効率化する。
-
Security and Privacy Prompts in the Wild: What Users Ask LLMs and How LLMs Respond実世界でユーザがLLMに尋ねる安全・プライバシー質問を分析LLMは多くの用途で使われる。本研究は実世界でユーザがセキュリティやプライバシーについて何をLLMに尋ね、LLMがどう応答するかを分析し、その傾向と課題を明らかにする。
-
When AI Says "I have been in similar situations": Synthetic Lived Experience in Peer-Like Caregiver SupportAIの合成的な実体験表現、介護者ピア支援での緊張を検討介護者はオンラインの仲間から情報的・感情的支援を得る。LLMが仲間的支援者として設計される中、AIが個人的経験を語ることが生む緊張を、介護者支援の文脈で検討する。
-
Compositional Skill Routing for LLM Agents: Decompose, Retrieve, and ComposeLLMエージェント向け合成的スキルルーティングLLMエージェントは再利用可能なツール仕様(スキル)に依存するが、現実の課題は複数スキルの合成を要する。本研究を合成的スキルルーティング問題として定式化し、複雑な要求を原子的サブタスクへ分解・検索・合成する。
-
LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation ScalingLoopCoder-v2、一度のループで効率的テスト時計算スケールループ型Transformerは共有ブロック反復で潜在計算を拡張するが、逐次ループは遅延とKVキャッシュを増やす。並列ループ手法を踏まえ、LoopCoder-v2はループ回数を実用的設計変数として効率的なテスト時計算スケーリングを狙う。
-
Recursive Scaling in Masked Diffusion Modelsマスク拡散モデルにおける再帰的スケーリングを検討マスク拡散モデル(MDM)は近年注目される生成手法である。本研究はMDMにおける再帰的スケーリングを検討し、その挙動や効率に関する知見を示す。
-
Reading between the Lines: Leveraging Large Language Models for Global Dementia and Depression Assessment from Clinical Interviews臨床面接の音声からLLMで認知症・うつ重症度を評価認知症とうつは高齢層で最も多い神経精神疾患で症状の重なりが鑑別を難しくする。本研究はオープン重みのLLMを用い、臨床面接で収集した音声から認知症とうつの重症度を予測する可能性を検討する。
-
Fast Nonparametric Conditional Independence Testing via Two-Stage Regression二段階回帰による高速なノンパラ条件付き独立性検定条件付き独立性検定は統計・因果推論の基本課題である。本研究は二段階回帰に基づく高速なノンパラメトリック条件付き独立性検定を提案し、計算効率と検出力の改善を狙う。
-
LLM Consumer Behavior Theory: Foundations of a Novel Research Fieldエージェント市場の消費行動を扱う新研究領域LLM消費行動論を提唱LLMが利用者に代わり消費判断を行う自律エージェントとして普及する流れを受け、人間を主たる意思決定者としてきた消費者理論に問いを投げかける論文。古典・行動経済学とNLPの知見を踏まえ、エージェント市場の消費行動を分析する新領域を提唱すると述べる。
-
C2FL: Clustered Continual Federated Learning under Spatial and Temporal DriftC2FL、空間・時間ドリフト下のクラスタ型継続連合学習集合適応システム(CAS)は各ノードが局所データから学習するが、データのプライバシー、ノードの移動性などが規模拡大を阻む。C2FLは空間的・時間的ドリフト下でのクラスタ化された継続的連合学習を提案する。
-
VoidPadding: Let [VOID] Handle Padding in Masked Diffusion Language Models so that [EOS] Can Focus on Semantic TerminationVoidPadding、マスク拡散LMで[VOID]がパディングを担当マスク拡散言語モデルでパディングと意味的終端の役割が混ざる問題に対し、[VOID]トークンにパディングを担わせ[EOS]が意味的終端に集中できるようにする手法VoidPaddingを提案する。
-
Recover Semantics First, Generate Better: Improved Latent Modeling for 3D MRI Reconstruction and Cross-Contrast Synthesis3D MRI再構成とコントラスト間合成を改善する潜在モデリングを提案複数コントラストMRIの取得が時間と費用を要する課題に対し、欠損コントラストを推定するコントラスト間合成に着目する論文。巨大な3D体積を扱う計算負荷の課題に対し、意味を先に回復する改良された潜在モデリングを提案すると述べる。
-
Fine-tuning LLMs for Passive Depression Severity Estimation from AI Mental Health DialogueAIメンタルヘルス対話からうつ重症度を受動推定するLLM微調整うつは広く見られる疾患である。本研究はAIによるメンタルヘルス対話を用い、LLMを微調整して対話から受動的にうつの重症度を推定する手法を検討する。数値・効果は論文ベース・第三者検証は未確認と明記。