新モデル・リリース A
269 件中 61〜90 件目を表示
-
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States米地方条例を集約、法務 AI 向けコーパス LOCUS を公開法務 AI の進展には大規模で信頼できる法文へのアクセスが不可欠だが、米国法で重要な層である地方条例は機械可読コーパスにほとんど存在しなかった。本研究は全米の地方条例を集めたコーパス「LOCUS」を構築し、法務 AI 研究の基盤データを拡充する。
-
UBP2: Uncertainty-Balanced Preference Planning for Efficient Preference-based Reinforcement Learning不確実性を考慮し選好ベース強化学習を効率化する UBP2 を提案選好ベース強化学習は、行動の対比較から報酬モデルを学び、明示的な報酬設計を不要にする。しかし既存手法は受動的なデータ収集に依存しがち。本研究は不確実性を均衡させて比較対象を選ぶ「UBP2」を提案し、より少ない選好データで効率的に学習する。
-
Optimal scenario design for climate emulation気候エミュレーションの精度を高める最適シナリオ設計を提案物理系への深層学習で汎化性能の向上は、主に物理制約を組み込む構造設計で図られてきた。本研究は機械学習の代理モデル(サロゲート)による気候エミュレーションに着目し、学習に用いるシナリオの最適設計を通じて汎化と予測精度を高める手法を提案する。
-
Does VLA Even Know the Basics? Measuring Commonsense and World Knowledge Retention in Vision-Language-Action ModelsVLA モデルは常識を保持しているか、知識保持度を測る研究身体化された Vision-Language-Action(VLA)モデルは、強力な事前学習 VLM をロボットデータで微調整して得られるが、常識や事実知識をどれだけ保持しているかは不明だった。本研究はその知識保持度を測定し、微調整による忘却の程度と課題を明らかにする。
-
A Multi-Domain Benchmark for Detecting AI-Generated Text-Rich Images from GPT-Image-2GPT-Image-2 生成の文字入り画像を見抜く多分野ベンチマーク文字を多く含む画像は、個人情報や取引・意思決定に関わる情報を含むことが多い。マルチモーダル生成モデルがリアルな文字や構造を合成できるようになる中、本研究は GPT-Image-2 による生成画像を検出する多分野ベンチマークを構築し、偽造画像の識別能力を評価する。
-
X+Slides: Benchmarking Audience-Conditioned Slide GenerationX+Slides、聴衆に合わせたスライド生成を評価するベンチマーク文書からスライドを自動生成することは LLM の重要な応用だが、既存ベンチマークは主に網羅性や技術的深さを測るにとどまる。本研究は聴衆に条件づけたスライド生成を評価する「X+Slides」を提案し、対象読者に応じた適切さを測る観点を導入する。
-
SCAN: Enhance Time Series Anomaly Detection via Multi-Scale Neighborhood-Centered ClusteringSCAN、多スケール近傍クラスタリングで時系列異常検知を強化時系列異常検知は多くの実応用で重要で、再構成ベース手法が主流だが、過度な一般化により異常まで正常に復元してしまう弱点がある。本研究は多スケールの近傍中心クラスタリングを用いる「SCAN」を提案し、再構成手法の過一般化を抑えて検知性能を高める。
-
OneCanvas: 3D Scene Understanding via Panoramic ReprojectionOneCanvas、パノラマ再投影で VLM の 3D シーン理解を実現VLM による 3D シーン理解は、複雑なモデル固有の幾何エンコーダや大規模な学習予算に依存しがちだった。本研究は「OneCanvas」を提案し、パノラマ再投影を用いて空間推論を行うことで、専用の幾何エンコーダや大量学習に頼らず効率的に 3D シーンを理解する。
-
Acceleration of an algebraic multigrid pressure solver using graph neural networksGNN で代数的マルチグリッドの圧力ソルバを高速化非圧縮性の非構造流体ソルバでは、圧力ポアソン方程式の求解が主要な計算ボトルネックで、従来の線形ソルバはメッシュの不規則性に敏感だ。本研究はグラフニューラルネットワークで代数的マルチグリッド(AMG)の圧力ソルバを加速し、求解の効率を改善する。
-
Transformer Geometry Observatory TGO-I: Spectral Geometry ObservatoryTGO-I、スペクトル幾何で Vision Transformer の内部構造を解析Vision Transformer(ViT)は広く普及し多くの画像課題で成功している一方、その次元的・表現的な幾何構造の基礎的理解は乏しい。本研究は「Transformer Geometry Observatory(TGO-I)」を提案し、スペクトル幾何の観点から ViT の表現空間を観測・解析する。
-
A Taxonomy of Mental Health and Technology Needs for Alzheimer's and Dementia Caregivers認知症介護者のメンタルヘルスと技術ニーズの分類体系を提示アルツハイマー病や関連認知症(AD/ADRD)の人を介護する家族は、世界の長期ケアの基盤を支えている。2023 年には米国で 1,100 万人超が無償介護を担った。本研究は介護者のメンタルヘルスと技術的ニーズを体系化した分類を提示し、支援設計の指針を示す。
-
TxBench-PP: Analyzing AI Agent Performance on Small-Molecule Preclinical PharmacologyTxBench-PP、小分子前臨床薬理での AI エージェント性能を評価AI エージェントは解釈や意思決定のループを短縮し創薬を加速し得るが、実用化には現実的な課題での信頼できる評価が要る。本研究は小分子の前臨床薬理を対象としたベンチマーク「TxBench-PP」を構築し、AI エージェントの性能を体系的に分析する。
-
Machine Unlearning for the XGBoost Model with Network Intrusion DatasetsXGBoost にマシンアンラーニングを適用、侵入検知データで検証マシンアンラーニング(MU)は、再学習せずに特定データを学習済みモデルから取り除く重要技術として注目される。既存研究の多くはニューラルネットに偏るが、本研究はネットワーク侵入検知データを用い、勾配ブースティング木 XGBoost への MU 適用を検討する。
-
RECOM: A Validity Discrimination Tradeoff in Automatic Metrics for Open Ended Reddit Question AnsweringRECOM、自動評価指標の妥当性と識別性のトレードオフを分析自動評価指標は LLM 生成文の評価で既定の手段だが、内容の真の一致(妥当性)と表層的偶然の見分け、さらに品質の識別という二役を暗に担わされている。本研究は Reddit の自由回答 QA を題材に、妥当性と識別性のトレードオフ「RECOM」を分析する。
-
あなたのAWSのコストの問題がどこにあるか、AIが教えてくれる「AWS FinOps Agent」パブリックプレビュー開始AWS、コスト異常の原因を調べる「AWS FinOps Agent」をプレビュー公開Amazon Web Services(AWS)が、利用中のAWSのコストに関する質問への回答や、コスト異常が発生した際の原因調査・特定を行うAIエージェント「AWS FinOps Agent」のパブリックプレビューを開始したと発表した。FinOps領域の運用支援を狙う。具体的な機能範囲や精度は記事・発表ベースで、第三者検証は未確認。
-
The More the Merrier: Combining Properties for ABox Abduction under Repair Semantics for ELbot修復意味論下の ABox アブダクション、性質併合で説明を強化アブダクションは、知識ベースに加えれば欠落した含意を成り立たせる仮説を与えて説明する中心的手法だ。本研究は記述論理 EL 系の修復意味論の下での ABox アブダクションを扱い、複数の性質を組み合わせることでより良い説明仮説を導く手法を提案する。
-
When AUC Misleads: Polarization-Aware Evaluation of Deepfake Detectors under Domain ShiftAUC の落とし穴、ドメイン変化下の偏極を考慮し偽動画検出を評価拡散モデルや顔交換ツールの進歩で精巧なディープフェイクが作られ、現実の被害が広がっている。本研究は、ドメインが変化する状況では AUC が検出器の実力を誤って示しうると指摘し、予測の偏極(polarization)を考慮した評価法でディープフェイク検出器を見直す。
-
Dango: A Strictly L1-Only Large Language Model for Studying Second Language AcquisitionDango、L1 のみ学習の 1.8B LLM で第二言語習得を研究本研究は、第二言語習得(SLA)における日本語から英語への L1→L2 転移を統制的に調べるための 1.8B パラメータの言語モデル「Dango」を導入する。母語(L1)のみで学習する厳密な設計により、これまで難しかった転移現象の制御実験を可能にし、SLA 研究の新たな基盤を提供する。
-
Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection事前学習段階で安全反映、安全データを超えるアライメントを探るLLM のより深い安全アライメントのため、安全介入を事前学習段階へ前倒しする研究が進む。多くは危険データの除去や安全な形への書き換えに頼る。本研究は「安全データ」を超え、事前学習中に定期的な安全リフレクションを組み込むことで、より根本的な安全性の獲得を目指す。
-
Essential Subspace Merging for Multi-Task Learning本質部分空間のマージでマルチタスク学習を実現するモデル統合モデルマージは、同一の事前学習チェックポイントから微調整した複数モデルの能力を一つに統合し、マルチタスク学習を可能にする。本研究は各タスクに本質的な部分空間を抽出して統合する「Essential Subspace Merging」を提案し、干渉を抑えつつ多タスク性能を引き出す。
-
IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic LanguagesIndicContextEval、音声 LLM の文脈活用を 8 印度語で評価音声 LLM は、ドメイン説明や固有名詞リストなど文章プロンプトを条件に音声認識を行えるが、こうした文脈を本当に活用しているかは不明だ。本研究は 8 つのインド系言語にわたり、音声 LLM の文脈活用能力を評価するベンチマーク「IndicContextEval」を提案する。
-
Complementary Attention Head Pruning for Efficient Transformers相補的な注意ヘッド剪定で Transformer を効率化Transformer モデルの成功は構造的スケーリングに支えられるが、パラメータが増大し資源制約下での展開が難しくなる。本研究は相補的(complementary)な注意ヘッドの剪定(プルーニング)手法を提案し、重複の少ないヘッドを選んで取り除くことで精度を保ちつつ効率化する。
-
OpenAnt: LLM-Powered Vulnerability Discovery Through Code Decomposition, Adversarial Verification, and Dynamic TestingOpenAnt、コード分解と動的検証で LLM が脆弱性を発見大規模コードベースの脆弱性自動発見は難しく、静的解析は誤検知が多く、ファジングなど動的手法は網羅性に課題がある。本研究は LLM を活用し、コード分解・敵対的検証・動的テストを組み合わせる「OpenAnt」を提案。誤検知を抑えつつ実在の脆弱性発見を狙う。
-
OrthoReg: Orthogonal Regularization for Hybrid Symbolic-Neural Dynamical SystemsOrthoReg、直交正則化でハイブリッド記号-ニューラル力学系を学習力学系は自然界のモデル化の基礎だが、人手で定めた機構モデルは解釈可能でも柔軟性に欠け、ニューラル手法は柔軟だが不透明というトレードオフがある。本研究は直交正則化「OrthoReg」を提案し、記号的成分とニューラル成分を分離して学習するハイブリッド力学系を実現する。
-
Human-AI Coevolution Dynamics: A Formal Theory of Social Intelligence Emergence Through Long-Term Interaction人間と AI の共進化を定式化、社会的知能の創発を理論化現在の対話 AI は言語生成や個人化、長文脈の対話で進歩したが、多くは社会的行動を孤立した要素で扱う。本研究は人間と AI の長期的な相互作用を通じた共進化(coevolution)を定式化し、社会的知能が創発する過程を説明する形式理論を提案する。
-
INDEQS: Informed Neural controlled Differential EQuationSINDEQS、情報付き Neural CDE で時系列予測を強化ニューラル制御微分方程式(NCDE)は時系列予測の強力な連続時間枠組みだが、標準的なグラフ拡張は空間構造の学習に課題がある。本研究は情報を取り込んだ「INDEQS(Informed Neural controlled Differential Equations)」を提案し、構造を捉えて予測性能を高める。
-
ProductConsistency: Improving Product Identity Preservation in Instruction-Based Image Editing via SFT and RLProductConsistency、指示画像編集で商品の同一性保持を改善指示ベースの画像編集は、自然言語の指示から複雑な編集を可能にしてきた。しかし商品中心の場面では、特徴やブランディングの保持が課題だ。本研究は SFT と RL を用いる「ProductConsistency」を提案し、編集後も商品の同一性(アイデンティティ)を保つ性能を高める。
-
Structure Over Nonlinearity: Explicit Interaction Architectures for Dynamical Learning非線形性より構造、力学学習に明示的な相互作用構造を導入力学系の学習構造の多くは汎用の非線形関数近似に頼り、構造化された挙動を捉えるのに高いモデル複雑度を要しがちだ。本研究は非線形性よりも構造を重視し、変数間の相互作用を明示的に組み込んだアーキテクチャを提案。少ない複雑度で力学系を効率的に学習する。
-
Context-Aware Optimization of Follow-Up Intervals for Type 2 Diabetes Care Using Markov Decision Processesマルコフ決定過程で 2 型糖尿病の最適な再診間隔を文脈最適化慢性疾患の管理は、進行と制御を確認する定期的な患者-医療者間のやり取りに依存する。2 型糖尿病では現行ガイドラインが画一的な再診間隔を定める。本研究はマルコフ決定過程(MDP)を用い、患者の状況に応じて再診(フォローアップ)間隔を文脈的に最適化する手法を示す。
-
ARIADNE: Agnostic Routing for Inference-time Adapter DyNamic sElectionARIADNE、推論時にアダプタを動的選択する汎用ルーティングパラメータ効率の良い微調整(PEFT)の普及で、単一のバックボーンに多数のタスク特化アダプタを組み合わせるモデル生態系が生まれている。本研究は「ARIADNE」を提案し、推論時に入力へ応じて適切なアダプタを動的に選ぶ、モデル非依存(agnostic)なルーティング機構を実現する。