安全性・評価 A
322 件中 301〜322 件目を表示
-
olmo-eval: An evaluation workbench for the model development loopAllenAI、モデル開発ループ向け評価ワークベンチ「olmo-eval」を公開Allen Institute for AIが、モデル開発ループで用いる評価ワークベンチ「olmo-eval」をHugging Faceブログで紹介。学習途中のモデルを継続的に評価する開発支援基盤とみられ、OLMo系オープンモデル開発の知見を反映した位置づけ。
-
SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model世界モデルでLLM実行計画の潜在的失敗を測る「SIMMER」LLMは家庭環境などで自律エージェントのプランナーとして使われる。既存ベンチが生成計画の実行可否のみを評価するのに対し、本論文は世界モデルを用いて潜在的な失敗を測るベンチマーク「SIMMER」を提案する。
-
StreamMemBench: Streaming Evaluation of Agent Memory for Future-Oriented Assistance未来志向支援のためのエージェント記憶を評価する「StreamMemBench」個人エージェントの記憶は、蓄積情報と過去の対話を未来志向の支援へ転換することが役割となる。本論文は観測やユーザ操作から得られる手がかりを活かす能力を、ストリーミング評価するベンチマーク「StreamMemBench」を提案する。
-
CANN-EUCLID: unsupervised constitutive artificial neural network model discovery from full-field dataCANN-EUCLID、全視野データから構成則を教師なし発見解釈可能な材料モデルを発見する構成則ニューラルネット(CANN)を、見かけの応力ひずみに頼らず全視野データから教師なしで学習。応力監督なしのモデル発見を実現する。
-
NEST3D: A High-Resolution Multimodal Dataset of Sociable Weaver Tree NestsNEST3D、シャカイハタオリの巣の高解像度マルチモーダルデータシャカイハタオリの巣は微気候を提供する複雑な生態構造。その高解像度なマルチモーダルデータセット「NEST3D」を公開し、生態・構造研究を支援する。
-
ORCA: A Platform for Open-Source Dexterity ResearchORCA、オープンソースの器用さ研究プラットフォームロボット操作研究で多用される二指グリッパは形状の制約で能力が限られる。より器用な操作の研究を支えるオープンソースのプラットフォーム「ORCA」を提案する。
-
Rethinking Global Average Pooling: Your Classifier Is Secretly a Multi-Instance Learner大域平均プーリングの分類器は実は多重インスタンス学習器と指摘近年の画像分類器は大域平均プーリング(GAP)と線形ヘッドを多用する。本論文はこの線形性ゆえに、GAP付き分類器が実質的に多重インスタンス学習(MIL)器として振る舞うことを示し、GAPの再考を促す。
-
Provably Safe, Yet Scalable Reinforcement Learning証明可能な安全性とスケール性を両立する強化学習制約を満たしつつ報酬を最適化する安全強化学習は、多くがソフト制約に依存する。証明可能な安全性を保ちつつスケール可能な手法を提案する。
-
The Risk Shadow of Principal Component Analysis: When 99.9999% Variance Preservation Causes Catastrophic Decision ErrorsPCAの分散保存が稀な破滅的誤判断を招く「リスクの影」主成分分析は分散を保存するが、稀な破滅的事象の検出に必要な情報は保たない。高い分散保存率でも重大な判断誤りを生む「リスクの影」の存在を証明する。
-
From Shield to Target: Denial-of-Service Attacks on LLM-Based Agent GuardrailsLLMエージェントのガードレールを狙うサービス妨害攻撃を提示LLMベースのガードレールはプロンプトインジェクションやジェイルブレイクへの有力な防御となっている。本論文は、その防御を支える推論・指示追従能力そのものを突くサービス妨害(DoS)攻撃が可能であることを明らかにする。
-
Every Eval Ever: A Unifying Schema and Community Repository for AI Evaluation ResultsAI評価結果を統一するスキーマと共有レポジトリ「Every Eval Ever」AI評価は進捗の把握に広く使われるが、評価者ごとの不整合が分析・比較を妨げる。本論文は評価結果を統一するスキーマと、コミュニティで共有するレポジトリ「Every Eval Ever」を提案する。
-
Beyond the Training Distribution: Evaluating Predictions Under Distribution Shift and Selection Bias分布シフトと選択バイアス下の予測性能を事前評価配備前に新環境での予測性能を理解することは被害防止に重要。分布シフトと選択バイアスという二つの劣化要因の下で予測を評価する枠組みを扱う。
-
From Chatbot to Digital Colleague: The Paradigm Shift Toward Persistent Autonomous AILLMが「チャットボット」から永続自律AIへ移行する転換を概念化LLMは会話生成器から、推論・行動・記憶・自己改善を備えた統合AIへと根本的に変化しつつある。本論文はこの移行を「チャットボットからデジタルな同僚へ」という持続的自律AIへのパラダイムシフトとして概念化する。
-
Recipe-Controlled Decoder Audit for Structural Knowledge-Graph Completion知識グラフ補完のデコーダを統制条件で監査構造的・帰納的な知識グラフ補完で、性能向上がエンコーダ由来かを問うレシピ統制デコーダ監査(RCDA)を提案。報告条件を揃えて寄与を切り分ける。
-
Nonlinear Two-Time-Scale Stochastic Approximation: A Sharp Phase Transition and How to Beat It非線形2時間尺度確率近似の鋭い相転移を解明非線形な2時間尺度確率近似の有限時間解析で、縮小性の仮定下に現れる鋭い相転移を示し、それを打開する方法を提案する理論研究。
-
GitOfThoughts: Version-Controlled Reasoning and Agent Memory You Can Replay, Diff, and Merge再生・差分・統合できる版管理つき推論記憶「GitOfThoughts」LLMの思考は文脈窓とともに消え、枝刈りされた探索や記憶は差分・統合・監査ができない。本論文は推論とエージェント記憶を版管理し、再生・差分・マージ可能にする「GitOfThoughts」を提案する。
-
The Perceived Fragility of Explanations in Audio Models: Manipulation of Attribution with Unchanged Predictions音声モデルの説明は予測を変えず操作できるその脆弱性を検証本論文は音声ディープフェイク検知における事後説明手法の脆弱性を調べる。従来は画像で標準的なLpノルムを用いた説明操作が中心だったのに対し、心理音響(psychoacoustic)の枠組みを導入し、予測を変えずに帰属を操作できることを示す。
-
A Computational Audit of Demographic Association Encoding in ClinicalBERT Language PredictionsClinicalBERTの人口統計関連の符号化を計算論的に監査臨床言語モデルが高リスクな意思決定支援に組み込まれる中、人口統計的な関連がどう符号化されるかを計算論的に監査。予測に与える影響を分析する。
-
MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition頑健な音声認識向けモジュラー診断的継続学習データセット「MoDiCoL」近年のASRは標準ベンチで著しく進歩したが、条件によって性能差が残る。本論文は頑健な音声認識のための、モジュラーで診断的な継続学習(continual learning)データセット「MoDiCoL」を提案する。
-
CADET: Physics-Grounded Causal Auditing and Training-Free Deconfounding of End-to-End Driving Planners自動運転プランナーの近道学習を因果監査で除去する「CADET」模倣学習で訓練された end-to-end 自動運転プランナーは、専門家の行動と単に共起する要素を運転判断に結び付ける統計的近道に陥りやすい。本論文は物理に基づく因果監査と学習不要の交絡除去を行う「CADET」を提案する。
-
Causal Object-Centric Models for Planning with Monte Carlo Tree Searchスロット構造の潜在空間でMCTS計画する因果モデル「COMET」本論文はモデルベース強化学習アルゴリズム「COMET」を提案する。スロット構造の潜在空間でモンテカルロ木探索(MCTS)を行う物体中心(object-centric)の因果モデルにより、効率的な計画を実現する。
-
CSPO: Constraint-Sensitive Policy Optimization for Safe Reinforcement Learning安全強化学習向けの制約感応型方策最適化「CSPO」安全強化学習は制約付きマルコフ決定過程(CMDP)として安全制約を満たしつつ収益最大化を狙う。主双対法は深層RLに拡張しやすいが課題もある。本論文は制約に感応する方策最適化「CSPO」を提案する。