安全性・評価 (11 / 11 ページ)｜AI/Tech動向まとめ

Hugging Face Blog · 2026-06-12 EN 安全性・評価抜粋

olmo-eval: An evaluation workbench for the model development loop

AllenAI、モデル開発ループ向け評価ワークベンチ「olmo-eval」を公開

Allen Institute for AIが、モデル開発ループで用いる評価ワークベンチ「olmo-eval」をHugging Faceブログで紹介。学習途中のモデルを継続的に評価する開発支援基盤とみられ、OLMo系オープンモデル開発の知見を反映した位置づけ。

元記事を読む (Hugging Face Blog) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 新モデル・リリース抜粋

SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model

世界モデルでLLM実行計画の潜在的失敗を測る「SIMMER」

AI エージェントニューラルネットワーク検索拡張生成 (RAG) 強化学習

LLMは家庭環境などで自律エージェントのプランナーとして使われる。既存ベンチが生成計画の実行可否のみを評価するのに対し、本論文は世界モデルを用いて潜在的な失敗を測るベンチマーク「SIMMER」を提案する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 安全性・評価抜粋

StreamMemBench: Streaming Evaluation of Agent Memory for Future-Oriented Assistance

未来志向支援のためのエージェント記憶を評価する「StreamMemBench」

個人エージェントの記憶は、蓄積情報と過去の対話を未来志向の支援へ転換することが役割となる。本論文は観測やユーザ操作から得られる手がかりを活かす能力を、ストリーミング評価するベンチマーク「StreamMemBench」を提案する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 安全性・評価抜粋

CANN-EUCLID: unsupervised constitutive artificial neural network model discovery from full-field data

CANN-EUCLID、全視野データから構成則を教師なし発見

ニューラルネットワーク

解釈可能な材料モデルを発見する構成則ニューラルネット(CANN)を、見かけの応力ひずみに頼らず全視野データから教師なしで学習。応力監督なしのモデル発見を実現する。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 政策・規制抜粋

NEST3D: A High-Resolution Multimodal Dataset of Sociable Weaver Tree Nests

NEST3D、シャカイハタオリの巣の高解像度マルチモーダルデータ

アルゴリズム・理論深層学習ニューラルネットワーク強化学習 Transformer

シャカイハタオリの巣は微気候を提供する複雑な生態構造。その高解像度なマルチモーダルデータセット「NEST3D」を公開し、生態・構造研究を支援する。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 新モデル・リリース抜粋

ORCA: A Platform for Open-Source Dexterity Research

ORCA、オープンソースの器用さ研究プラットフォーム

ニューラルネットワーク検索拡張生成 (RAG) ロボティクス

ロボット操作研究で多用される二指グリッパは形状の制約で能力が限られる。より器用な操作の研究を支えるオープンソースのプラットフォーム「ORCA」を提案する。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 安全性・評価抜粋

Rethinking Global Average Pooling: Your Classifier Is Secretly a Multi-Instance Learner

大域平均プーリングの分類器は実は多重インスタンス学習器と指摘

検索拡張生成 (RAG)

近年の画像分類器は大域平均プーリング(GAP)と線形ヘッドを多用する。本論文はこの線形性ゆえに、GAP付き分類器が実質的に多重インスタンス学習(MIL)器として振る舞うことを示し、GAPの再考を促す。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 安全性・評価抜粋

Provably Safe, Yet Scalable Reinforcement Learning

証明可能な安全性とスケール性を両立する強化学習

ニューラルネットワーク検索拡張生成 (RAG) 強化学習

制約を満たしつつ報酬を最適化する安全強化学習は、多くがソフト制約に依存する。証明可能な安全性を保ちつつスケール可能な手法を提案する。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 新モデル・リリース抜粋

The Risk Shadow of Principal Component Analysis: When 99.9999% Variance Preservation Causes Catastrophic Decision Errors

PCAの分散保存が稀な破滅的誤判断を招く「リスクの影」

強化学習

主成分分析は分散を保存するが、稀な破滅的事象の検出に必要な情報は保たない。高い分散保存率でも重大な判断誤りを生む「リスクの影」の存在を証明する。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 安全性・評価抜粋

From Shield to Target: Denial-of-Service Attacks on LLM-Based Agent Guardrails

LLMエージェントのガードレールを狙うサービス妨害攻撃を提示

AI エージェント Claude DeepSeek Gemini GPT

LLMベースのガードレールはプロンプトインジェクションやジェイルブレイクへの有力な防御となっている。本論文は、その防御を支える推論・指示追従能力そのものを突くサービス妨害(DoS)攻撃が可能であることを明らかにする。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 安全性・評価抜粋

Every Eval Ever: A Unifying Schema and Community Repository for AI Evaluation Results

AI評価結果を統一するスキーマと共有レポジトリ「Every Eval Ever」

Meta ニューラルネットワーク

AI評価は進捗の把握に広く使われるが、評価者ごとの不整合が分析・比較を妨げる。本論文は評価結果を統一するスキーマと、コミュニティで共有するレポジトリ「Every Eval Ever」を提案する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 安全性・評価抜粋

Beyond the Training Distribution: Evaluating Predictions Under Distribution Shift and Selection Bias

分布シフトと選択バイアス下の予測性能を事前評価

アルゴリズム・理論機械学習

配備前に新環境での予測性能を理解することは被害防止に重要。分布シフトと選択バイアスという二つの劣化要因の下で予測を評価する枠組みを扱う。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 安全性・評価抜粋

From Chatbot to Digital Colleague: The Paradigm Shift Toward Persistent Autonomous AI

LLMが「チャットボット」から永続自律AIへ移行する転換を概念化

AI エージェント推論 (Inference) ニューラルネットワーク検索拡張生成 (RAG) ソフトウェア工学

LLMは会話生成器から、推論・行動・記憶・自己改善を備えた統合AIへと根本的に変化しつつある。本論文はこの移行を「チャットボットからデジタルな同僚へ」という持続的自律AIへのパラダイムシフトとして概念化する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 安全性・評価抜粋

Recipe-Controlled Decoder Audit for Structural Knowledge-Graph Completion

知識グラフ補完のデコーダを統制条件で監査

機械学習ニューラルネットワーク強化学習ソフトウェア工学

構造的・帰納的な知識グラフ補完で、性能向上がエンコーダ由来かを問うレシピ統制デコーダ監査(RCDA)を提案。報告条件を揃えて寄与を切り分ける。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 安全性・評価抜粋

Nonlinear Two-Time-Scale Stochastic Approximation: A Sharp Phase Transition and How to Beat It

非線形2時間尺度確率近似の鋭い相転移を解明

音声処理

非線形な2時間尺度確率近似の有限時間解析で、縮小性の仮定下に現れる鋭い相転移を示し、それを打開する方法を提案する理論研究。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 新モデル・リリース抜粋

GitOfThoughts: Version-Controlled Reasoning and Agent Memory You Can Replay, Diff, and Merge

再生・差分・統合できる版管理つき推論記憶「GitOfThoughts」

AI エージェントニューラルネットワーク強化学習ソフトウェア工学

LLMの思考は文脈窓とともに消え、枝刈りされた探索や記憶は差分・統合・監査ができない。本論文は推論とエージェント記憶を版管理し、再生・差分・マージ可能にする「GitOfThoughts」を提案する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 新モデル・リリース抜粋

The Perceived Fragility of Explanations in Audio Models: Manipulation of Attribution with Unchanged Predictions

音声モデルの説明は予測を変えず操作できるその脆弱性を検証

検索拡張生成 (RAG)

本論文は音声ディープフェイク検知における事後説明手法の脆弱性を調べる。従来は画像で標準的なLpノルムを用いた説明操作が中心だったのに対し、心理音響(psychoacoustic)の枠組みを導入し、予測を変えずに帰属を操作できることを示す。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-12 EN 安全性・評価抜粋

A Computational Audit of Demographic Association Encoding in ClinicalBERT Language Predictions

ClinicalBERTの人口統計関連の符号化を計算論的に監査

機械学習 Transformer

臨床言語モデルが高リスクな意思決定支援に組み込まれる中、人口統計的な関連がどう符号化されるかを計算論的に監査。予測に与える影響を分析する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 資金・M&A 抜粋

MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition

頑健な音声認識向けモジュラー診断的継続学習データセット「MoDiCoL」

強化学習音声処理

近年のASRは標準ベンチで著しく進歩したが、条件によって性能差が残る。本論文は頑健な音声認識のための、モジュラーで診断的な継続学習(continual learning)データセット「MoDiCoL」を提案する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 安全性・評価抜粋

CADET: Physics-Grounded Causal Auditing and Training-Free Deconfounding of End-to-End Driving Planners

自動運転プランナーの近道学習を因果監査で除去する「CADET」

ニューラルネットワーク

模倣学習で訓練された end-to-end 自動運転プランナーは、専門家の行動と単に共起する要素を運転判断に結び付ける統計的近道に陥りやすい。本論文は物理に基づく因果監査と学習不要の交絡除去を行う「CADET」を提案する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 安全性・評価抜粋

Causal Object-Centric Models for Planning with Monte Carlo Tree Search

スロット構造の潜在空間でMCTS計画する因果モデル「COMET」

ニューラルネットワーク強化学習 Transformer

本論文はモデルベース強化学習アルゴリズム「COMET」を提案する。スロット構造の潜在空間でモンテカルロ木探索(MCTS)を行う物体中心(object-centric)の因果モデルにより、効率的な計画を実現する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 安全性・評価抜粋

CSPO: Constraint-Sensitive Policy Optimization for Safe Reinforcement Learning

安全強化学習向けの制約感応型方策最適化「CSPO」

強化学習

安全強化学習は制約付きマルコフ決定過程(CMDP)として安全制約を満たしつつ収益最大化を狙う。主双対法は深層RLに拡張しやすいが課題もある。本論文は制約に感応する方策最適化「CSPO」を提案する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗