安全性・評価 (10 / 11 ページ)｜AI/Tech動向まとめ

arXiv cs.CL (Computation and Language) · 2026-06-15 EN 安全性・評価抜粋

How Far Can Machine Translation Quality Take You? Extrinsic Discourse Evaluation in Goal-Oriented Setups

機械翻訳の品質が下流の談話理解に与える影響を外在的に評価

機械翻訳 (MT) の評価指標は翻訳品質を内在的に測るものが多く、翻訳誤りが下流に及ぼす影響を測らない。本論文は静的・対話的の 2 つの状況で外在的な談話評価を行う。静的な状況では参照一貫性の指標として実体数え上げタスクを提案し、高い内在的品質が必ずしも下流の談話成功を予測しないと示す。対話的な状況では目標志向の多エージェントゲーム Welfare Diplomacy を用いて検証する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-15 EN エージェント・ツール使用抜粋

SING: Synthetic Intention Graph for Scalable Active Tool Discovery in LLM Agents

LLM エージェントのツール探索を拡張する手法 SING を提案

AI エージェントニューラルネットワーク強化学習

LLM エージェントは文脈やツール、複数ターンの実行を管理する「ハーネス」に依存し、ツールが行動の中心的インターフェースとなる。接続される API が数百〜数千に拡大すると、全ツールのスキーマ注入は高コストで、静的な閉世界仮定を強いる。本論文は、孤立したツール記述とエージェントの真の意図を整合させにくい既存の一発検索の課題に対し、合成意図グラフ SING による能動的ツール探索手法を提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-15 EN 安全性・評価抜粋

Uncertainty Is Not a Safety Net for Clinical VQA, but Can It Anticipate Model Failure?

臨床 VQA で不確実性推定は安全網にならないと検証

コンピュータビジョン検索拡張生成 (RAG) ソフトウェア工学

臨床向け視覚言語モデル (VLM) の安全な運用には、予測を信頼すべきか医師にエスカレすべきかを示す不確実性推定 (UE) が必要とされる。本論文は臨床的な視覚質問応答 (VQA) で 8 手法・12 モデルを評価し、UE の品質は手法固有の性質ではなくモデル精度に追随し、性能が最も弱い (=信頼性が最も必要な) 箇所でこそ劣化すると指摘。正解を選択肢から隠す摂動では精度が崩壊しても不確実性はほとんど変化しなかったと報告する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-15 EN 新モデル・リリース抜粋

The BD-LSC Dataset: Facilitating the Benchmarking of Models for Lexical Semantic Change Detection in Slang and Standard Usage

語義変化検出の新ベンチマーク BD-LSC データセットを公開

埋め込み (Embeddings) GPT 機械学習ニューラルネットワーク Transformer

語の意味が時代とともに変化する様子 (語彙的意味変化、LSC) を計算的に検出する研究。既存のベンチマークや手法は、語が同時に意味を獲得・喪失する双方向の変化や、俗語と標準的意味を併せ持つ語の扱いが難しい。本論文は、3 つの時代区分で意味の獲得・喪失・安定を捉える双方向データセット BD-LSC など 2 つの補完的ベンチマークを導入し、評価を促進すると述べる。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-15 EN 資金・M&A 抜粋

Can LLM Coding Agents Reason About Time Series?

LLM コーディングエージェントは時系列を推論できるか検証

AI エージェントソフトウェア工学

金融・医療・環境監視などで使われる時系列データを、LLM エージェントが分析できるか検証した論文。生の数値を与える方式、LLM をコーディングエージェントとして使う方式、両者の組み合わせの 3 通りを比較し、Python コードで反復的にデータを照会できるエージェントが生データ処理を最大 10% 上回ったと報告。ただし最良のエージェントでも約 22〜34% は誤答が残るとする。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-15 EN 安全性・評価抜粋

DoubtProbe: Black-Box Jailbreak Defense via Structural Verification and Semantic Auditing

LLM の脱獄攻撃を推論時に防ぐ二分岐手法 DoubtProbe を提案

推論 (Inference) Llama 検索拡張生成 (RAG)

ユーザー向けに展開される大規模言語モデル (LLM) への black-box 脱獄攻撃に対し、推論時の防御枠組み DoubtProbe を提案する論文。多くの脱獄は有害な目的を消すのではなく、表現や構造を組み替えて安全整合を回避していると観察し、構造的検証と意味的監査の二分岐で防御する手法を示す。既存防御が prompt の言い換えや構造操作で不安定になる課題への対処を狙う。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

Stratechery (free posts) · 2026-06-15 EN 安全性・評価抜粋

Anthropic’s Safety Superpower

Stratechery、Anthropicの安全性重視が事業優先を正当化すると論評

Anthropic

テック評論サイトStratecheryは、Anthropicが自社の安全性へのコミットメントを強く信奉することで、結果的に自社事業を積極的に優先し、時に米政府にも異を唱える『正当化の根拠』を得ていると論じる。安全性という旗印が同社の競争上の立ち位置をどう形づくるかを批評的に検討したエッセイ。

元記事を読む (Stratechery (free posts)) ↗

Simon Willison's Weblog · 2026-06-13 EN 開発者ツール抜粋

Statement on the US government directive to suspend access to Fable 5 and Mythos 5

Willison、Fable 5/Mythos 5停止指令を「正気でない」と論評

Anthropic Claude

米政府が安全保障を理由に、外国籍者によるFable 5・Mythos 5へのアクセスを全面停止する輸出規制指令を出した件について、Simon Willisonが「正気とは思えない」と批判的に論評。指令の異例さと影響を指摘している。

元記事を読む (Simon Willison's Weblog) ↗

Anthropic News · 2026-06-12 EN 安全性・評価抜粋

Results from the first Anthropic Public Record

Anthropic、米国民5.2万人のAI意識調査「Public Record」初回結果を公表

Anthropic ニューラルネットワーク検索拡張生成 (RAG) 強化学習

Anthropicは、米国人約5万2千人を対象とするAI意識調査シリーズ「Anthropic Public Record」の初回結果を発表。48%が難病治療をAIへの期待の上位に挙げた一方、最大の懸念は雇用喪失(64%)で、認知的依存(56%)、誤情報(52%)が続いた。政府によるAI規制への支持は超党派で7割を超えたという。

元記事を読む (Anthropic News) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 安全性・評価抜粋

ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

医療MLLMの段階別ハルシネーションを診断するベンチマーク「ClinHallu」

ファインチューニング機械学習ソフトウェア工学

医療マルチモーダルLLMの推論で生じるハルシネーションを、視覚認識・知識想起・推論統合の段階別に切り分けて診断するベンチマーク「ClinHallu」を提案。7,031件の検証済みインスタンスに構造化推論トレースを付与し、段階置換介入で誤りの発生源を特定する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-12 EN 安全性・評価抜粋

CORA: Analyzing and bridging thinking-answer gap in Multimodal RLVR via Consistency-Oriented Reasoning Alignment

CORA、マルチモーダルRLVRの「思考と回答のずれ」を是正

コンピュータビジョン推論 (Inference) 検索拡張生成 (RAG) 強化学習ソフトウェア工学

検証可能報酬による強化学習(RLVR)をマルチモーダルへ拡張する際の、推論内容と最終回答の不一致に着目。一貫性志向の推論整合(CORA)でそのギャップを分析・橋渡しする手法を提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 新モデル・リリース抜粋

A Complexity Measure for Active Learning in Multi-group Mean Estimation

多群平均推定の能動学習に複雑性尺度を提案

複数グループの平均を推定する能動学習を多腕バンディットとして定式化し、最悪リスクを最小化する予算配分を研究。問題の難しさを測る複雑性尺度を導入する理論研究。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 安全性・評価抜粋

Flood and Harvest: The Provable Necessity of Trivia for Generating Valuable Mathematics via the Lens of Language Generation in the Limit

価値ある数学生成に「雑多な命題」が不可欠であることを理論的に論証

検索拡張生成 (RAG)

証明支援系と結合したAIが形式数学を大量生成する一方、検証可能性と数学的価値の差が課題になっている。本論文は「極限における言語生成」の観点から、価値ある数学を生み出すには雑多・周辺的な命題(trivia)の生成が原理的に必要であることを論証する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 新モデル・リリース抜粋

Optimal Hidden-Target Learning for Online Inventory Optimization on General Convex Sets

凸集合上のオンライン在庫最適化に最適な学習法を提示

在庫の繰り越しで実行可能領域が過去に依存するオンライン在庫最適化を、オンライン凸最適化として扱う。一般の凸集合上で隠れた目標を学習する最適手法を理論的に示す。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 安全性・評価抜粋

When to Write and When to Suppress: Route-Specialized Dual Adapters for Memory-Assisted Knowledge Editing

知識編集の書込/抑制を切替える二重アダプタを提案

埋め込み (Embeddings) 推論 (Inference) Llama

編集対象の事実のみ更新し周辺挙動を保つ知識編集を、編集メモリ参照型の設定で研究。書込と抑制を経路別に担う特化型のデュアルアダプタを提案する。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 学習・ファインチューニング抜粋

Graph Structured Combinatorial Semi-Bandit with Nonlinear Reward Associations through Separable Signals

グラフ構造の組合せ半バンディットを分離信号で解く

ニューラルネットワーク検索拡張生成 (RAG) 強化学習

相互接続データから最適構造を特定する組合せ半バンディット問題を、非線形な報酬関係の下で研究。分離可能な信号を用いてサンプリングと計算の効率化を図る。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 安全性・評価抜粋

Which Directions Matter? Sparse Design for Affine Robust Optimization

アフィンロバスト最適化で重要な不確実性方向を疎に選択

機械学習検索拡張生成 (RAG)

ロバスト最適化で、有限辞書と予算制約で定義される不確実性のうち、モデルがカバーすべき方向を検討。重要な方向を疎に選ぶ設計手法を提案する。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 安全性・評価抜粋

Graph Diffusion Residuals for Control-Function Instrumental Variables

制御関数IV推定にグラフ拡散の残差を活用

検索拡張生成 (RAG)

制御関数型の操作変数推定では予測でなく第一段階の残差が必要だが、高表現力モデルは残差を消してしまう。グラフ拡散に基づく残差でこの問題に対処する手法を提案する。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 安全性・評価抜粋

Neither Parallel Nor Sequential: How DiffusionGemma Actually Commits Tokens

DiffusionGemmaの実際のトークン確定順序を計測

深層学習 Mixture of Experts (MoE)

拡散型言語モデルは並列・非自己回帰とされるが、実際の確定順序はほぼ計測されていない。DiffusionGemmaを計装し、並列でも逐次でもない実態を明らかにする。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 学習・ファインチューニング抜粋

A Comparative Study of Deep Learning Architectures for Multi-Horizon Behavioural Forecasting for Mobile Health

モバイルヘルスの多期間行動予測で深層学習を比較検証

深層学習ファインチューニング機械学習ニューラルネットワーク Transformer

ウェアラブルやスマホが生む行動時系列は予防的な健康介入を支え得るが、近年の予測アーキテクチャの体系的比較は不足している。本論文はモバイルヘルス向けに多期間(multi-horizon)行動予測の深層学習アーキテクチャを比較研究する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-12 EN 新モデル・リリース抜粋

LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations

LoSoNA、集団会話の局所規範への適応を評価する基準

AI エージェント Claude Gemini ソフトウェア工学

オンライン集団会話には明示されない局所的な会話規範がある。LLMエージェントがそれを認識し適応できるかを測るベンチマーク「LoSoNA」を提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 推論・効率化抜粋

Realizing Native INT8 Compute for Diffusion Transformers on Consumer GPUs: A Fused INT8 GEMM Kernel for Ideogram 4.0

民生GPUで拡散Transformerの真のINT8演算を実現

ニューラルネットワーク量子化 Transformer

拡散Transformerの訓練後INT8量子化は、民生Ampere GPUではFP8/NF4より遅いことが多い。Ideogram 4.0向けに融合INT8 GEMMカーネルを実装し、真のINT8高速化を実現する。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-12 EN 安全性・評価抜粋

Zero-shot generalization of transformer neural operators to larger domains

Transformerニューラル演算子の大領域へのゼロショット汎化

埋め込み (Embeddings) 推論 (Inference) 機械学習ニューラルネットワーク Transformer

偏微分方程式の解作用素を近似するTransformer型ニューラル演算子が、訓練時より大きな計算領域へゼロショットで汎化できるかを検証する研究。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 政策・規制抜粋

Regulating the Machine Contributor: Governance and Policy Alignment in Open Source

オープンソースへのAIエージェント貢献を統治する枠組みを論じる

AI エージェント検索拡張生成 (RAG) ソフトウェア工学

AI支援開発は行単位の補完から、計画・編集・PR提出まで限定的監督で行うエージェントへ進化した。一方OSSは人手のプロセスで発展してきた。本論文はこの「機械の貢献者」を統治・政策面で整合させるガバナンスを論じる。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-12 EN 安全性・評価抜粋

When Errors Become Narratives: A Longitudinal Taxonomy of Silent Failures in a Production LLM Agent Runtime

本番LLMエージェント runtime の「静かな障害」を縦断分類