安全性・評価 (5 / 11 ページ)｜AI/Tech動向まとめ

arXiv cs.AI (Artificial Intelligence) · 2026-06-17 EN マルチモーダル抜粋

RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models

視覚言語モデルの戦略的推論を測るRTSベンチマーク

AI エージェントコンピュータビジョンニューラルネットワーク検索拡張生成 (RAG)

最新の視覚言語モデル（VLM）は戦略的な推論を苦手とする。RTSGameBenchはリアルタイムストラテジー（RTS）ゲームを題材に、状況判断や計画立案といったVLMの戦略的推論能力を評価するベンチマークを提供する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 新モデル・リリース抜粋

SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents

混在文書のAI生成文検出へ文間フローを捉える「SenFlow」

DeepSeek 検索拡張生成 (RAG)

人間とAIの文が混在する文書では、文単位でのAI生成文検出（S-AGTD）が難しい。SenFlowは文と文のつながり（フロー）をモデル化し、文脈的な流れの不自然さから混在文書中のAI生成文をより正確に検出する手法を提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 安全性・評価抜粋

Graph-ESBMC-PLC: Formal Verification of Graphical PLCopen XML Ladder Diagram Programs Using SMT-Based Model Checking

PLCopen XMLラダー図をSMTで形式検証する手法

推論 (Inference) 機械学習ニューラルネットワーク

PLCopen XMLはIEC 61131-3のラダー図に二つの符号化形式を定める。本研究はSMTに基づくモデル検査を用い、グラフィカルなPLCopen XMLラダー図プログラムを形式的に検証する手法Graph-ESBMC-PLCを提案し、産業制御ソフトの正当性検証を支援する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-17 EN 安全性・評価抜粋

SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety

AI for Scienceの安全性をリスク次元別に測る「SciRisk-Bench」

ニューラルネットワーク強化学習ソフトウェア工学

大規模言語モデルが科学研究（AI4Science）に組み込まれる中、その安全性評価が重要になっている。SciRisk-Benchはリスクの次元を意識し、科学応用におけるLLMの安全性を多角的に評価するベンチマークを提供する。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 推論・効率化抜粋

REVES: REvision and VErification--Augmented Training for Test-Time Scaling

逐次修正によるテスト時スケーリングを強化する「REVES」

推論 (Inference) 強化学習ソフトウェア工学

逐次的に出力を修正するテスト時スケーリングは有力な手法として注目される。REVESは修正と検証を組み込んだ訓練法を提案し、モデルが自らの出力を見直し検証する能力を高めることで、テスト時の追加計算をより効果的に性能向上へ結び付ける。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 新モデル・リリース抜粋

SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration

エージェント探索による確率的プロンプト最適化「SAGE」

文脈設計（コンテキストエンジニアリング）はAIシステムの性能を引き上げる主要な手段となっている。SAGEはエージェントが探索を導く確率的なプロンプト最適化手法を提案し、効果的なプロンプトを自動的に発見してタスク性能を改善する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

Stratechery (free posts) · 2026-06-17 EN 安全性・評価抜粋

The State of Fable, The Jailbreak Problem, SpaceX Acquires Cursor

Stratechery、Fableの現状・ジェイルブレイク問題・SpaceXのCursor買収を論じる

Anthropic

Ben ThompsonのStratecheryが3つの話題を取り上げる週次論考。AnthropicのモデルFableの現状、AIのジェイルブレイク（脱獄）問題、そしてSpaceXによるCursorの買収を論じる。筆者は「行政当局のFableに対する見方はおそらく誤りだが、最終的にはAnthropicの責任だ」と指摘する。各論点は筆者の見解ベースで、買収の詳細・数値は第三者検証は未確認。

元記事を読む (Stratechery (free posts)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 安全性・評価抜粋

Aligning Implied Statements for Implicit Hate Speech Generalizability with Context-Bounded Semi-hard Negative Mining

含意の整合と半硬負例採掘で暗黙的ヘイト検出を一般化

音声処理

暗黙的なヘイトスピーチの分類は、意図が明示されないため難しい。本研究は文が含意する内容を整合させ、文脈を限定した半硬い負例の採掘を組み合わせることで、暗黙的ヘイト検出の汎化性能を高める手法を提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN エージェント・ツール使用抜粋

Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning

長文脈強化学習のためのデータレシピ

AI エージェント検索拡張生成 (RAG) 強化学習

長い文脈にわたる推論は大規模言語モデルに不可欠な能力である。本研究は報酬設計に頼り過ぎず、学習データの構成（データレシピ）を工夫することで長文脈の強化学習を効果的に進める方法を示す。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 新モデル・リリース抜粋

GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents

多主体共有メモリのガバナンスを測る「GateMem」

AI エージェントニューラルネットワーク

LLMエージェントのメモリ評価は単一ユーザーを前提とすることが多く、複数主体が共有するメモリの統制は見落とされがちである。GateMemは複数主体が共有するメモリのガバナンス（アクセス制御や管理）を評価するベンチマークを提供する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 安全性・評価抜粋

Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports

放射線レポートの臨床的意義をLLM指標で評価

推論 (Inference) 機械学習

生成された放射線レポートの信頼できる評価には厳密な臨床的妥当性が求められる。本研究は単純なスカラースコアを超え、臨床的意義を評価するLLMベースの指標を検討し、レポート生成の品質をより臨床に即して測ることを目指す。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 安全性・評価抜粋

RedactionBench

機微情報の墨消し能力を測る「RedactionBench」

ニューラルネットワーク強化学習

大規模言語モデルは個人情報など機微なデータを扱う領域に応用が広がっている。RedactionBenchはこうした文脈で必要となる機微情報の墨消し（リダクション）能力を評価するベンチマークを提供し、安全な運用に向けた検証を支援する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 安全性・評価抜粋

SAMA: Semantic Anchor-aligned Augmentation for Unified Low-Resource Multimodal Information Extraction

低資源マルチモーダル情報抽出の意味アンカー拡張「SAMA」

機械学習検索拡張生成 (RAG)

マルチモーダル情報抽出（MIE）は多様なタスクを含むが、低資源環境では学習データが不足する。SAMAは意味的なアンカーに整合させたデータ拡張を提案し、低資源条件でも統一的にマルチモーダル情報抽出の性能を高める。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 安全性・評価抜粋

LegalWorld: A Life-Cycle Interactive Environment for Legal Agents

法務エージェント向けライフサイクル型環境「LegalWorld」

AI エージェントニューラルネットワーク強化学習

民事訴訟は本質的にライフサイクルを伴うプロセスで、弁護士が作成する書面は段階ごとに連関する。LegalWorldはこうした訴訟の全工程を対象とする対話的な環境を提供し、法務エージェントを一連の流れの中で評価・訓練できるようにする。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN インフラ・ハードウェア抜粋

Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish

トルコ語向け形態素対応トークナイザ「Morpheus」

埋め込み (Embeddings) 推論 (Inference) 検索拡張生成 (RAG)

トルコ語は膠着語で、意味は形態素によって担われるが、一般的なサブワード分割はこれを十分に捉えられない。Morpheusは形態素を意識したニューラルなトークナイザと単語埋め込みを提案し、トルコ語処理の精度向上を図る。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 安全性・評価抜粋

LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment

LLMは読解問題の識別力指標の測定に苦戦

ソフトウェア工学

識別力は教育的評価における基本的な心理測定特性で、習熟度の異なる学習者を見分ける力を表す。本研究は読解問題において、大規模言語モデルがこの項目識別力を測ることが難しいことを示し、自動評価の限界を指摘する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 安全性・評価抜粋

TW-LegalBench: Measuring Taiwanese Legal Understanding

台湾の法理解を測る「TW-LegalBench」

大規模言語モデルは多様な領域で高い能力を示すが、地域固有の法制度への理解は十分に検証されていない。TW-LegalBenchは台湾の法律に関する理解度を測定するベンチマークを提供し、法務応用に向けたモデルの地域適応を評価する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-17 EN 安全性・評価抜粋

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

模擬世界で予測力を測る「ForecastBench-Sim」

強化学習ソフトウェア工学

汎用AIの予測ベンチマークは現実世界の事象を題材にするため、評価の再現や統制が難しい。ForecastBench-Simはシミュレートされた世界を用いた予測ベンチマークを提案し、統制された条件下でAIの予測能力を評価できるようにする。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

OpenAI Blog · 2026-06-17 EN 新モデル・リリース抜粋

Introducing LifeSciBench

OpenAI、生命科学研究の AI 能力を測る LifeSciBench を公開

深層学習強化学習

OpenAI は、AI システムが実際の生命科学研究の課題や判断をどう扱えるかを評価するベンチマーク「LifeSciBench」を発表した。専門家が作成・査読した内容で、現実の研究タスクに即した難度を備える。生命科学分野での AI の実用性を厳密に検証する狙い。

元記事を読む (OpenAI Blog) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 新モデル・リリース抜粋

ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues

ReproRepo、GitHub課題で再現性監査をスケール

AI エージェント GPT 機械学習検索拡張生成 (RAG) 強化学習

論文とコードの再現は科学に不可欠だが既存ベンチマークは規模拡大が難しい。本研究はGitHubリポジトリのIssueを活用し、LLMエージェントが再現支援をどこまで行えるかを大規模に評価する枠組みReproRepoを提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 新モデル・リリース抜粋

Darshana Graph: A Parallel Commentary Corpus for Comparative Indian Philosophy, with Stylometric and Exploratory Graph Analyses

Darshana Graph、印度哲学の並列注釈コーパスを構築

機械学習ニューラルネットワーク

ヒンドゥー・仏教・ジャイナの古典哲学伝統にまたがる12.5万件超のテキスト記録から成るコーパスDarshana Graphを公開。パブリックドメイン等の翻訳を基に、比較印度哲学のための文体計量およびグラフ解析を行う。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 新モデル・リリース抜粋

Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

勾配でなくプロンプトで教師を使う近接方策最適化

強化学習

知識蒸留は小さな生徒モデルで脆く、大教師のロジット模倣は鋭いモードに集中し汎化を損なう。本研究は教師を勾配ではなくプロンプト内で活用する近接方策最適化(ZPPO)を提案し、小生徒域での汎化改善を狙う。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-16 EN 推論・効率化抜粋

Rethinking Dataset Distillation for Classification: Do Distilled Sets Outperform Coresets?

分類のデータセット蒸留はコアセットを超えるか検証

機械学習検索拡張生成 (RAG)

データセット蒸留はコンパクトな訓練集合を合成しデータ中心の機械学習を効率化する。本論文は分類タスクで蒸留集合が実データ部分集合(コアセット)を本当に上回るのかを再検討し、その条件を問う。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-16 EN 安全性・評価抜粋

Fixed-Point Reasoners: Stable and Adaptive Deep Looped Transformers

ループ型Transformerの信号伝播問題を改善する手法FPRMを提案

Transformer

段階的推論に適したループ型アーキテクチャが、深さに起因する信号伝播問題を抱える点に着目し、pre-norm層と残差スケーリングで対処する論文。これらの改良に基づくTransformerモデルFPRMを提案すると述べる。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 安全性・評価抜粋

Analyzing and Encoding the Al-Mawrid Arabic-English Dictionary with the ISO Language Markup Framework and TEI Lex-0

Al-Mawrid辞書をISO LMF・TEI Lex-0で計算機可読化

レガシーな印刷辞書Al-Mawrid(アラビア語-英語)をISO言語マークアップ枠組みとTEI Lex-0で体系的にデジタル化・符号化する手法を提示。アラビア語の語彙基盤の不足を埋め、標準化された計算機用辞書へ変換する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 安全性・評価抜粋

RubricsTree: Scalable and Evolving Open-Ended Evaluation of Personal Health Agents across Health Memory and Medical Skills

RubricsTree、個人健康エージェントの開放型評価を拡張

AI エージェント Gemini GPT Meta ニューラルネットワーク

センサ指標を伴うLLMの個人健康エージェントは医療格差緩和に期待されるが、開放型評価のボトルネックが大規模臨床展開を妨げる。RubricsTreeは健康メモリと医療スキルにまたがるスケーラブルで進化的な開放型評価を提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 安全性・評価抜粋

A Red-Team Study of Anthropic Fable 5 & Opus 4.8 Models

Anthropic Fable 5・Opus 4.8の堅牢性を赤チーム評価

Anthropic ニューラルネットワーク

Anthropicの2つのフロンティアLLM(Fable 5、Opus 4.8)を対象に、複数系統の自動ジェイルブレイク攻撃に対する敵対的堅牢性を多カテゴリの有害意図分類体系上で評価した赤チーム研究。手法・数値は論文発表ベースで第三者検証は未確認と明記。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-16 EN 安全性・評価抜粋

The Stanford EDGAR Filings Dataset: Reconstructing U.S. Corporate and Financial Disclosures into Layout-Faithful and Token-Efficient Pretraining Data

SEC開示文書を再構成した金融向け事前学習データSEFDを公開

強化学習

高品質な長文コーパスが枯渇する中、SEC提出書類をレイアウト忠実なMultiMarkdownへ再構成したオープンデータセットStanford EDGAR Filings Dataset(SEFD)を提示する論文。金融言語モデルの学習・評価用に監査済み財務諸表などを提供すると述べる。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-06-16 EN 新モデル・リリース抜粋

DRFLOW: A Deep Research Benchmark for Personalized Workflow Prediction

個別化ワークフロー予測を測るDeep Researchベンチマークを提案

AI エージェント検索拡張生成 (RAG) ソフトウェア工学

Deep Researchシステムの多くが報告書や要約の生成に偏る一方、企業業務は具体的な行動手順の特定を要すると指摘し、個別化ワークフロー予測を評価するベンチマークDRFLOWを導入する論文。手順列としてのワークフロー予測能力を測ると述べる。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-16 EN 学習・ファインチューニング抜粋

Multi-Source Cybersecurity Logs: An ATT&CK-Labeled Dataset and SLM Evaluation

ATT&CK注釈付き多源セキュリティログ集と小型LM評価

ファインチューニング Llama 機械学習ニューラルネットワーク人間のフィードバックによる強化学習 (RLHF)

複数ソースのサイバーセキュリティログにMITRE ATT&CKラベルを付与したデータセットを構築し、小型言語モデル(SLM)での評価を行う研究。タイトルベースの中立要約で、詳細・数値は原論文発表ベース・第三者検証は未確認と明記。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗