安全性・評価｜AI/Tech動向まとめ

arXiv cs.AI (Artificial Intelligence) · 2026-07-31 EN 新モデル・リリース

The Theoretical Foundation of Socratic Tests: Dynamic, Multimodal, Conversational Examinations

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-31 EN 新モデル・リリース

TerraNova: A Foundation Model for the Anthropocene

埋め込み (Embeddings) ニューラルネットワーク検索拡張生成 (RAG) Transformer

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-31 EN 新モデル・リリース

From Code Review to Code Critique: Intent, Drift, and Spotlight for AI-Generated Diffs at Scale

AI エージェント Meta ニューラルネットワーク

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

OpenAI Blog · 2026-07-31 EN 安全性・評価抜粋

Advancing responsible AI across Europe

OpenAI、欧州で責任あるAIガバナンスへの取り組みを紹介

Meta OpenAI

OpenAIは、安全性・セキュリティ・透明性・来歴（provenance）に関する自社の実践が、欧州における責任あるAIガバナンスをどう支えるかを解説した。規制対応と信頼構築に向けた方針を示している。

元記事を読む (OpenAI Blog) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-31 EN マルチモーダル

QR-Structured Thermal Triggers for Targeted Semantic Attacks on Infrared Vision-Language Models

コンピュータビジョン深層学習ソフトウェア工学

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-31 EN 新モデル・リリース

ModelEquivBench: Certifying Multi-Relational Evaluation of LLM-Generated Optimization Models

Claude GPT ニューラルネットワーク

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-31 EN 新モデル・リリース

Bridging the Question-Answer Gap in Retrieval-Augmented Generation: Hypothetical Prompt Embeddings

埋め込み (Embeddings) 検索拡張生成 (RAG) ソフトウェア工学

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-31 EN 安全性・評価

RTLCurator: Label-Efficient Data Curation for RTL Generation

検索拡張生成 (RAG) ソフトウェア工学

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-31 EN エージェント・ツール使用

Tool Specifications Matter: Uncovering and Mitigating Safety Risks in AI Agents

AI エージェント深層学習推論 (Inference) 検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-31 EN 安全性・評価

Don't Mix Rewards, Mix Policies: Policy Decomposition and Optimization for Multi-Reward RL

推論 (Inference) 強化学習ソフトウェア工学

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-31 EN マルチモーダル

When Model Priors Conflict with Visual Evidence: Mitigating Commonsense-Driven Hallucinations by Selective Prior Calibration

ソフトウェア工学

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-31 EN 学習・ファインチューニング

Learning Latent Reasoning Traces for Scalar Reward Models End-to-End

検索拡張生成 (RAG) 強化学習人間のフィードバックによる強化学習 (RLHF)

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-31 EN 推論・効率化

SERUM: State Extraction and Refinement for User Modeling

埋め込み (Embeddings) 推論 (Inference) ニューラルネットワーク

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

ITmedia AI+ · 2026-07-31 JA 新モデル・リリース抜粋

Google、ロボット向けAI「Gemini Robotics 2」発表　ヒューマノイドの全身制御や指先作業を実現

Google、ロボット向けAI「Gemini Robotics 2」発表、全身制御や指先作業に対応

Gemini Google 推論 (Inference) ロボティクス

GoogleとGoogle DeepMindは、ロボット向けAIモデル群「Gemini Robotics 2」を発表した。ヒューマノイドの全身制御や指先での微細な作業、複数ロボットの連携に対応する。高次の「脳」として機能する推論モデル「ER 2」や軽量版を含む構成となっている。

元記事を読む (ITmedia AI+) ↗

NVIDIA Developer Blog · 2026-07-30 EN エージェント・ツール使用抜粋

Four Ways to Deploy More Secure AI Agents

NVIDIA、より安全なAIエージェント導入の4つの方法を提示

AI エージェント生成 AI NVIDIA

NVIDIAは、AIエージェントをより安全に本番導入するための4つのアプローチを解説した。権限管理やガードレール、監視など、エージェント運用時のセキュリティリスクを抑える実践的な指針を示している。

元記事を読む (NVIDIA Developer Blog) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN エージェント・ツール使用

Benchmarks Are Not Validation: A System-Level View of Financial LLM Applications

生成 AI 強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 新モデル・リリース

Benchmarks Are Not Monolithic: Sample-Level Auditing and Orchestration for LLM Evaluation

機械学習 Meta ニューラルネットワーク

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN 安全性・評価

PAC-MAN: Perception-Aware CBF-RL for Whole-Body Safety in Humanoid Dodgeball

強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 安全性・評価

Inducing language models to assert their own consciousness restores human beliefs and values

ファインチューニング

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN 安全性・評価

PAIChecker: Uncovering and Checking PR-Issue Misalignment in SWE-Bench-Like Benchmarks

ソフトウェア工学

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN 推論・効率化

APO: Unsupervised Atomic Policy Optimization for 3D Structure Prediction of Atomic Systems

推論 (Inference) 人間のフィードバックによる強化学習 (RLHF)

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN 新モデル・リリース

Agents That Certify Their Own Exploits: Confidence-Scheduled Restricted Responses for Safe Opponent Exploitation

AI エージェント

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-07-30 EN 新モデル・リリース

Creative Transformation in Literary Texts: Modelling Change Across Representational Levels

強化学習

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN 安全性・評価

InfoOps Bench: A live information operations safety benchmark

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN 新モデル・リリース

Machines that know they are aging: a framework for hardware-aware autonomous intelligence

推論 (Inference) ニューラルネットワークロボティクス

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.AI (Artificial Intelligence) · 2026-07-30 EN 安全性・評価

QQWorld: Quantile-Quantile Matching for World Model Regularization

深層学習ニューラルネットワーク検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 新モデル・リリース

Hierarchical Multilevel Monte Carlo for Order-Optimal Neural Actor-Critic in Average-Reward CMDPs

AI エージェント機械学習検索拡張生成 (RAG) 強化学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 新モデル・リリース

LEDGERMIND: Provenance-Constrained Multimodal Agentic Reasoning with a Structured Evidence Ledger

AI エージェントニューラルネットワーク強化学習ソフトウェア工学

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

Anthropic News · 2026-07-30 EN 安全性・評価抜粋

Investigating three real-world incidents in our cybersecurity evaluations

Anthropic、サイバーセキュリティ評価で実世界3件の事例を調査

Claude 機械学習 OpenAI 検索拡張生成 (RAG) 強化学習

AnthropicのFrontier Red Teamは、自社のサイバーセキュリティ評価に関連する実世界の3件のインシデントを調査した結果を公表した。モデルの悪用リスクや評価手法の妥当性を検証し、フロンティアモデルの安全性向上に役立てる。

元記事を読む (Anthropic News) ↗

arXiv cs.LG (Machine Learning) · 2026-07-30 EN 安全性・評価

Uncertainty quantification for trustworthy deep learning: Methods and measures

深層学習ニューラルネットワーク強化学習

元記事を読む (arXiv cs.LG (Machine Learning)) ↗