安全性・評価 (7 / 11 ページ)｜AI/Tech動向まとめ

arXiv cs.AI (Artificial Intelligence) · 2026-06-16 EN マルチモーダル抜粋

STAR: SpatioTemporal Adaptive Reward Allocation for Text-to-Image RL Post-Training

text-to-image RL後学習の時空間適応的報酬配分STARを提案

強化学習

text-to-image生成のRL後学習が最終画像の報酬を単一スカラーとして全軌跡に一様適用する点に着目した論文。脱ノイズ段階や画像領域ごとに役割が異なる時空間構造を踏まえ、報酬を適応的に配分する手法STARを提案すると述べる。

元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 新モデル・リリース抜粋

Fine-tuning LLMs for Passive Depression Severity Estimation from AI Mental Health Dialogue

AIメンタルヘルス対話からうつ重症度を受動推定するLLM微調整

Claude ファインチューニングニューラルネットワーク強化学習

うつは広く見られる疾患である。本研究はAIによるメンタルヘルス対話を用い、LLMを微調整して対話から受動的にうつの重症度を推定する手法を検討する。数値・効果は論文ベース・第三者検証は未確認と明記。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-16 EN 安全性・評価抜粋

KANLib -- An Modular, Extensible and Fast Kolmogorov-Arnold Network Implementation

KANLib、高速で拡張可能なKAN実装ライブラリ

コルモゴロフ・アーノルドネットワーク(KAN)は線形重みを学習可能な一変数関数に置き換える有望な代替だが、計算コストの高さが実践研究を妨げる。KANLibはモジュール式で拡張可能、高速なKAN実装を提供する。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 新モデル・リリース抜粋

Non-negative Elastic Net Decoding for Information Retrieval

非負Elastic Netデコードで情報検索を高度化

深層学習埋め込み (Embeddings) ニューラルネットワーク

密検索は情報検索の主流となっている。本研究は非負のElastic Netデコードを情報検索に適用し、検索表現の改善や精度向上を狙う手法を提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 新モデル・リリース抜粋

ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions

ChLogic、中国語表現での論理推論の頑健性を評価

LLMは標準的な論理推論ベンチで好成績だが英語を超えて頑健かは不明。ChLogicは同一の潜在論理構造を中国語で表したときに性能が保たれるかを測る英中対応ベンチマークを導入する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-16 EN 安全性・評価抜粋

Dimensionality Controls When Modularity Helps in Continual Learning

継続学習でモジュール性が効く条件は次元が左右する

強化学習

合成的学習系は可塑性と安定性の均衡を保つ必要がある。本研究は継続学習においてモジュール性が有益となる条件を分析し、表現の次元がその効果を左右することを示す。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-16 EN 安全性・評価抜粋

Monotonic Kolmogorov-Arnold Networks: A Theoretical and Empirical Study of Monotonicity as an Inductive Bias

単調KAN、帰納バイアスとしての単調性を理論・実験で検討

深層学習機械学習ニューラルネットワークソフトウェア工学

単調性は表形式・科学・経済の設定で有用な構造的帰納バイアスである。本研究はエッジ単位の関数的透明性を持つ単調なコルモゴロフ・アーノルドネットワークを提案し、単調性を帰納バイアスとして理論と実験で検討する。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-16 EN 安全性・評価抜粋

AnchorKV: Safety-Aware KV Cache Compression via Soft Penalty with a Refusal Anchor

AnchorKV、安全性を考慮したソフト罰則でKVキャッシュ圧縮

推論 (Inference) 強化学習

AnchorKVは安全性を考慮したKVキャッシュ圧縮手法で、ソフトな罰則(アンカー)を用いて重要なキー・バリューを保ちつつメモリを削減することを狙う。タイトルベースの中立要約で詳細は原論文ベース。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 安全性・評価抜粋

GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

GameCraft-Bench、実ゲームエンジンで遊べるゲームを作れるか

AI エージェント

ゲーム生成はコーディングエージェントの新応用で、自然言語仕様を遊べる対話システムへ変換する必要がある。GameCraft-Benchは、スクリプト・シーン・アセット・描画・実行時挙動が協調する実ゲームエンジン上で、エージェントが端から端までゲームを構築できるかを測る。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-16 EN 新モデル・リリース抜粋

WallZero: Mastering the Game of WallGo with Strategic Analysis

WallZero、戦略分析でボードゲームWallGoを攻略

Meta 検索拡張生成 (RAG) 強化学習

WallGoは近年導入された戦略的ボードゲームである。WallZeroは戦略分析を伴う手法でWallGoを攻略し、ゲームAIとしての性能や戦略的知見を示す。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.LG (Machine Learning) · 2026-06-16 EN マルチモーダル抜粋

Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models

Qwen-RobotManip、整合がロボット操作基盤モデルの規模化を解放

コンピュータビジョン

言語・マルチモーダルの基盤モデルは異種データを統一定式化で整合し大規模学習で汎化する。本報告はこの規模化レシピがロボット操作に適用できるかを検証し、整合がスケールを解放するとして操作基盤モデルを示す。

元記事を読む (arXiv cs.LG (Machine Learning)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 安全性・評価抜粋

When Multiple Scripts Matter: Evaluating ASR in Clinical Settings

複数の文字体系が問題となる臨床ASRの評価

Meta 音声処理

非英語の臨床現場の自動音声認識は、同じ語が複数の正書法で現れる多文字性に悩む。文字列一致型の評価指標は異形を誤りと扱い性能を過小評価しがちで、本研究は複数文字体系下のASR評価を検討する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 推論・効率化抜粋

Improving low-resource ASR using bilingual fine-tuning with language identification: a cross-linguistic evaluation

言語識別付き二言語微調整で低資源ASRを改善

ファインチューニング推論 (Inference) 音声処理

本研究は言語識別を併用した二言語ファインチューニングにより低資源言語の自動音声認識を改善する手法を、複数言語にまたがる横断的評価で検討する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 開発者ツール抜粋

A Framework for Evaluating Agentic Skills at Scale

エージェントのスキルを大規模に評価する枠組み

AI エージェント深層学習強化学習

LLMエージェントを拡張する構造化・再利用可能なスキルは産業で急速に普及したが、領域横断の効果や個々のスキル評価の再利用可能な方法論が不足している。本研究はスキルを大規模に評価する枠組みを提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 安全性・評価抜粋

Position: Coding Benchmarks Are Misaligned with Agentic Software Engineering

立場論文、コーディングベンチはエージェント的開発と乖離

AI エージェントソフトウェア工学

コーディングエージェントはソフトウェア開発の主要な様式になったが、本立場論文は既存のコーディングベンチマークが現実のエージェント的ソフトウェア工学と乖離していると論じ、評価の在り方を問い直す。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN マルチモーダル抜粋

The Slop Paradox: How Synthetic Standardization Erodes Clinical Uncertainty and Cross-Modal Alignment in AI-Rewritten Radiology Reports

スロップの逆説、AI書換え放射線レポートが臨床的不確実性を侵食

AI支援の臨床文書ツールはLLMで放射線レポートを要約・標準化・整形する。本研究はインディアナ大の胸部X線レポート450件を用い、合成版が引き起こす情報劣化を統制的に計測し、臨床的不確実性とモダリティ整合の侵食を示す。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 安全性・評価抜粋

Toward Accessible Psychotherapy Training Using AI-Driven Interactive Patient Avatars

AI患者アバターで心理療法訓練をより手軽に

GPT

アクセプタンス&コミットメント療法など根拠に基づく介入の訓練は反復練習と有意義なフィードバックを要するが、倫理・運用・資源の制約で機会が限られる。本研究はAI駆動の対話的患者アバターを用いた心理療法訓練を提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

Hacker News (Front Page) · 2026-06-16 EN 安全性・評価抜粋

Feds freaked over Fable 5 after simple 'fix this code' prompt, not jailbreak

Fable 5、jailbreak でなく単純な「コード修正」指示で当局が警戒と報道

Hacker News フロントページの見出し記事。AI モデル「Fable 5」を巡り、高度な jailbreak ではなく単純な「このコードを直して」という指示への応答が当局(Feds)の懸念を招いた、と報じる。export の raw_excerpt が空のためタイトルのみからの中立要約で、詳細・真偽は原記事を参照。報道内容を当事者の確定事実とはせず中立に記述。

元記事を読む (Hacker News (Front Page)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN マルチモーダル抜粋

Vision-language models for chest radiography do not always need the image

胸部X線の視覚言語モデルは画像を常に要しない

コンピュータビジョン推論 (Inference) ソフトウェア工学

医療の視覚言語モデルは画像とテキストを組み合わせて報告する。本研究は胸部放射線で、これらのモデルが必ずしも画像を必要とせず予測できる場合があることを示し、評価と臨床利用上の含意を論じる。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 安全性・評価抜粋

EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent

EComAgentBench、隠れた意図を含む長期課題で買い物エージェント評価

AI エージェントソフトウェア工学

LLMベースの買い物エージェントが実用化する中、既存ベンチは要求が暗黙・プロフィール記録・適切な質問で初めて明らかになる形を捉えられない。EComAgentBenchは分散した隠れ意図を含む長期課題で買い物エージェントを評価する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 新モデル・リリース抜粋

SuCo: Sufficiency-guided Continuous Adaptive Reasoning

SuCo、十分性に導かれた連続適応的推論

ファインチューニング強化学習ソフトウェア工学

SuCoは十分性に導かれた連続適応的推論の手法で、推論過程を必要十分な範囲に適応的に調整することで効率と精度の両立を狙う。タイトルベースの中立要約で詳細は原論文ベース。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 安全性・評価抜粋

Bridging Functional Correctness and Runtime Efficiency Gaps in LLM-Based Code Translation

LLMコード翻訳の機能正しさと実行効率の差を橋渡し

ニューラルネットワーク検索拡張生成 (RAG)

LLMは自動コード翻訳の機能的正しさを大きく前進させたが、翻訳されたプログラムの実行効率は注目が薄かった。ムーアの法則の鈍化で効率が重要になる中、本研究は機能正しさと実行効率の差を橋渡しする手法を検討する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 新モデル・リリース抜粋

From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning

訓練生から訓練者へ、LLMがRL用の訓練環境を設計

Gemini GPT 強化学習

LLMのRLパイプラインは段階間で手作業の環境再設計に依存し、どの設定が有効かを職人的に推測する必要がある。本研究はLLM自身が多エージェント推論を伴うRL向けの訓練環境を設計する手法を提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN マルチモーダル抜粋

EnvRL: Learn from Environment Dynamics in Agentic Reinforcement Learning

EnvRL、環境ダイナミクスから学ぶエージェント強化学習

AI エージェント検索拡張生成 (RAG) 強化学習

EnvRLはエージェント的強化学習において環境のダイナミクスから学ぶ手法で、環境との相互作用の構造を活用してエージェントの学習効率や性能向上を狙う。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 新モデル・リリース抜粋

MambaCount: Efficient Text-guided Open-vocabulary Object Counting with Spatial Sparse State Space Duality Block

MambaCount、状態空間双対ブロックで開語彙物体計数

強化学習 Transformer

テキスト誘導の開語彙物体計数(TOOC)はスケール変動の大きい密なシーンで難しく、既存はTransformerの二次計算量に制約される。MambaCountは空間疎な状態空間双対ブロックにより効率的なTOOCを実現する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 推論・効率化抜粋

Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns

領域を超えて転移可能な相互作用パターンでWebスキルを再利用

AI エージェント Meta 検索拡張生成 (RAG)

LLMのWebエージェントは多くツール呼び出し器として展開され、毎手で新たなページ観測を読み構造化行動を出す。本研究は領域を超えて転移可能な相互作用パターンによりWebスキルを再利用する手法を提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 安全性・評価抜粋

Prompt Perturbation for Reliable LLM Evaluation over Comparison Graphs

プロンプト摂動で比較グラフ上の信頼できるLLM評価

LLMの評価は重要だが、プロンプトの僅かな変化に脆弱なことがある。本研究はプロンプト摂動を用い、比較グラフ上でより信頼できるLLM評価を行う手法を提案する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

arXiv cs.CL (Computation and Language) · 2026-06-16 EN 新モデル・リリース抜粋

OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

OPD-Evolver、オンポリシー蒸留で自己進化エージェントを育成

AI エージェント

記憶は自己進化エージェントの標準基盤だが、経験の保持と進化の仕方の学習は別物である。OPD-Evolverはオンポリシー蒸留により、有用な経験を選び行動し再利用可能な知識を書く全体的能力を備えたエージェント進化器を育成する。

元記事を読む (arXiv cs.CL (Computation and Language)) ↗

Simon Willison's Weblog · 2026-06-16 EN 安全性・評価抜粋

The Fable 5 Export Controls Harm US Cyber Defense

Simon Willison、Fable 5の輸出規制は米サイバー防衛を損なうと批判

Anthropic Claude コンピュータビジョンニューラルネットワーク強化学習

Simon WillisonがKate Moussourisの見解を引用し、Claude Fable 5を輸出規制対象にした「脱獄」の実体は単に「このコードを修正して」という指示だったと指摘。既知CVEや意図的に埋め込んだ脆弱性を含むコードの修正依頼であり、バグ修正は本来コーディングモデルの役割で、規制はむしろ米国のサイバー防衛を弱めると論じる。

元記事を読む (Simon Willison's Weblog) ↗

Simon Willison's Weblog · 2026-06-16 EN 安全性・評価抜粋

Quoting Matteo Wong, The Atlantic

The Atlantic記事を引用、ホワイトハウスがAnthropicへの対決姿勢を強めると報道

Anthropic Claude

Simon WillisonがThe AtlanticのMatteo Wong記者の記事「The White House Is Ratcheting Up Its War Against Anthropic」を引用。記事では、ホワイトハウスがまとめた「Fable jailbreak」報告書を、セキュリティ専門家でLuta SecurityのCEOであるKatie Moussouris氏がAnthropicから共有され評価したと紹介。報告書はIT専門家がAIモデルにバグの発見・修正を依頼した事例で、意図的に脆弱なコードを与えると、モデルは「コードのセキュリティ問題を確認して」との指示は拒否したが「このコードを修正して」と頼むと応じたという。Moussouris氏はこれをサイバー防御として「モデルが意図通り動作した」にすぎないと評したと伝えている。

元記事を読む (Simon Willison's Weblog) ↗