新モデル・リリース A
268 件中 211〜240 件目を表示
-
Understanding the Behaviors of Environment-aware Information Retrieval検索器ごとにクエリ生成を適応させる RL 分析の論文RAG において検索器ごとに最適なクエリ生成戦略が異なる点に着目し、LLM が強化学習でクエリ生成を検索器の特性に適応させられるかを体系的に分析した arxiv 論文。abstract ベースの中立要約。
-
GIST-CMTF: Goal-State Inference for Causal Minimal Tool Filtering in LLM Agentsツール選択の誤目標実行を抑えるエージェント手法GIST-CMTFを提案ツール拡張型LLMエージェントの実行時ツール絞り込みで、曖昧な要求が複数の目標に対応し「誤目標実行」を招く課題を指摘する論文。因果的に必要なツールのみを提示するCMTFに目標状態の推論を加えたGIST-CMTFを提案し、要求が単一の記号的目標に対応済みという前提を緩めるとしている。
-
The Art of Mixology: Mixup-based Obfuscation for Privacy-Preserving Split Learning in Large Language ModelsLLMのスプリット学習向けプライバシー保護手法MIXGUARDを提案計算負荷の高い層をサーバへ委譲しつつ生データを手元に保つスプリット学習で、有用性・プライバシー・効率の両立を狙う mixup ベースの枠組み MIXGUARD を提案する論文とされる。トークン/表現レベルの難読化と適応的勾配摂動を併用すると報告。中立要約。
-
Decoupling Semantics from Distortions: Multi-Scale Two-Stream Vision-Language Alignment for AI-Generated Image Quality AssessmentAI生成画像の品質評価へ、意味と歪みを分離する二系統手法MST-CLIPIQAを提案視覚言語モデルを用いたAI生成画像の品質評価で、意味理解と低次の知覚的感度が単一表現に絡み合い微細な劣化を見落とす課題を指摘し、両者を明示的に分離する多スケール二系統枠組みMST-CLIPIQAを提案する論文。二つのCLIPエンコーダによる階層的な視覚言語アライメントを行うとしている。
-
OpenClaw-Skill: Collective Skill Tree Search for Agentic Large Language Modelsエージェント向けに再利用可能スキルを木探索で構築するCSTSを提案LLMエージェントのツール利用や多段推論を強化するため、再利用可能なスキルを自動構築する木探索枠組み Collective Skill Tree Search(CSTS)を提案する論文とされる。複数モデルの集合知で候補スキルの生成と評価を反復すると報告。中立要約。
-
GD$^2$PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy OptimizationGD²PO: 多目的RLの報酬衝突を動的サンプリングで緩和する手法を提案LLMのRL後訓練で複数報酬が競合し正負のシグナルが相殺する問題に対し、報酬をグループに分割しつつDAPOに倣って効果の薄いロールアウトを動的に除外するGD²POを提案。報酬衝突を抑え学習効率を高めると報告する。
-
P3B3: A Multi-Turn Conversational Benchmark for Measuring European and Brazilian Portuguese Variety Bias in LLMsポルトガル語の地域変種バイアスを測る基準P3B3を提案欧州・ブラジルのポルトガル語変種に対するLLMの偏りを測る、専門家編纂の基準 P3B3 と評価枠組みを提案する論文とされる。多くのモデルがブラジル変種へ強く偏ると報告し、より均衡した多言語表現の必要性を指摘。中立要約。
-
MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents個人秘書としてのPC操作エージェントを測る基準MyPCBenchを提案個人のPC環境やログイン済みアカウントを横断する「個人秘書」としてのPC操作エージェントを評価する基準 MyPCBench を提案する論文とされる。17の模擬Webアプリを含むLinux環境で184タスクを定義し、複数のクローズド/オープンモデルを評価したと報告。数値は原論文に基づく。
-
Revealing Artifacts via Noise Amplification: A Novel Perspective for AI-Generated Video DetectionAI生成動画の検出へ、ノイズ増幅で不自然な痕跡を可視化する新視点を提案テキストから動画を生成するモデルの普及で本物との判別が難しくなる中、生成動画特有の微細な痕跡をノイズ増幅により際立たせて検出する新たな視点を提案する論文。既存研究が主にGAN由来サンプルの検出に偏っていた点を補い、text-to-video生成物の検出可能性を検討するとしている。
-
Misinformation Propagation in Benign Multi-Agent Systems多エージェント系で誤情報が伝播し性能を低下させる現象を分析複数のLLMエージェントが対話で問題解決する系に意図的な誤情報を注入し、その伝播を調べた研究とされる。誤情報は単体性能を下げ討論を通じて残存するが、多くのエージェントが未汚染なら多エージェント討論が劣化を緩和すると報告。頑健性は構成や決定手順に依存するとする。
-
Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Modelsマスク拡散モデルに反復的な局所修正の推論力を引き出す手法を提案自己回帰モデルの逐次生成に対し、マスク拡散モデル(MDM)が持つ局所編集特性を活かす「Reflective Masking」を提案する論文とされる。軽量な後段学習で多ターンのマスク・再生成を可能にし、文脈に応じて出力を反復改良すると報告。手法・主張は原論文に基づく中立要約。
-
SCAR: Semantic Continuity-Aware Retrieval for Efficient Context Expansion in RAGRAGの文脈拡張を効率化する検索手法SCARを提案(本文取得不可)本記事は本文(abstract)が取得できず、表題のみから中立に要約する。検索拡張生成(RAG)における文脈拡張を効率化するため、意味的な連続性を考慮した検索手法「SCAR」を提案する論文とされる。具体的な仕組みや評価結果はタイトルからは確認できない。
-
FraudSMSWalker: Benchmarking Agentic Large Language Models for SMS-to-Webpage Fraud DetectionSMS経由の詐欺判定を測るベンチマークFraudSMSWalkerを提案メッセージからWebページへ誘導するクロスチャネルなSMS詐欺の判定を対象に、URLを隠した条件で評価するベンチマークFraudSMSWalkerを提案する論文。10種のシナリオにわたる699件の二言語チェーン(詐欺332・正常367)を含み、ドメインや評判の手がかりに頼れない設定でエージェント型LLMを評価するとする。
-
VeriGraph: Towards Verifiable Data-Analytic Agentsデータ分析エージェントの推論を検証可能にする VeriGraph を提案LLM ベースのエージェントはデータ集約的な分析に強い一方、線形なテキストの推論過程は監査が難しく出力を検証しにくい。生データ上の決定的計算と自然言語の主張に対する意味的推論が非構造的に絡み合い、数値結論の再現も質的判断の精査も困難になる。本論文は、実行中に異種の証拠を明示的な有向非巡回グラフ (DAG) として構築する追跡可能なニューロシンボリック推論枠組み VeriGraph を提案する。
-
The BD-LSC Dataset: Facilitating the Benchmarking of Models for Lexical Semantic Change Detection in Slang and Standard Usage語義変化検出の新ベンチマーク BD-LSC データセットを公開語の意味が時代とともに変化する様子 (語彙的意味変化、LSC) を計算的に検出する研究。既存のベンチマークや手法は、語が同時に意味を獲得・喪失する双方向の変化や、俗語と標準的意味を併せ持つ語の扱いが難しい。本論文は、3 つの時代区分で意味の獲得・喪失・安定を捉える双方向データセット BD-LSC など 2 つの補完的ベンチマークを導入し、評価を促進すると述べる。
-
人工知能学会「AIは人間を代替しない」 社会実装へ4提言 安保・著作権にも言及人工知能学会、設立40周年でAI社会実装へ4提言 安保・著作権にも言及人工知能学会は設立40周年にあたり、日本におけるAIの社会実装に向けた提言を発表した。AIは人間を代替するものではないとの立場を示し、社会実装を進めるための4つの提言を提示。安全保障や著作権をめぐる論点にも言及した。
-
Javaアプリ更新を1カ月→3日に爆速化 “ソースコード生成AI止まり”じゃない「IBM Bob」の仕組みIBM、Javaアプリ刷新を高速化するAI「IBM Bob」を発表IBMが発表したAIツール「IBM Bob」は、先行導入企業でJavaアプリのモダナイゼーションを30日から3日へ短縮したという。ソースコード生成にとどまらない仕組みが特徴とされる。
-
Sakana AI、初の商用プロダクト「Marlin」リリース その実力は?【出力レポート全文掲載】Sakana AI、初の商用プロダクト「Sakana Marlin」を提供開始Sakana AIがAI調査エージェント「Sakana Marlin」の提供を開始した。4月から提供してきたβ版を商用化したもの。公開に先立ちメディア向けハンズオンを実施し、事前に集めたテーマを基にAIが作成したレポートを報道陣へ公開した。
-
ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究ChatGPTとGoogle検索、学習効果が高いのは?8日間の実験で検証米ジョージア工科大学やミシガン大学などの研究者が、生成AIのチャットボットと検索エンジンのどちらが学習効果が高いかを8日間の実験で検証した論文を発表した。情報探索と学習に生成AIが与える影響を調べ、調べ方の違いが理解や定着にどう作用するかを論じている。
-
Introducing the OpenAI Partner NetworkOpenAI、1.5億ドル投資の「Partner Network」発表、企業AI導入を加速OpenAIは、世界各地のパートナー企業による企業向けAIの導入・展開・変革を支援する「Partner Network」を立ち上げ、1億5000万ドルを投じると発表した。構造化したパートナーエコシステムを通じ、エンタープライズ領域でのAI活用を加速させる狙い。
-
2027年までにAIエージェントでコーディングを行うチームの65%が、IDEが必要不可欠だとは考えなくなる。ガートナーの予想ガートナー、2027年までにAIエージェント開発チームの65%がIDE不要と判断と予想調査会社ガートナーは、エンタープライズのAIコーディングエージェント市場が拡大と競争再編の新段階に入ったと分析。2027年までに、AIエージェントでコーディングを行うチームの65%がIDEを不可欠とは考えなくなると予想した。
-
Sakana AI、初の商用プロダクト「Sakana Marlin」を提供開始Sakana AI、初の商用プロダクト「Marlin」提供開始、最大8時間の自律リサーチSakana AI が同社初の商用プロダクトとなる自律型リサーチアシスタント「Sakana Marlin」を提供開始した。調査テーマを指示するだけで最大約8時間にわたり自律的に仮説立案・情報収集・検証を繰り返し、構造化されたサマリースライドと数十ページの調査レポートを生成する。独自の長期推論技術に基づき、CSO(最高戦略責任者)が担うような重厚な戦略調査をAIが代替することを狙う。セルフサーブで即日利用でき、無料のPay per useからPro・Team・Enterpriseまで複数プランを用意する。
-
Amazon、Anthropicの最新AIについて懸念を伝えていた 米政権による停止命令に先立ち 関係筋Amazonジャシー氏、Anthropic最新AIの懸念を米政権に伝達Amazonのアンディ・ジャシーCEOが、Anthropicの最先端モデルのセキュリティリスクについてトランプ政権高官に懸念を示していた一人だと関係者が明らかにした。政権はその後、外国籍者による「Fable 5」「Mythos 5」の利用を禁じる命令を出していた。
-
luau-wasm 0.1a0luau-wasm 0.1a0 公開、LuauをWebAssemblyへRoblox発の型付きLua方言「Luau」をWebAssembly化した「luau-wasm」の初期版0.1a0が公開された。先述のPyodide向けWASM wheel公開の仕組みを利用して配布されているとされる。
-
「Claude Fable 5」「Mythos 5」全面停止 米政府の指令により Anthropicは早期復旧を宣言Anthropic、Fable 5/Mythos 5を全面停止 米指令受け早期復旧へAnthropicは6月12日、最上位モデル「Claude Fable 5」「Mythos 5」を全ユーザーで停止すると発表。米政府が安全保障を理由に外国籍者のアクセス全面停止を命じる輸出規制指令を出したため。同社は「誤解だ」として早期復旧を目指すとし、他モデルへの影響はないとする。
-
OpenAI WebRTC Audio Session, now with document contextSimon Willison、OpenAI WebRTC音声ツールに文書コンテキスト機能を追加Simon Willisonが、OpenAIのWebRTC realtime audio APIを使う自作の音声会話ツールを更新したと報告。「GPT-5級の推論を備えた初の音声モデル」を謳う新realtimeモデルへの切り替えに対応したほか、文書テキストを貼り付けてその内容についてブラウザ上で音声対話できるdocument context機能を追加した。
-
トヨタが抜かれる日――キオクシア首位奪取、2005年「時価総額トップ10」を振り返るキオクシア時価総額首位、トヨタ超え――MONOist週間注目ニュースMONOist編集部が2026年6月8日~12日に公開された記事から今週の注目ニュースを厳選。キオクシアが時価総額でトヨタを抜き首位を奪取した話題を軸に、2005年の「時価総額トップ10」を振り返り、約20年で変化した日本企業の勢力図を考察する週間まとめ。
-
TCS and Anthropic partner to bring Claude to regulated industriesAnthropic、TCSと提携し規制業界へClaudeを展開Anthropicは世界最大級のITサービス企業Tata Consultancy Services (TCS)との提携を発表。TCSは56か国5万人の自社従業員にClaudeを導入し、金融・医療・公共など規制業界向けのClaude搭載製品を開発するほか、Claude Partner Networkにも参加。高精度で監査可能なAIを求める規制業界への展開をTCSの知見と顧客網で加速する。
-
ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning医療MLLMの段階別ハルシネーションを診断するベンチマーク「ClinHallu」医療マルチモーダルLLMの推論で生じるハルシネーションを、視覚認識・知識想起・推論統合の段階別に切り分けて診断するベンチマーク「ClinHallu」を提案。7,031件の検証済みインスタンスに構造化推論トレースを付与し、段階置換介入で誤りの発生源を特定する。
-
AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy OptimizationAdaSR、入力を逐次処理する「ストリーミング推論」を提案大規模推論モデルが入力全体を読んでから考える従来手法に対し、入力到着に合わせて逐次推論する「AdaSR」を提案。階層的な相対方策最適化で、ストリーミング環境での推論を学習する。