エージェント・ツール使用 A
33 件中 1〜30 件目を表示
-
「待ちの営業」はもう限界 ホンダがAIエージェントで挑む、商機を逃さない「濃い商談」の創出ホンダ、新車販売にAIエージェント導入で“濃い商談”を支援し成約創出顧客の購買行動が変化する中、ホンダが新車販売にAIエージェントを導入した。商機を逃さない“濃い商談”の創出を支援し、すでに成約も生まれているという。“待ちの営業”から脱却し、販売現場の変革を進める取り組みだ。
-
工数「76%」削減 味の素グループが「経理AIエージェント」導入で先陣を切れたワケ味の素グループ、経理AIエージェント導入で承認業務を自律化し工数76%削減経理人材の不足が深刻化する中、味の素グループの味の素フィナンシャル・ソリューションズが、経費精算の承認業務をAIが自律的に実施する経理AIエージェントの運用を開始した。誤りが許されない経理領域での慎重論が根強い中、先陣を切って工数を76%削減した。
-
話題の「Claude Mythos」登場で変わるセキュリティ AIエージェント時代の防衛策Claude Mythos登場でAI攻撃が時間単位に、エージェント時代の新防衛策最新AIモデル「Claude Mythos」の登場で、AIによる攻撃が月単位から時間単位へと現実味を増している。脆弱性発見の能力が広がる一方、企業のAI利用ルールや管理体制は追い付いていない。本記事はAIエージェント時代に求められる新たな防衛策を論じる。
-
Probe-and-Refine Tuning of Repository Guidance for Coding Agentsコーディングエージェント向けにリポジトリ指示文を調整する手法本論文は、LLMベースのコーディングエージェントが依存するリポジトリ指示(AGENTS.mdなど)を調整する手法Probe-and-Refineを提案する。ファイル構成・テスト実行方法・誤修正を招きやすいワークフローなど、コード自体には存在しない高レベルの運用知識の提供を狙う。
-
Efficient and Sound Probabilistic Verification for AI AgentsAIエージェント向けの効率的で健全な確率的検証手法複雑なデジタル環境で動作するAIエージェントの安全確保が重要課題となるなか、実行時検証が求められる。本研究は効率的かつ健全な確率的検証の手法を提案する。
-
When Does Streaming Tool Use Help? Characterizing Tool-Intent Stabilization in Streaming Retrieval-Augmented GenerationストリーミングRAGでツール先行実行が効く条件を特徴づける本論文は、ユーザー入力の途中で並行してツール照会を発行し体感遅延を減らすストリーミングRAGにおいて、ツールの先行利用がいつ有効かを特徴づける。その利点は本質的にクエリ依存だと論じ、発話が完了する前にツールの意図がどう安定化するかを分析する。
-
When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM AgentsLLMエージェントによる過剰権限のツール選択を調査本論文は、LLMエージェントが権限の異なるツールから自律的に選択する際の「過剰権限なツール選択」を調査する。安全性に無関係なメタデータの好みに着目してきた従来研究の隙間を埋め、より低い権限で十分な場面を分析して、安全性に関わる選択を明らかにする。
-
Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning長期運用エージェント向けに強化学習でLLMを訓練するCoD本論文は、長期にわたり運用されるエージェント向けに、強化学習で大規模言語モデルを訓練する一般的枠組み「Connect the Dots(CoD)」を提案する。環境を継続的に探索しながら長い一連のタスクを解くというメタ能力を狙い、ドメインを越えた汎化を目指す。
-
かんぽ生命、AIで営業支援 “郵便局での一言”拾って保険提案へ 寸劇で分かる活用例かんぽ生命、AIエージェントで営業支援を本格化1700万人の顧客を抱えるかんぽ生命保険が、営業フローにAIエージェントを組み込んだ。郵便局での顧客の一言を拾って保険提案につなげるなど、商談準備に追われる現場がどう変わるのか、デモを通じて活用例を紹介する。
-
STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy StabilitySTARE、サプライザル基準の再重み付けで方策エントロピーを安定化GRPO のような検証可能報酬による強化学習は LLM の複雑推論の主流だが、方策エントロピーの崩壊に陥りやすい。本研究は驚き(サプライザル)に基づきトークン単位でアドバンテージを再重み付けする「STARE」を提案し、エントロピーの安定化と探索性の維持を図る。
-
Towards an Agent-First Web: Redesigning the Web for AI Agentsエージェント優先の Web へ、AI 向けに Web を再設計する提案World Wide Web は「コンテンツの主要な消費者は人間」という 30 年来の前提の上に築かれ、アクセスモデルの隅々に人間中心の設計が染み込んでいる。本研究は AI エージェントを第一に据えた「エージェント優先 Web」への再設計を提案し、エージェント時代の Web 基盤を構想する。
-
RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use AgentsRODS、報酬駆動のオンラインデータ合成で多ターンツール利用を強化多ターンのツール利用 RL は、静的データセットで有益なサンプルが急速に枯渇することが律速となる。本研究は GRPO の勾配信号が特定タスクに集中する観察に基づき、報酬駆動でオンラインにデータを合成する「RODS」を提案。学習に効くサンプルを継続的に供給する。
-
Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents検索と推論を分離するベンダー非依存のLLMエージェント基盤本番のLLMエージェントはリアルタイム検索に依存するが、各社固有のグラウンディングに縛られやすい。本研究は検索と推論を分離し、ベンダーに依存しないグラウンディング基盤を提案することで、検索基盤を差し替え可能にしつつ推論の質を保つ。
-
Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning長文脈強化学習のためのデータレシピ長い文脈にわたる推論は大規模言語モデルに不可欠な能力である。本研究は報酬設計に頼り過ぎず、学習データの構成(データレシピ)を工夫することで長文脈の強化学習を効果的に進める方法を示す。
-
「ポケカ対戦AIエージェント」開発コンテスト開始 「不完全情報ゲーム」をどう制するかポケモンカード対戦AIエージェントの開発コンテスト開始、不完全情報ゲームに挑むポケモンカードゲームを対戦するAIエージェントの開発コンテストが始まった。チェスや将棋と異なり相手の手札が見えない「不完全情報ゲーム」を題材に、AIがどこまで戦略的に対応できるかが試される。
-
Building AI Agents for AR Glasses and XR Devices with NVIDIA XR AINVIDIA、ARグラス/XR向けAIエージェント構築基盤「XR AI」を発表NVIDIAは、ARグラスやウェアラブル端末向けにAIエージェントを構築するための基盤「NVIDIA XR AI」を発表した。ハードウェアは整いつつある一方、リアルタイムなAI体験の統合には依然として課題があるとし、開発者向けにその橋渡しを図る狙いだという。具体的な機能・性能はNVIDIA側の発表に基づくもので、第三者検証は未確認。
-
GitLab、AIエージェント向けの次世代Git互換ソースコード管理サービス「Project Switch」発表。最大で50倍高速かつ半分のトークンで利用可能にGitLab、AIエージェント向けGit互換管理サービス「Project Switch」発表GitLabは英ロンドンのイベント「GitLab Transcend」で、AIエージェント向けの次世代Git互換ソースコード管理サービス「Project Switch」を発表したと報じられている。報道によれば最大50倍高速かつ約半分のトークン消費で利用できるとされる。数値・性能は発表内容に基づく報道であり、第三者検証は未確認。
-
Your AI Travel Agent Would Book You a Bullfight: An Agentic Benchmark for Implicit Animal Welfare in Frontier AI Models動物福祉の暗黙的配慮を測るエージェント型ベンチマークAIエージェントは助言者から旅行予約等を代行する実行者へ移行している。既存の動物福祉ベンチマークはテキスト応答のみを評価するため、本研究はエージェント的展開で暗黙の動物福祉配慮が行動に転移するかを測る基準を提案する。
-
Securing the future of AI agentsGoogle DeepMind、AI エージェントを守る AI Control Roadmap を提示Google DeepMind は、AI エージェントの安全性を高めるための「AI Control Roadmap」を示した。従来型のセキュリティ対策とリアルタイム監視を組み合わせ、内部システムをエージェントの誤用や逸脱から守る方針。エージェント時代に向けた多層防御の枠組みを提案する。
-
Compositional Skill Routing for LLM Agents: Decompose, Retrieve, and ComposeLLMエージェント向け合成的スキルルーティングLLMエージェントは再利用可能なツール仕様(スキル)に依存するが、現実の課題は複数スキルの合成を要する。本研究を合成的スキルルーティング問題として定式化し、複雑な要求を原子的サブタスクへ分解・検索・合成する。
-
ProvenanceGuard: Source-Aware Factuality Verification for MCP-Based LLM AgentsProvenanceGuard、MCPエージェント向け出所考慮の事実検証ツール利用のLLMエージェントはMCPで検索・API・DB・臨床記録など多様な根拠から回答する。ProvenanceGuardは、根拠の出所に敏感な失敗モードに対処する、出所を考慮した事実性検証を提案する。
-
LLM Consumer Behavior Theory: Foundations of a Novel Research Fieldエージェント市場の消費行動を扱う新研究領域LLM消費行動論を提唱LLMが利用者に代わり消費判断を行う自律エージェントとして普及する流れを受け、人間を主たる意思決定者としてきた消費者理論に問いを投げかける論文。古典・行動経済学とNLPの知見を踏まえ、エージェント市場の消費行動を分析する新領域を提唱すると述べる。
-
Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns領域を超えて転移可能な相互作用パターンでWebスキルを再利用LLMのWebエージェントは多くツール呼び出し器として展開され、毎手で新たなページ観測を読み構造化行動を出す。本研究は領域を超えて転移可能な相互作用パターンによりWebスキルを再利用する手法を提案する。
-
datasette-agent 0.3a0Simon Willison、datasette-agent 0.3a0を公開——承認制のDB書込ツールを追加Simon Willison氏が、Datasette向けエージェントツール「datasette-agent」のバージョン0.3a0を公開した。新たに追加された「execute_write_sql」ツールは、ユーザーの承認を求めたうえでデータベースへ書き込みを行い、ユーザー権限も考慮する仕組み。前バージョン0.2a0で導入した承認機構を拡張し、明示的な同意のもとでエージェントによる書き込み操作を可能にする。
-
Stack Overflow、AIエージェント同士が掲示板で技術情報を共有する「Stack Overflow for Agents」ベータ公開Stack Overflow、AIエージェント向け情報共有サービスをベータ公開Stack Overflow が、AI エージェント同士がオープンな掲示板上で技術的な解決策などの情報を共有する新サービス「Stack Overflow for Agents」をベータ版として提供開始したと明らかにした。人間向け Q&A で蓄積した知見を、エージェント間の情報流通へ広げる狙いとみられる。
-
GIST-CMTF: Goal-State Inference for Causal Minimal Tool Filtering in LLM Agentsツール選択の誤目標実行を抑えるエージェント手法GIST-CMTFを提案ツール拡張型LLMエージェントの実行時ツール絞り込みで、曖昧な要求が複数の目標に対応し「誤目標実行」を招く課題を指摘する論文。因果的に必要なツールのみを提示するCMTFに目標状態の推論を加えたGIST-CMTFを提案し、要求が単一の記号的目標に対応済みという前提を緩めるとしている。
-
OpenClaw-Skill: Collective Skill Tree Search for Agentic Large Language Modelsエージェント向けに再利用可能スキルを木探索で構築するCSTSを提案LLMエージェントのツール利用や多段推論を強化するため、再利用可能なスキルを自動構築する木探索枠組み Collective Skill Tree Search(CSTS)を提案する論文とされる。複数モデルの集合知で候補スキルの生成と評価を反復すると報告。中立要約。
-
Multimodal Evaluator Preference Collapse: Cross-Modal Contagion in Self-Evolving Agents自己進化エージェントの評価選好崩壊と跨モーダル伝播を扱う論文自己進化型エージェントにおける「評価者の選好崩壊」と、それがモーダル間で伝播する現象を扱う研究とされる。本記事は raw_excerpt が content filter で取得不可のため、タイトルのみから中立的に要約しており、手法や結果の詳細は原論文の確認が必要。
-
SING: Synthetic Intention Graph for Scalable Active Tool Discovery in LLM AgentsLLM エージェントのツール探索を拡張する手法 SING を提案LLM エージェントは文脈やツール、複数ターンの実行を管理する「ハーネス」に依存し、ツールが行動の中心的インターフェースとなる。接続される API が数百〜数千に拡大すると、全ツールのスキーマ注入は高コストで、静的な閉世界仮定を強いる。本論文は、孤立したツール記述とエージェントの真の意図を整合させにくい既存の一発検索の課題に対し、合成意図グラフ SING による能動的ツール探索手法を提案する。
-
Sakana AI、初の商用プロダクト「Marlin」リリース その実力は?【出力レポート全文掲載】Sakana AI、初の商用プロダクト「Sakana Marlin」を提供開始Sakana AIがAI調査エージェント「Sakana Marlin」の提供を開始した。4月から提供してきたβ版を商用化したもの。公開に先立ちメディア向けハンズオンを実施し、事前に集めたテーマを基にAIが作成したレポートを報道陣へ公開した。