業界導入・応用 C
83 件中 31〜60 件目を表示
-
GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents多主体共有メモリのガバナンスを測る「GateMem」LLMエージェントのメモリ評価は単一ユーザーを前提とすることが多く、複数主体が共有するメモリの統制は見落とされがちである。GateMemは複数主体が共有するメモリのガバナンス(アクセス制御や管理)を評価するベンチマークを提供する。
-
ForecastBench-Sim: A Simulated-World Forecasting Benchmark模擬世界で予測力を測る「ForecastBench-Sim」汎用AIの予測ベンチマークは現実世界の事象を題材にするため、評価の再現や統制が難しい。ForecastBench-Simはシミュレートされた世界を用いた予測ベンチマークを提案し、統制された条件下でAIの予測能力を評価できるようにする。
-
日立、OpenAIとの連携を本格化 「Codex」でレガシーシステム刷新、サイバー防衛も日立、OpenAIとの連携を本格化 Codexでレガシー刷新・サイバー防衛へ日立はOpenAIとの連携を本格化し、コード解析AI「Codex」と自社のシステム開発ノウハウを組み合わせる。既存コードから上流仕様を可視化し、新システムへの移行テストまでの一連の工程をAIで支援するアプローチの確立を目指すほか、サイバー防衛分野での活用も掲げる。
-
PLaMo-3.0-Prime-β を LLM 開発の現場で使うPreferred Networks、PLaMo-3.0-Prime-β の実開発活用法を紹介Preferred Networks は自社の大規模言語モデル PLaMo の開発を継続しており、最新版 PLaMo-3.0-Prime-β を実際の LLM 開発現場で活用する方法を紹介した。モデル学習だけでなく付随する多様な作業を含め、高性能 LLM を効率的に開発するための実践的な知見を共有する。
-
LLM Serving Fairness: No more noisy neighboursCohere、マルチテナント LLM 提供で計算資源の公平配分を実現Cohere は、LLM 提供基盤で各テナントが計算資源を公平に得られるようにする仕組みを解説した。特定利用者が資源を占有する「ノイジーネイバー」問題を抑え、全テナントに公平な処理能力を割り当てる設計を紹介。安定したマルチテナント運用の実現を狙う。
-
セルフ給油、実はスタッフが手動で許可していた!? コスモ石油の「AI監視」は消えゆくガソリンスタンドを救うかコスモ石油とELEMENTS、給油許可をAI判断する監視システムを共同開発従来のセルフ式ガソリンスタンドでは、利用者が給油ノズルを手にした後もスタッフが安全確認のうえで給油を許可している。コスモ石油マーケティングとELEMENTSは、この監視業務をAIで支援し、AIが給油許可を判断する監視システムを共同開発した。背景には人手不足やサービスステーション数の減少といった業界課題があるという。導入効果は記事・両社発表に基づく。
-
Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement汎用ロボット方策を推論時に検証・自己改善する枠組みVERITASを提案汎用ロボット方策を生成器とし、勾配を使わない視覚検証器が推論時に各行動を評価する生成器・検証器フレームワークVERITASを提案する論文。追加学習なしで推論時に方策を誘導して性能を高め、自律的な方策改善も可能になると論じる。
-
Analyzing and Encoding the Al-Mawrid Arabic-English Dictionary with the ISO Language Markup Framework and TEI Lex-0Al-Mawrid辞書をISO LMF・TEI Lex-0で計算機可読化レガシーな印刷辞書Al-Mawrid(アラビア語-英語)をISO言語マークアップ枠組みとTEI Lex-0で体系的にデジタル化・符号化する手法を提示。アラビア語の語彙基盤の不足を埋め、標準化された計算機用辞書へ変換する。
-
All Smoke, No Alarm: Oracle Signals in Agent-Authored Test CodeAIエージェント生成テストコードの検証力の弱さを分析した研究AIコーディングエージェントが生成するテストコードに着目し、アサーションを欠くテストファイルは挙動を検証しないため、テスト存在を前提とする品質ゲートが検証強度を過大評価すると論じる論文。エージェント作成PRのテスト検証力を評価すると述べる。
-
Memory as a Wasting Asset: Pricing Flash Endurance for Embodied Agents, and the Limits of Doing Soフラッシュ耐久を消耗資産として価格付けする実体エージェント論ロボットのフラッシュ耐久は再生不能な在庫で、書き込みごとに数千回の消去サイクルを消費し回復しない。本論文は実体エージェントのフラッシュ耐久を価格付けする枠組みと、その限界を論じる。
-
Knowledge Reutilization in Meta-Reinforcement Learningメタ強化学習で知識を再利用する転移フレームワークを提案既存のメタ強化学習が課題推論と身体固有の制御を結合しがちな点に着目し、簡略化したエージェントで課題レベルの知識を学び異種エージェントへ転移する枠組みを提案する論文。ベイズ非パラメトリック事前分布で潜在課題モードを整理すると述べる。
-
Ternary Mamba: Grouped Quantization-Aware Training of W1.58A16 State Space ModelsTernary Mamba、1.58ビット重みのQATで状態空間を量子化状態空間モデルMambaに対し、重みを三値(W1.58)・活性を16ビットとする量子化認識訓練(QAT)をグループ単位で行うTernary Mambaを提案。低ビットでの効率的な系列モデルの学習・推論を狙う。
-
PseudoBench: Measuring How Agentic Auto-Research Fuels PseudosciencePseudoBench、自律研究エージェントが擬似科学を助長する度合いを測定LLMベースのエージェントが自律的な科学研究に入る中、擬似科学への耐性が重要になる。PseudoBenchは、もっともらしいが誤った研究を生み学術文献を汚染し得る挙動を測る敵対的ベンチマークを提案する。
-
INI-VPINN: A Variational Physics-Informed Neural Network with Implicit Neumann and Interface Handling for Multi-Material Domains with Geometric SingularitiesINI-VPINN、多材料・幾何特異点を扱う変分PINNINI-VPINNは弱形式のPhysics-Informed Neural Network手法で、ノイマン境界や界面条件を変分定式化に自然に取り込む。幾何的特異点を持つ多材料領域での解析を狙う。
-
Predictive Analytics in E-Commerce for CustomerBehavior Forecasting using hybrid Ret-DNN withXGBoost ModelEC顧客行動予測にRet-DNNとXGBoostのハイブリッドEC事業者は顧客行動の理解と将来購買の予測に苦戦している。本研究は予測分析として、Ret-DNNとXGBoostを組み合わせたハイブリッドモデルにより顧客行動予測を行う手法を提案する。
-
Dynamic Rollout Editing for Reducing Overthinking in RL-Trained Reasoning Models動的ロールアウト編集でRL推論モデルの過剰思考を抑制長い連鎖思考は性能を上げるが、正解到達後も不要な推論を続ける過剰思考が起きる。本研究はGRPO型強化学習の観点からこれを捉え、動的なロールアウト編集により過剰思考を削減する手法を提案する。
-
OpenAIの高度AIでソフトバンクの脆弱性を1万件発見 孫正義氏「大変な危機」 日本の重要インフラ企業へ診断サービス提供ソフトバンク、OpenAIのAI活用の脆弱性診断「Patching as a Service」発表ソフトバンクグループは6月16日、OpenAIの「GPT-5.5 Cyber」などを活用したサイバーセキュリティ対策サービス「Patching as a Service」を発表した。企業システムに疑似的な攻撃を行って脆弱性を検出し、修復方針の策定から実装提案まで一気通貫で提供する。国内の重要インフラを支える一部企業に優先提供するとし、孫正義氏は脅威の深刻さに危機感を示したという。
-
EnvRL: Learn from Environment Dynamics in Agentic Reinforcement LearningEnvRL、環境ダイナミクスから学ぶエージェント強化学習EnvRLはエージェント的強化学習において環境のダイナミクスから学ぶ手法で、環境との相互作用の構造を活用してエージェントの学習効率や性能向上を狙う。
-
Prompt Perturbation for Reliable LLM Evaluation over Comparison Graphsプロンプト摂動で比較グラフ上の信頼できるLLM評価LLMの評価は重要だが、プロンプトの僅かな変化に脆弱なことがある。本研究はプロンプト摂動を用い、比較グラフ上でより信頼できるLLM評価を行う手法を提案する。
-
Predicting model behavior before release by simulating deploymentOpenAI、配備前にモデル挙動を予測する Deployment Simulation を発表OpenAI は、AI モデルを実際に配備する前にその挙動を予測する手法「Deployment Simulation」を発表した。実際の会話データを用いてモデルの応答を事前にシミュレートし、安全性と評価の精度向上を図るとしている。なお本内容は OpenAI 自身の発表に基づくもので、効果や数値は第三者による検証が未確認。
-
月2000時間のムダをなくす大阪ガスらのNotion×AI活用 「使われない情報」の生かし方大阪ガスら、Notion×AIで月2000時間削減 埋もれた情報を知識資産に「あの資料はどこ」という情報探索の負担を、NotionとAIの活用で大幅に軽減した大阪ガスら2社の事例を紹介。月2000時間の業務削減を実現し、埋もれた情報を組織の知識資産へと変える取り組みを通じて、属人化を防ぐ仕組みづくりのポイントを分かりやすく解説する。
-
生成AI×3D CADでどこまでできるか試してみた生成AI×3D CADを検証 Autodesk Fusionで3Dモデル作成を試す生成AIの活用が文章・画像・動画にとどまらず3D CAD分野にも広がりつつある。自然言語の指示だけで3Dモデルのたたき台を作れる環境が登場し始めるなか、記事はAutodesk Fusionの「Autodesk Assistant」を使ってペットボトルの3Dモデル作成を実際に試し、生成AI×3D CADの可能性と現時点の課題を紹介する。
-
300億円は「ROI不問」 Olive、Trunkを仕掛けるSMBC、新規事業の神髄は「撤退」にアリSMBC、生成AIに500億円投資 新規事業の神髄は「撤退」にありOliveやTrunkを成長軌道に乗せ、生成AI活用へ500億円の投資計画を掲げる三井住友フィナンシャルグループ。約10年前はモバイル対応で他行に後れを取っていた同社が、挑戦を次々と形にする組織へ変貌した背景を追う。記事は新規事業の神髄を「撤退」の判断に見いだし、堅実なメガバンクの変革プロセスを紹介する。
-
The Value Axis: Language Models Encode Whether They're on the Right TrackLLM内部に戦略の成否を符号化する「価値軸」を発見Qwen3-8Bの内部活性を分析し、現在の戦略が目標を達成できる見込みを表す「価値軸」が存在することを示した研究。この軸は確信度の高低、バックトラッキングの有無、正誤コードを区別する。価値を高める方向に操作すると自己修正が抑制され、低める方向では探索的な挙動が誘発される。DPOが報酬対象の行動の内部価値を高めることも確認した。
-
ROVE: Unlocking Human Interventions for Humanoid Manipulation via Reinforcement LearningROVE、不完全な人手介入から学ぶヒューマノイド操作のRL枠組みVision-Language-Action(VLA)モデルの事後学習で重要な人手介入は、ヒューマノイドの全身運動や器用な手の制御の難しさから軌跡が最適でないことが多い。ROVEは介入データ収集パイプラインに加え、楽観的価値推定(OVE)で混合品質の軌跡から高価値な行動を優先し、さらにクロス身体の人間動画で価値推定を頑健化するRL枠組みを提案する。
-
A Causal Model of Theory of Mind in Conflict for Artificial Intelligence対立場面で心の理論をいつ働かせるべきかを定式化する構造的因果モデルを提案心の理論(ToM)は他者に心的状態を帰属し予測・推論に用いる能力で、人と機械の統合に不可欠とされる。既存の AI-ToM モデルは「どう」心を読むかを扱うが、「いつ」働かせるべきかはほぼ未解明だった。本論文は、対立においてどの状況・エージェント条件下で ToM の関与が因果的に正当化されるかを問い、ToM を常時稼働ではなく状況・エージェント条件で起動する機構として有向非巡回グラフ(DAG)による構造的因果モデルで定式化すると述べる。
-
CrossMaps: Confidence-Aware Open-Vocabulary Semantic Mapping for Rover Navigationローバー航法向け、信頼度を考慮した開語彙意味地図CrossMapsを提案ローバーは知覚により物体とセンサ品質(測距信頼性、照明アーティファクト、データ密度等)を符号化する空間地図を維持し、部分観測下でのデータ融合・埋め込み更新・航法を導く。本研究はRGB-Dから言語で問い合わせ可能な地図を構築するリアルタイムの信頼度考慮型・開語彙意味マッピングCrossMapsを提案。VLMaps系手法を基に多スケールCLIP埋め込みと信頼度考慮融合、二重メモリ構造を統合するとする。
-
Exploring Extrinsic and Intrinsic Properties for Effective Reasoning with Code Interpreterコードインタープリタ推論を支える内在・外在特性を分析した論文コードインタープリタ(CI)を用いた LLM 推論について、外在特性(重要トークン)と内在特性(コード固有の認知的振る舞い)の二つの観点から分析した論文。著者らは、より強い CI 推論モデルほど重要トークンや、検証・バックトラッキング・後ろ向き連鎖といった認知的振る舞いが多く現れると報告し、これらを推論時・学習時に活用する方法を検討したと論じる。abstract ベースの中立要約。
-
Beyond Models: Reflections on Engineering AI-enabled Systems in a Project-Based CourseAI搭載システムの工学教育を扱うプロジェクト型講義の実践を報告AI搭載システムの工学教育が、現実的な制約下でAI部品を本格的なソフトウェアアーキテクチャへ統合する課題を扱う必要がある点に着目する論文。機械学習の講義がモデル開発に偏り学生が設計・配備・監視の経験を欠きがちな現状を踏まえ、ブレーメン大学の修士向けプロジェクト型講義の設計と実施を振り返り報告するとしている。
-
Does Traversal Order Matter? A Systematic Study of Tree Traversal Methods in Transformer GrammarsTransformer Grammars の木探索順序を比較分析する論文Transformer Grammars における構文木の線形化順序に着目し、従来の深さ優先に加え幅優先や新規の Production-Rule Traversal を比較検討する arxiv 論文。abstract ベースの中立要約。