業界導入・応用 C

83 件中 61〜83 件目を表示
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Understanding the Behaviors of Environment-aware Information Retrieval
    検索器ごとにクエリ生成を適応させる RL 分析の論文
    深層学習 埋め込み (Embeddings) 検索拡張生成 (RAG) 強化学習
    RAG において検索器ごとに最適なクエリ生成戦略が異なる点に着目し、LLM が強化学習でクエリ生成を検索器の特性に適応させられるかを体系的に分析した arxiv 論文。abstract ベースの中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • Lobste.rs (AI tagged) · EN 開発者ツール 抜粋
    Building llm-driven “ai” still requires domain knowledge
    LLM駆動ツール開発でもドメイン知識の言語化が不可欠と論じる
    ソフトウェア工学
    ある開発者が、顧客向けAPIを使って質問に答えるLLM駆動ツールを構築する中での知見を共有。作業の大きな部分はドメイン知識を捉えて文章化することだとし、知識を厳密な構造化形式へ落とし込む必要がない点で従来のAI世代より容易だが、まさにその知識整備こそ旧世代のAIがつまずいた所だと論じる。
    元記事を読む (Lobste.rs (AI tagged)) ↗
  • arXiv cs.LG (Machine Learning) · EN マルチモーダル 抜粋
    Gen-VCoT: Generative Visual Chain-of-Thought Reasoning via Diffusion-Based RGB Intermediate Representations
    Gen-VCoT: 視覚的思考連鎖をRGB中間表現で生成する多モーダル推論枠組み
    機械学習
    テキスト依存のCoTに代え、SAMセグメンテーション・Marigold深度・Qwen2-VLを段階的に用いてRGB画像を推論の中間表現として生成するGen-VCoTを提案。空間25%・深度50%の質問で改善する一方、単純な事実問では精度が下がり、CLEVRではテキストCoTが優位と報告する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.LG (Machine Learning) · EN 新モデル・リリース 抜粋
    GD$^2$PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization
    GD²PO: 多目的RLの報酬衝突を動的サンプリングで緩和する手法を提案
    アルゴリズム・理論 強化学習 人間のフィードバックによる強化学習 (RLHF)
    LLMのRL後訓練で複数報酬が競合し正負のシグナルが相殺する問題に対し、報酬をグループに分割しつつDAPOに倣って効果の薄いロールアウトを動的に除外するGD²POを提案。報酬衝突を抑え学習効率を高めると報告する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN 開発者ツール 抜粋
    Can LLM Agents Infer World Models? Evidence from Agentic Automata Learning
    LLM エージェントは世界モデルを推論できるか、オートマトン学習で検証
    AI エージェント アルゴリズム・理論 深層学習 ニューラルネットワーク 強化学習
    ツールを呼び出す LLM エージェントが、対話を通じて隠れた環境をどこまで解明できるかを評価する研究。隠れた決定性有限オートマトン (DFA) を、メンバーシップ問い合わせと等価性問い合わせを通じて推定させる設定を用い、タスク複雑度を制御できる試験環境を構築。最新 LLM を評価した結果、DFA の規模が大きくなると性能が急落し、推論特化モデルが明確に強いと報告する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 学習・ファインチューニング 抜粋
    SkillWiki: A Living Knowledge Infrastructure for Agent Skills
    エージェントスキルの生きた知識基盤「SkillWiki」を提案
    知識はWikipedia、ソフトウェアはGitHubで管理される一方、エージェントのスキルには大規模な生産・統治・進化のための基盤が欠けていた。本研究のSkillWikiは、多様な知識を出所の証跡に紐づく再利用可能なスキル資産へ変換し、スキルの整理・接地・継続的進化を支える「生きた知識基盤」である。知識の取り込みからスキル生産、来歴を意識した探索、統治、実行駆動の進化まで、スキルのライフサイクル全体を提示する。デモとソースコードは公開されているとする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN インフラ・ハードウェア 抜粋
    daVinci-kernel: Co-Evolving Skill Selection, Summarization, and Utilization via RL for GPU Kernel Optimization
    GPUカーネル最適化向けスキル共進化RL「daVinci-kernel」を提案
    AI エージェント ファインチューニング 強化学習
    GPUカーネル最適化は、機能的正しさを前提に実行効率を目的とする領域である。本研究は、スキルの発見と活用を動的に進化するスキルライブラリで結びつける強化学習フレームワークdaVinci-kernelを提案する。単一のLLMバックボーンを共有する3エージェント(BM25とLLM再ランクで技術を検索するスキル選択、CUDA/Tritonカーネルを生成するポリシー、成功例を再利用可能なスキルへ蒸留するスキル要約)を共同訓練し、実行検証で再現可能な高速化が確認されたスキルのみを追加するとする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • ITmedia AI+ · JA 新モデル・リリース 抜粋
    Javaアプリ更新を1カ月→3日に爆速化 “ソースコード生成AI止まり”じゃない「IBM Bob」の仕組み
    IBM、Javaアプリ刷新を高速化するAI「IBM Bob」を発表
    IBMが発表したAIツール「IBM Bob」は、先行導入企業でJavaアプリのモダナイゼーションを30日から3日へ短縮したという。ソースコード生成にとどまらない仕組みが特徴とされる。
    元記事を読む (ITmedia AI+) ↗
  • Cohere Blog · EN 資金・M&A 抜粋
    Cohere triples UK footprint with new London office to support R&D growth
    Cohere、ロンドン新オフィスで英国拠点を約3倍に拡張
    ニューラルネットワーク 強化学習
    カナダ発の AI 企業 Cohere が、ロンドンの新オフィス(100 New Oxford Street)へ移転し、英国拠点の規模を従来比でほぼ 3 倍に拡張すると発表した。英国・欧州の AI 人材と R&D 体制の強化、エンタープライズ向けの安全な「ソブリン AI」需要への対応を狙うとしている。
    元記事を読む (Cohere Blog) ↗
  • OpenAI Blog · EN 業界導入・応用 抜粋
    Introducing the OpenAI Partner Network
    OpenAI、1.5億ドル投資の「Partner Network」発表、企業AI導入を加速
    OpenAI
    OpenAIは、世界各地のパートナー企業による企業向けAIの導入・展開・変革を支援する「Partner Network」を立ち上げ、1億5000万ドルを投じると発表した。構造化したパートナーエコシステムを通じ、エンタープライズ領域でのAI活用を加速させる狙い。
    元記事を読む (OpenAI Blog) ↗
  • Sakana AI Blog (ja) · JA 新モデル・リリース 抜粋
    Sakana AI、初の商用プロダクト「Sakana Marlin」を提供開始
    Sakana AI、初の商用プロダクト「Marlin」提供開始、最大8時間の自律リサーチ
    AI エージェント アルゴリズム・理論 推論 (Inference) ニューラルネットワーク 強化学習
    Sakana AI が同社初の商用プロダクトとなる自律型リサーチアシスタント「Sakana Marlin」を提供開始した。調査テーマを指示するだけで最大約8時間にわたり自律的に仮説立案・情報収集・検証を繰り返し、構造化されたサマリースライドと数十ページの調査レポートを生成する。独自の長期推論技術に基づき、CSO(最高戦略責任者)が担うような重厚な戦略調査をAIが代替することを狙う。セルフサーブで即日利用でき、無料のPay per useからPro・Team・Enterpriseまで複数プランを用意する。
    元記事を読む (Sakana AI Blog (ja)) ↗
  • Simon Willison's Weblog · EN 開発者ツール 抜粋
    Statement on the US government directive to suspend access to Fable 5 and Mythos 5
    Willison、Fable 5/Mythos 5停止指令を「正気でない」と論評
    Anthropic Claude
    米政府が安全保障を理由に、外国籍者によるFable 5・Mythos 5へのアクセスを全面停止する輸出規制指令を出した件について、Simon Willisonが「正気とは思えない」と批判的に論評。指令の異例さと影響を指摘している。
    元記事を読む (Simon Willison's Weblog) ↗
  • ITmedia AI+ · JA 業界導入・応用 抜粋
    最新AI「Fable 5」でYouTube動画作ってみた 想像以上の出来に驚愕、ただし大きな弱点も
    最新AI「Fable 5」でYouTube動画を作成 高い出来も弱点露呈
    動画活用が広がる中、最新AI「Fable 5」を使って実際にYouTube向け動画を制作した検証記事。想像以上の完成度に驚く一方で、見過ごせない大きな弱点も明らかになったと報告している。
    元記事を読む (ITmedia AI+) ↗
  • Anthropic News · EN 業界導入・応用 抜粋
    TCS and Anthropic partner to bring Claude to regulated industries
    Anthropic、TCSと提携し規制業界へClaudeを展開
    Anthropic Claude ニューラルネットワーク 強化学習
    Anthropicは世界最大級のITサービス企業Tata Consultancy Services (TCS)との提携を発表。TCSは56か国5万人の自社従業員にClaudeを導入し、金融・医療・公共など規制業界向けのClaude搭載製品を開発するほか、Claude Partner Networkにも参加。高精度で監査可能なAIを求める規制業界への展開をTCSの知見と顧客網で加速する。
    元記事を読む (Anthropic News) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    AgentSpec: Understanding Embodied Agent Scaffolds Through Controlled Composition
    AgentSpec、エージェント足場を統制的に分解し検証
    AI エージェント 機械学習 強化学習
    推論・記憶・反省・行動などを組み合わせた「足場(scaffold)」型LLMエージェントを、統制された構成で分析するAgentSpecを提案。各構成要素の寄与を切り分けて理解する枠組み。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 開発者ツール 抜粋
    Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models
    Transformer音声モデルをエントロピー基準で説明可能にする手法
    音声処理 Transformer
    WhisperなどTransformerベースの音声認識(ASR)は高精度だが予測の解釈が難しい。既存の説明可能AI手法は忠実性や時間的精度に欠けると指摘し、エントロピーを手がかりに注意を可視化する説明手法を提案する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 業界導入・応用 抜粋
    When Good Verifiers Go Bad: Self-Improving VLMs Can Regress on New Tasks
    自己改善するVLMが検証器の悪化で新タスク性能を退行させる現象
    ニューラルネットワーク 人間のフィードバックによる強化学習 (RLHF)
    凍結した検証器で候補生成を採点し選好例を作る verifier 駆動の自己DPOは、自己改善型VLMで一般的な手法。本論文は、この設定で検証器が不適切だとモデルが新タスクで性能を退行させ得ること(Good Verifiers Go Bad)を示す。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.LG (Machine Learning) · EN インフラ・ハードウェア 抜粋
    A Statistical and Machine Learning Framework for Operational Threshold Detection and Deployable Dispatch Controller Development in Hydrogen Multi-Energy Systems
    水素マルチエネルギー系の運用閾値検出にML枠組み
    機械学習 強化学習
    水素ベースのマルチエネルギーシステム(H-MES)を特徴づける統計・機械学習の枠組みを提示。運用閾値の検出と、配備可能な配車制御器の開発を扱う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    When Errors Become Narratives: A Longitudinal Taxonomy of Silent Failures in a Production LLM Agent Runtime
    本番LLMエージェント runtime の「静かな障害」を縦断分類
    Meta
    LLMエージェントはジョブ実行・ツール呼び出し・記憶保持・結果送信を担う長寿命の自律 runtime として稼働しつつある。本論文はある永続システムを縦断的に調べ、見えにくい「静かな障害(silent failures)」の分類体系を提示する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    VISTA: View-Consistent Self-Verified Training for GUI Grounding
    GUI接地を視点一貫の自己検証で学習する「VISTA」
    強化学習 ソフトウェア工学
    GUI接地にGRPOを使うと単一視点のrolloutが全失敗か全成功に偏り学習信号が乏しくなる。本論文は複数視点で一貫性を取り自己検証する学習法「VISTA」を提案し、GUIグラウンディングの学習を安定化する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 推論・効率化 抜粋
    Securing the Future of IoMT in the Post-Quantum Era: An Edge-Native Federated Learning Approach
    ポスト量子時代の医療IoTをエッジ連合学習で守る手法
    深層学習
    医療IoT(IoMT)機器は厳しい資源制約下で機微な健康データを扱い、セキュリティとプライバシーが重要課題となる。連合学習はこれをさらに複雑化させる。本論文はポスト量子時代に向け、エッジネイティブな連合学習で安全性を確保する手法を提案する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • NVIDIA Developer Blog · EN 業界導入・応用 抜粋
    Deploy Long-Context Reasoning and Agentic Workflows with MiniMax M3 on NVIDIA Accelerated Infrastructure
    NVIDIA、MiniMax M3の長文脈推論とagenticワークフロー展開手法を解説
    生成 AI NVIDIA 検索拡張生成 (RAG)
    NVIDIAが開発者ブログで、MiniMax M3をNVIDIAアクセラレーテッドインフラ上に展開し、長文脈推論やagenticワークフローを実行する手法を解説した。テキストや画像などで分断されがちな企業AIパイプラインの統合を狙いとし、RAGを含む生成AI活用を視野に入れた内容となっている。
    元記事を読む (NVIDIA Developer Blog) ↗
  • arXiv cs.LG (Machine Learning) · EN 安全性・評価 抜粋
    Beyond the Training Distribution: Evaluating Predictions Under Distribution Shift and Selection Bias
    分布シフトと選択バイアス下の予測性能を事前評価
    アルゴリズム・理論 機械学習
    配備前に新環境での予測性能を理解することは被害防止に重要。分布シフトと選択バイアスという二つの劣化要因の下で予測を評価する枠組みを扱う。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗