新モデル・リリース A

268 件中 211〜240 件目を表示
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Understanding the Behaviors of Environment-aware Information Retrieval
    検索器ごとにクエリ生成を適応させる RL 分析の論文
    深層学習 埋め込み (Embeddings) 検索拡張生成 (RAG) 強化学習
    RAG において検索器ごとに最適なクエリ生成戦略が異なる点に着目し、LLM が強化学習でクエリ生成を検索器の特性に適応させられるかを体系的に分析した arxiv 論文。abstract ベースの中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    GIST-CMTF: Goal-State Inference for Causal Minimal Tool Filtering in LLM Agents
    ツール選択の誤目標実行を抑えるエージェント手法GIST-CMTFを提案
    AI エージェント 深層学習 推論 (Inference)
    ツール拡張型LLMエージェントの実行時ツール絞り込みで、曖昧な要求が複数の目標に対応し「誤目標実行」を招く課題を指摘する論文。因果的に必要なツールのみを提示するCMTFに目標状態の推論を加えたGIST-CMTFを提案し、要求が単一の記号的目標に対応済みという前提を緩めるとしている。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    The Art of Mixology: Mixup-based Obfuscation for Privacy-Preserving Split Learning in Large Language Models
    LLMのスプリット学習向けプライバシー保護手法MIXGUARDを提案
    ファインチューニング
    計算負荷の高い層をサーバへ委譲しつつ生データを手元に保つスプリット学習で、有用性・プライバシー・効率の両立を狙う mixup ベースの枠組み MIXGUARD を提案する論文とされる。トークン/表現レベルの難読化と適応的勾配摂動を併用すると報告。中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Decoupling Semantics from Distortions: Multi-Scale Two-Stream Vision-Language Alignment for AI-Generated Image Quality Assessment
    AI生成画像の品質評価へ、意味と歪みを分離する二系統手法MST-CLIPIQAを提案
    コンピュータビジョン 機械学習 検索拡張生成 (RAG)
    視覚言語モデルを用いたAI生成画像の品質評価で、意味理解と低次の知覚的感度が単一表現に絡み合い微細な劣化を見落とす課題を指摘し、両者を明示的に分離する多スケール二系統枠組みMST-CLIPIQAを提案する論文。二つのCLIPエンコーダによる階層的な視覚言語アライメントを行うとしている。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    OpenClaw-Skill: Collective Skill Tree Search for Agentic Large Language Models
    エージェント向けに再利用可能スキルを木探索で構築するCSTSを提案
    AI エージェント 検索拡張生成 (RAG) 強化学習
    LLMエージェントのツール利用や多段推論を強化するため、再利用可能なスキルを自動構築する木探索枠組み Collective Skill Tree Search(CSTS)を提案する論文とされる。複数モデルの集合知で候補スキルの生成と評価を反復すると報告。中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.LG (Machine Learning) · EN 新モデル・リリース 抜粋
    GD$^2$PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization
    GD²PO: 多目的RLの報酬衝突を動的サンプリングで緩和する手法を提案
    アルゴリズム・理論 強化学習 人間のフィードバックによる強化学習 (RLHF)
    LLMのRL後訓練で複数報酬が競合し正負のシグナルが相殺する問題に対し、報酬をグループに分割しつつDAPOに倣って効果の薄いロールアウトを動的に除外するGD²POを提案。報酬衝突を抑え学習効率を高めると報告する。
    元記事を読む (arXiv cs.LG (Machine Learning)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    P3B3: A Multi-Turn Conversational Benchmark for Measuring European and Brazilian Portuguese Variety Bias in LLMs
    ポルトガル語の地域変種バイアスを測る基準P3B3を提案
    欧州・ブラジルのポルトガル語変種に対するLLMの偏りを測る、専門家編纂の基準 P3B3 と評価枠組みを提案する論文とされる。多くのモデルがブラジル変種へ強く偏ると報告し、より均衡した多言語表現の必要性を指摘。中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents
    個人秘書としてのPC操作エージェントを測る基準MyPCBenchを提案
    AI エージェント Claude ニューラルネットワーク 強化学習
    個人のPC環境やログイン済みアカウントを横断する「個人秘書」としてのPC操作エージェントを評価する基準 MyPCBench を提案する論文とされる。17の模擬Webアプリを含むLinux環境で184タスクを定義し、複数のクローズド/オープンモデルを評価したと報告。数値は原論文に基づく。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 開発者ツール 抜粋
    Revealing Artifacts via Noise Amplification: A Novel Perspective for AI-Generated Video Detection
    AI生成動画の検出へ、ノイズ増幅で不自然な痕跡を可視化する新視点を提案
    強化学習
    テキストから動画を生成するモデルの普及で本物との判別が難しくなる中、生成動画特有の微細な痕跡をノイズ増幅により際立たせて検出する新たな視点を提案する論文。既存研究が主にGAN由来サンプルの検出に偏っていた点を補い、text-to-video生成物の検出可能性を検討するとしている。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Misinformation Propagation in Benign Multi-Agent Systems
    多エージェント系で誤情報が伝播し性能を低下させる現象を分析
    AI エージェント 強化学習 ソフトウェア工学
    複数のLLMエージェントが対話で問題解決する系に意図的な誤情報を注入し、その伝播を調べた研究とされる。誤情報は単体性能を下げ討論を通じて残存するが、多くのエージェントが未汚染なら多エージェント討論が劣化を緩和すると報告。頑健性は構成や決定手順に依存するとする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Multi-Turn Reflective Masking Elicits Reasoning in Mask Diffusion Models
    マスク拡散モデルに反復的な局所修正の推論力を引き出す手法を提案
    検索拡張生成 (RAG) ソフトウェア工学
    自己回帰モデルの逐次生成に対し、マスク拡散モデル(MDM)が持つ局所編集特性を活かす「Reflective Masking」を提案する論文とされる。軽量な後段学習で多ターンのマスク・再生成を可能にし、文脈に応じて出力を反復改良すると報告。手法・主張は原論文に基づく中立要約。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 資金・M&A 抜粋
    SCAR: Semantic Continuity-Aware Retrieval for Efficient Context Expansion in RAG
    RAGの文脈拡張を効率化する検索手法SCARを提案(本文取得不可)
    埋め込み (Embeddings) 検索拡張生成 (RAG)
    本記事は本文(abstract)が取得できず、表題のみから中立に要約する。検索拡張生成(RAG)における文脈拡張を効率化するため、意味的な連続性を考慮した検索手法「SCAR」を提案する論文とされる。具体的な仕組みや評価結果はタイトルからは確認できない。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    FraudSMSWalker: Benchmarking Agentic Large Language Models for SMS-to-Webpage Fraud Detection
    SMS経由の詐欺判定を測るベンチマークFraudSMSWalkerを提案
    AI エージェント Meta ニューラルネットワーク 強化学習
    メッセージからWebページへ誘導するクロスチャネルなSMS詐欺の判定を対象に、URLを隠した条件で評価するベンチマークFraudSMSWalkerを提案する論文。10種のシナリオにわたる699件の二言語チェーン(詐欺332・正常367)を含み、ドメインや評判の手がかりに頼れない設定でエージェント型LLMを評価するとする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    VeriGraph: Towards Verifiable Data-Analytic Agents
    データ分析エージェントの推論を検証可能にする VeriGraph を提案
    AI エージェント ニューラルネットワーク ソフトウェア工学
    LLM ベースのエージェントはデータ集約的な分析に強い一方、線形なテキストの推論過程は監査が難しく出力を検証しにくい。生データ上の決定的計算と自然言語の主張に対する意味的推論が非構造的に絡み合い、数値結論の再現も質的判断の精査も困難になる。本論文は、実行中に異種の証拠を明示的な有向非巡回グラフ (DAG) として構築する追跡可能なニューロシンボリック推論枠組み VeriGraph を提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    The BD-LSC Dataset: Facilitating the Benchmarking of Models for Lexical Semantic Change Detection in Slang and Standard Usage
    語義変化検出の新ベンチマーク BD-LSC データセットを公開
    埋め込み (Embeddings) GPT 機械学習 ニューラルネットワーク Transformer
    語の意味が時代とともに変化する様子 (語彙的意味変化、LSC) を計算的に検出する研究。既存のベンチマークや手法は、語が同時に意味を獲得・喪失する双方向の変化や、俗語と標準的意味を併せ持つ語の扱いが難しい。本論文は、3 つの時代区分で意味の獲得・喪失・安定を捉える双方向データセット BD-LSC など 2 つの補完的ベンチマークを導入し、評価を促進すると述べる。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • ITmedia AI+ · JA 新モデル・リリース 抜粋
    人工知能学会「AIは人間を代替しない」 社会実装へ4提言 安保・著作権にも言及
    人工知能学会、設立40周年でAI社会実装へ4提言 安保・著作権にも言及
    人工知能学会は設立40周年にあたり、日本におけるAIの社会実装に向けた提言を発表した。AIは人間を代替するものではないとの立場を示し、社会実装を進めるための4つの提言を提示。安全保障や著作権をめぐる論点にも言及した。
    元記事を読む (ITmedia AI+) ↗
  • ITmedia AI+ · JA 新モデル・リリース 抜粋
    Javaアプリ更新を1カ月→3日に爆速化 “ソースコード生成AI止まり”じゃない「IBM Bob」の仕組み
    IBM、Javaアプリ刷新を高速化するAI「IBM Bob」を発表
    IBMが発表したAIツール「IBM Bob」は、先行導入企業でJavaアプリのモダナイゼーションを30日から3日へ短縮したという。ソースコード生成にとどまらない仕組みが特徴とされる。
    元記事を読む (ITmedia AI+) ↗
  • ITmedia AI+ · JA 新モデル・リリース 抜粋
    Sakana AI、初の商用プロダクト「Marlin」リリース その実力は?【出力レポート全文掲載】
    Sakana AI、初の商用プロダクト「Sakana Marlin」を提供開始
    AI エージェント 強化学習
    Sakana AIがAI調査エージェント「Sakana Marlin」の提供を開始した。4月から提供してきたβ版を商用化したもの。公開に先立ちメディア向けハンズオンを実施し、事前に集めたテーマを基にAIが作成したレポートを報道陣へ公開した。
    元記事を読む (ITmedia AI+) ↗
  • ITmedia AI+ · JA 新モデル・リリース 抜粋
    ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究
    ChatGPTとGoogle検索、学習効果が高いのは?8日間の実験で検証
    生成 AI Google GPT
    米ジョージア工科大学やミシガン大学などの研究者が、生成AIのチャットボットと検索エンジンのどちらが学習効果が高いかを8日間の実験で検証した論文を発表した。情報探索と学習に生成AIが与える影響を調べ、調べ方の違いが理解や定着にどう作用するかを論じている。
    元記事を読む (ITmedia AI+) ↗
  • OpenAI Blog · EN 業界導入・応用 抜粋
    Introducing the OpenAI Partner Network
    OpenAI、1.5億ドル投資の「Partner Network」発表、企業AI導入を加速
    OpenAI
    OpenAIは、世界各地のパートナー企業による企業向けAIの導入・展開・変革を支援する「Partner Network」を立ち上げ、1億5000万ドルを投じると発表した。構造化したパートナーエコシステムを通じ、エンタープライズ領域でのAI活用を加速させる狙い。
    元記事を読む (OpenAI Blog) ↗
  • Publickey · JA 新モデル・リリース 抜粋
    2027年までにAIエージェントでコーディングを行うチームの65%が、IDEが必要不可欠だとは考えなくなる。ガートナーの予想
    ガートナー、2027年までにAIエージェント開発チームの65%がIDE不要と判断と予想
    AI エージェント 機械学習
    調査会社ガートナーは、エンタープライズのAIコーディングエージェント市場が拡大と競争再編の新段階に入ったと分析。2027年までに、AIエージェントでコーディングを行うチームの65%がIDEを不可欠とは考えなくなると予想した。
    元記事を読む (Publickey) ↗
  • Sakana AI Blog (ja) · JA 新モデル・リリース 抜粋
    Sakana AI、初の商用プロダクト「Sakana Marlin」を提供開始
    Sakana AI、初の商用プロダクト「Marlin」提供開始、最大8時間の自律リサーチ
    AI エージェント アルゴリズム・理論 推論 (Inference) ニューラルネットワーク 強化学習
    Sakana AI が同社初の商用プロダクトとなる自律型リサーチアシスタント「Sakana Marlin」を提供開始した。調査テーマを指示するだけで最大約8時間にわたり自律的に仮説立案・情報収集・検証を繰り返し、構造化されたサマリースライドと数十ページの調査レポートを生成する。独自の長期推論技術に基づき、CSO(最高戦略責任者)が担うような重厚な戦略調査をAIが代替することを狙う。セルフサーブで即日利用でき、無料のPay per useからPro・Team・Enterpriseまで複数プランを用意する。
    元記事を読む (Sakana AI Blog (ja)) ↗
  • ITmedia AI+ · JA 新モデル・リリース 抜粋
    Amazon、Anthropicの最新AIについて懸念を伝えていた 米政権による停止命令に先立ち 関係筋
    Amazonジャシー氏、Anthropic最新AIの懸念を米政権に伝達
    Anthropic
    Amazonのアンディ・ジャシーCEOが、Anthropicの最先端モデルのセキュリティリスクについてトランプ政権高官に懸念を示していた一人だと関係者が明らかにした。政権はその後、外国籍者による「Fable 5」「Mythos 5」の利用を禁じる命令を出していた。
    元記事を読む (ITmedia AI+) ↗
  • Simon Willison's Weblog · EN 新モデル・リリース 抜粋
    luau-wasm 0.1a0
    luau-wasm 0.1a0 公開、LuauをWebAssemblyへ
    Roblox発の型付きLua方言「Luau」をWebAssembly化した「luau-wasm」の初期版0.1a0が公開された。先述のPyodide向けWASM wheel公開の仕組みを利用して配布されているとされる。
    元記事を読む (Simon Willison's Weblog) ↗
  • ITmedia AI+ · JA 政策・規制 抜粋
    「Claude Fable 5」「Mythos 5」全面停止 米政府の指令により Anthropicは早期復旧を宣言
    Anthropic、Fable 5/Mythos 5を全面停止 米指令受け早期復旧へ
    Anthropic Claude
    Anthropicは6月12日、最上位モデル「Claude Fable 5」「Mythos 5」を全ユーザーで停止すると発表。米政府が安全保障を理由に外国籍者のアクセス全面停止を命じる輸出規制指令を出したため。同社は「誤解だ」として早期復旧を目指すとし、他モデルへの影響はないとする。
    元記事を読む (ITmedia AI+) ↗
  • Simon Willison's Weblog · EN 新モデル・リリース 抜粋
    OpenAI WebRTC Audio Session, now with document context
    Simon Willison、OpenAI WebRTC音声ツールに文書コンテキスト機能を追加
    GPT OpenAI
    Simon Willisonが、OpenAIのWebRTC realtime audio APIを使う自作の音声会話ツールを更新したと報告。「GPT-5級の推論を備えた初の音声モデル」を謳う新realtimeモデルへの切り替えに対応したほか、文書テキストを貼り付けてその内容についてブラウザ上で音声対話できるdocument context機能を追加した。
    元記事を読む (Simon Willison's Weblog) ↗
  • ITmedia AI+ · JA 新モデル・リリース 抜粋
    トヨタが抜かれる日――キオクシア首位奪取、2005年「時価総額トップ10」を振り返る
    キオクシア時価総額首位、トヨタ超え――MONOist週間注目ニュース
    MONOist編集部が2026年6月8日~12日に公開された記事から今週の注目ニュースを厳選。キオクシアが時価総額でトヨタを抜き首位を奪取した話題を軸に、2005年の「時価総額トップ10」を振り返り、約20年で変化した日本企業の勢力図を考察する週間まとめ。
    元記事を読む (ITmedia AI+) ↗
  • Anthropic News · EN 業界導入・応用 抜粋
    TCS and Anthropic partner to bring Claude to regulated industries
    Anthropic、TCSと提携し規制業界へClaudeを展開
    Anthropic Claude ニューラルネットワーク 強化学習
    Anthropicは世界最大級のITサービス企業Tata Consultancy Services (TCS)との提携を発表。TCSは56か国5万人の自社従業員にClaudeを導入し、金融・医療・公共など規制業界向けのClaude搭載製品を開発するほか、Claude Partner Networkにも参加。高精度で監査可能なAIを求める規制業界への展開をTCSの知見と顧客網で加速する。
    元記事を読む (Anthropic News) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning
    医療MLLMの段階別ハルシネーションを診断するベンチマーク「ClinHallu」
    ファインチューニング 機械学習 ソフトウェア工学
    医療マルチモーダルLLMの推論で生じるハルシネーションを、視覚認識・知識想起・推論統合の段階別に切り分けて診断するベンチマーク「ClinHallu」を提案。7,031件の検証済みインスタンスに構造化推論トレースを付与し、段階置換介入で誤りの発生源を特定する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization
    AdaSR、入力を逐次処理する「ストリーミング推論」を提案
    機械学習 検索拡張生成 (RAG) 強化学習 ソフトウェア工学 音声処理
    大規模推論モデルが入力全体を読んでから考える従来手法に対し、入力到着に合わせて逐次推論する「AdaSR」を提案。階層的な相対方策最適化で、ストリーミング環境での推論を学習する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗