新モデル・リリース A
260 件中 151〜180 件目を表示
-
Beyond Visual Cues: CoT-Enhanced Reasoning for Semi-supervised Medical Image SegmentationCoT強化推論で半教師あり医用画像セグメンテーション半教師あり医用画像セグメンテーションは注釈不足を一貫性正則化で緩和するが、既存手法は画素レベルの視覚的一致に依存しがち。本研究は連鎖思考(CoT)で推論を強化し、視覚的手掛かりを超えた性能を狙う。
-
KANLib -- An Modular, Extensible and Fast Kolmogorov-Arnold Network ImplementationKANLib、高速で拡張可能なKAN実装ライブラリコルモゴロフ・アーノルドネットワーク(KAN)は線形重みを学習可能な一変数関数に置き換える有望な代替だが、計算コストの高さが実践研究を妨げる。KANLibはモジュール式で拡張可能、高速なKAN実装を提供する。
-
Non-negative Elastic Net Decoding for Information Retrieval非負Elastic Netデコードで情報検索を高度化密検索は情報検索の主流となっている。本研究は非負のElastic Netデコードを情報検索に適用し、検索表現の改善や精度向上を狙う手法を提案する。
-
ChLogic: Evaluating Robustness of Logical Reasoning in Chinese ExpressionsChLogic、中国語表現での論理推論の頑健性を評価LLMは標準的な論理推論ベンチで好成績だが英語を超えて頑健かは不明。ChLogicは同一の潜在論理構造を中国語で表したときに性能が保たれるかを測る英中対応ベンチマークを導入する。
-
Dynamic Rollout Editing for Reducing Overthinking in RL-Trained Reasoning Models動的ロールアウト編集でRL推論モデルの過剰思考を抑制長い連鎖思考は性能を上げるが、正解到達後も不要な推論を続ける過剰思考が起きる。本研究はGRPO型強化学習の観点からこれを捉え、動的なロールアウト編集により過剰思考を削減する手法を提案する。
-
AnchorKV: Safety-Aware KV Cache Compression via Soft Penalty with a Refusal AnchorAnchorKV、安全性を考慮したソフト罰則でKVキャッシュ圧縮AnchorKVは安全性を考慮したKVキャッシュ圧縮手法で、ソフトな罰則(アンカー)を用いて重要なキー・バリューを保ちつつメモリを削減することを狙う。タイトルベースの中立要約で詳細は原論文ベース。
-
WallZero: Mastering the Game of WallGo with Strategic AnalysisWallZero、戦略分析でボードゲームWallGoを攻略WallGoは近年導入された戦略的ボードゲームである。WallZeroは戦略分析を伴う手法でWallGoを攻略し、ゲームAIとしての性能や戦略的知見を示す。
-
Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation ModelsQwen-RobotManip、整合がロボット操作基盤モデルの規模化を解放言語・マルチモーダルの基盤モデルは異種データを統一定式化で整合し大規模学習で汎化する。本報告はこの規模化レシピがロボット操作に適用できるかを検証し、整合がスケールを解放するとして操作基盤モデルを示す。
-
Environment-Grounded Automated Prompt Optimization for LLM Game Agents環境に接地した自動プロンプト最適化でLLMゲームエージェント対話的環境のLLMエージェントはプロンプトに敏感だがプロンプト工学は手作業で課題依存。本研究は観測から行動への過程を分解し、環境に接地した自動プロンプト最適化の枠組みをLLMゲームエージェント向けに提案する。
-
From Drift to Coherence: Stabilizing Beliefs in LLMsドリフトから整合へ、LLMの信念を安定化LLMは暗黙のベイズ推論を行うと仮定されるが、予測的信念のマルチンゲール性という整合条件が合成的な文脈内学習で破れることが示されてきた。本研究は多肢選択QAなど一般的な利用域で再検証し、信念を安定化する手法を論じる。
-
When Multiple Scripts Matter: Evaluating ASR in Clinical Settings複数の文字体系が問題となる臨床ASRの評価非英語の臨床現場の自動音声認識は、同じ語が複数の正書法で現れる多文字性に悩む。文字列一致型の評価指標は異形を誤りと扱い性能を過小評価しがちで、本研究は複数文字体系下のASR評価を検討する。
-
Beyond Native Success: Auditing Deployment-Interface Exposure of CLIP BackdoorsCLIPバックドアの展開インターフェース露出を監査CLIPは特徴抽出・検索・再順位付け・選択など多様な下流インターフェースで再利用される。既存のCLIPバックドアは小さな攻撃固有課題で検証されがちで、本研究は本来の成功を超えた展開インターフェース露出を監査する。
-
Toward Accessible Psychotherapy Training Using AI-Driven Interactive Patient AvatarsAI患者アバターで心理療法訓練をより手軽にアクセプタンス&コミットメント療法など根拠に基づく介入の訓練は反復練習と有意義なフィードバックを要するが、倫理・運用・資源の制約で機会が限られる。本研究はAI駆動の対話的患者アバターを用いた心理療法訓練を提案する。
-
Vision-language models for chest radiography do not always need the image胸部X線の視覚言語モデルは画像を常に要しない医療の視覚言語モデルは画像とテキストを組み合わせて報告する。本研究は胸部放射線で、これらのモデルが必ずしも画像を必要とせず予測できる場合があることを示し、評価と臨床利用上の含意を論じる。
-
EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden IntentEComAgentBench、隠れた意図を含む長期課題で買い物エージェント評価LLMベースの買い物エージェントが実用化する中、既存ベンチは要求が暗黙・プロフィール記録・適切な質問で初めて明らかになる形を捉えられない。EComAgentBenchは分散した隠れ意図を含む長期課題で買い物エージェントを評価する。
-
OpenAIの高度AIでソフトバンクの脆弱性を1万件発見 孫正義氏「大変な危機」 日本の重要インフラ企業へ診断サービス提供ソフトバンク、OpenAIのAI活用の脆弱性診断「Patching as a Service」発表ソフトバンクグループは6月16日、OpenAIの「GPT-5.5 Cyber」などを活用したサイバーセキュリティ対策サービス「Patching as a Service」を発表した。企業システムに疑似的な攻撃を行って脆弱性を検出し、修復方針の策定から実装提案まで一気通貫で提供する。国内の重要インフラを支える一部企業に優先提供するとし、孫正義氏は脅威の深刻さに危機感を示したという。
-
LLMs Infer Cultural Context but Fail to Apply It When RespondingLLMは文化的文脈を推測できても応答で適用できないLLMは支配的(特に西洋)文化を過剰表現し他を周縁化することが知られる。本研究はこれが文化適応応答の生成能力に及ぼす影響を評価し、モデルが文化的文脈を推測できても応答時に適用できないことを示す。
-
SuCo: Sufficiency-guided Continuous Adaptive ReasoningSuCo、十分性に導かれた連続適応的推論SuCoは十分性に導かれた連続適応的推論の手法で、推論過程を必要十分な範囲に適応的に調整することで効率と精度の両立を狙う。タイトルベースの中立要約で詳細は原論文ベース。
-
Bridging Functional Correctness and Runtime Efficiency Gaps in LLM-Based Code TranslationLLMコード翻訳の機能正しさと実行効率の差を橋渡しLLMは自動コード翻訳の機能的正しさを大きく前進させたが、翻訳されたプログラムの実行効率は注目が薄かった。ムーアの法則の鈍化で効率が重要になる中、本研究は機能正しさと実行効率の差を橋渡しする手法を検討する。
-
From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning訓練生から訓練者へ、LLMがRL用の訓練環境を設計LLMのRLパイプラインは段階間で手作業の環境再設計に依存し、どの設定が有効かを職人的に推測する必要がある。本研究はLLM自身が多エージェント推論を伴うRL向けの訓練環境を設計する手法を提案する。
-
MambaCount: Efficient Text-guided Open-vocabulary Object Counting with Spatial Sparse State Space Duality BlockMambaCount、状態空間双対ブロックで開語彙物体計数テキスト誘導の開語彙物体計数(TOOC)はスケール変動の大きい密なシーンで難しく、既存はTransformerの二次計算量に制約される。MambaCountは空間疎な状態空間双対ブロックにより効率的なTOOCを実現する。
-
OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy DistillationOPD-Evolver、オンポリシー蒸留で自己進化エージェントを育成記憶は自己進化エージェントの標準基盤だが、経験の保持と進化の仕方の学習は別物である。OPD-Evolverはオンポリシー蒸留により、有用な経験を選び行動し再利用可能な知識を書く全体的能力を備えたエージェント進化器を育成する。
-
Predicting model behavior before release by simulating deploymentOpenAI、配備前にモデル挙動を予測する Deployment Simulation を発表OpenAI は、AI モデルを実際に配備する前にその挙動を予測する手法「Deployment Simulation」を発表した。実際の会話データを用いてモデルの応答を事前にシミュレートし、安全性と評価の精度向上を図るとしている。なお本内容は OpenAI 自身の発表に基づくもので、効果や数値は第三者による検証が未確認。
-
June Framework Memory and storage pricing updatesFramework、メモリ・ストレージ価格を改定 市況高騰で大幅値上げ変動の激しいメモリ市場を背景に、Frameworkがデスクトップ製品のメモリ・ストレージ価格を改定したと伝えるブログ。記事によれば、128GB構成のFramework Desktopは発売時の2,000ドルから4,839ドルへと約1,660ドル上昇したとされる。AIに直接関わる話題ではなくハードウェア市況の動向に関する内容で、lobste.rs経由で流入した。
-
Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode OutcomesVLAのオンラインRL微調整に階層的優位重み付けHABCを提案事前学習済みVLA方策をオンライン強化学習で微調整する際、各エピソードの二値結果だけでは到達可能性と効率を区別できず、自律区間と介入区間の混在が誤った信用割当を招く課題を指摘。これに対し、二つの目的それぞれに別個のクリティックヘッドを異なるデータ部分集合で学習する階層的優位重み付け行動クローニング(HABC)を提案する。
-
Benchmarking LLM Agents on Meta-Analysis Articles from Nature PortfolioNature系メタ分析論文でLLMエージェントを評価するベンチマークNature Portfolio掲載のメタ分析論文を題材として、LLMエージェントの処理・推論能力を評価するベンチマークを提示する研究。本文抜粋が取得できなかったため、要約はタイトルに基づく中立的な記述に留める。
-
KVEraser: Learning to Steer KV Cache for Efficient Localized Context ErasingKVキャッシュの局所消去を学習で効率化するKVEraserを提案長文脈LLMで、古い情報や誤ったツール出力、プロンプトインジェクションなどを事後的に消す際、KVキャッシュの局所編集が後続トークン全体へ波及するため厳密な消去は再計算コストが高い課題に対応。消去区間のKV状態だけを学習済みのステアリング状態に置き換え、残りのキャッシュを再利用する手法KVEraserを提案し、二段階の学習パイプラインで転用可能な消去機構を学ぶとする。
-
DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research AgentsDeepRubric、評価基準を逆生成し深層リサーチエージェントのRLを効率化深層リサーチエージェントをルーブリック報酬で強化学習する際、評価基準が不完全だと効率が落ちる課題に対しDeepRubricを提案。クエリから基準を推定する従来手順を逆転し、まず証拠ツリーから「報告が何で評価されるべきか」を定め、整合したクエリ・ルーブリック対を合成することで、より信頼できる教師信号を構築しRL効率を高める。
-
HAMON: Passive Optical Sequence Mixing for Long-Horizon ForecastingHAMON、受動的な光学回路で長期時系列予測 ─ デジタル混合層が不要長期時系列予測では単純な線形・周波数モデルが依然強い点に着目し、予測演算を光学で実装するHAMONを提案。履歴値を光学開口に符号化し、学習可能な位相マスクと自由空間回折で出力場に予測を直接形成する。推論は単一の受動的な光伝播のみで、デジタル系列混合層なしにETTm2などで強力なベースラインを上回ると報告する。
-
FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation ModelsRGB・赤外を対応づけたリモセン向けデータセットFusionRSを公開リモートセンシングの視覚言語モデルがRGB画像中心で赤外情報の活用が乏しい点に着目し、RGB・赤外・テキストを対応づけた大規模データセットFusionRSを提案する論文。公開RGB画像を赤外風に変換して対の画像を作り、通常の説明文と赤外特有の性質を記す説明文を付与したとする。