新モデル・リリース A

268 件中 91〜120 件目を表示
  • arXiv cs.AI (Artificial Intelligence) · EN インフラ・ハードウェア 抜粋
    FoMoE: Breaking the Full-Replica Barrier with a Federation of MoEs
    FoMoE、MoE の連邦化で完全複製の壁を破る LLM 事前学習
    Mixture of Experts (MoE) ニューラルネットワーク
    LLM の事前学習は通常、密結合したアクセラレータからなる大規模インフラを要する。モデルとデータの規模拡大が進む中、本研究は「FoMoE」を提案し、Mixture-of-Experts を連邦(federation)として連携させることで、全パラメータの完全複製を不要にし学習基盤の制約を緩和する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Sumi: Open Uniform Diffusion Language Model from Scratch
    Sumi、ゼロから構築したオープンな一様拡散言語モデル
    深層学習 強化学習
    拡散モデルは自己回帰モデルの有望な代替となりつつある。中でも一様拡散言語モデル(UDLM)は、どのトークンも任意のステップで更新できる柔軟性を持つ。本研究はゼロから構築したオープンな UDLM「Sumi」を公開し、拡散型言語モデルの研究と再現性を後押しする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    Spotlight: Synergizing Seed Exploration and Spot GPUs for DiT RL Post-Training
    Spotlight、シード探索とスポット GPU で DiT の RL 事後学習を低コスト化
    深層学習 ニューラルネットワーク 検索拡張生成 (RAG) 強化学習 Transformer
    拡散トランスフォーマー(DiT)の RL 事後学習は数千台の高性能 GPU を要し非常に高価だ。本研究は「Spotlight」を提案し、シード探索の工夫と安価なスポット GPU の活用を組み合わせることで、DiT の RL 事後学習を大幅に低コスト化する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Enhancing Multilingual Reasoning via Steerable Model Merging
    操作可能なモデルマージで多言語推論を強化
    ニューラルネットワーク
    モデルマージは、多言語モデルと推論モデルの能力を合成する有効な手法で、異なるモデルの特徴空間を整合させて多言語推論で有望な汎化を示してきた。本研究は操作可能(steerable)なモデルマージを提案し、合成の度合いを制御して多言語推論性能をさらに高める。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction
    TRAP、課題遂行とプライバシー抽出耐性を測るエージェント評価
    AI エージェント ニューラルネットワーク
    エージェントは機密情報が日常的な入力となる文書集約的な業務に投入されつつある(例:航空券予約にパスポート番号が必要)。本研究はベンチマーク「TRAP」を提案し、課題遂行能力と、能動的なプライバシー抽出(聞き出し)への耐性の両面からエージェントを評価する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection
    解釈可能なマルチモーダル虚偽検出のRL枠組み「ThinkDeception」
    機械学習 ニューラルネットワーク 強化学習
    虚偽検出の既存手法は端から端までのブラックボックスで、推論過程を示せず解釈性に乏しい。本研究は段階的な強化学習の枠組みThinkDeceptionを提案し、複数モダリティにまたがる微妙な手掛かりを明示的に捉えながら、透明な推論軌跡を伴う虚偽検出を実現する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Beyond Tokenization: Direct Timestep Embedding and Contrastive Alignment for Time-Series Question Answering
    時系列を直接埋め込み時系列質問応答を高めるTSQA手法
    埋め込み (Embeddings) 機械学習 検索拡張生成 (RAG) ソフトウェア工学
    大規模言語モデルの進展で、時系列分析を自然言語の質問応答として扱う時系列QA(TSQA)が登場した。本研究は時系列をトークン化せずタイムステップを直接埋め込み、対照学習で言語表現と整合させる手法を提案し、従来のトークン化に伴う情報損失を回避して精度を高める。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    CAPRA: Scaling Feedback on Software Architecture Deliverables with a Multi-Agent LLM System
    ソフト設計成果物の添削を自動化するマルチエージェントLLM「CAPRA」
    AI エージェント GPT 機械学習 ソフトウェア工学
    ソフトウェア工学教育では自動評価が進むが、設計成果物への質の高いフィードバックは難しい。CAPRAは複数のLLMエージェントが協調し、ソフトウェアアーキテクチャの成果物に対する添削とフィードバックを大規模にスケールさせる仕組みを提案する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents
    混在文書のAI生成文検出へ文間フローを捉える「SenFlow」
    DeepSeek 検索拡張生成 (RAG)
    人間とAIの文が混在する文書では、文単位でのAI生成文検出(S-AGTD)が難しい。SenFlowは文と文のつながり(フロー)をモデル化し、文脈的な流れの不自然さから混在文書中のAI生成文をより正確に検出する手法を提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety
    AI for Scienceの安全性をリスク次元別に測る「SciRisk-Bench」
    ニューラルネットワーク 強化学習 ソフトウェア工学
    大規模言語モデルが科学研究(AI4Science)に組み込まれる中、その安全性評価が重要になっている。SciRisk-Benchはリスクの次元を意識し、科学応用におけるLLMの安全性を多角的に評価するベンチマークを提供する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration
    エージェント探索による確率的プロンプト最適化「SAGE」
    文脈設計(コンテキストエンジニアリング)はAIシステムの性能を引き上げる主要な手段となっている。SAGEはエージェントが探索を導く確率的なプロンプト最適化手法を提案し、効果的なプロンプトを自動的に発見してタスク性能を改善する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Improving Medical Communication using Rubric-Guided Counterfactual Recommendations
    ルーブリック指針の反実仮想提案で医療コミュニケーション改善
    推論 (Inference) Meta
    テキストベースの遠隔医療は軽量な患者フィードバックに依存することが増えている。本研究はルーブリックに沿った反実仮想的な推奨を提示することで、より良い医療コミュニケーションを支援し、患者と医療者のやり取りの質を高める手法を提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • OpenAI Blog · EN 新モデル・リリース 抜粋
    A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry
    OpenAIとMolecule.one、半自律AI化学者が創薬反応を改善
    GPT OpenAI
    OpenAIとMolecule.oneが、GPT-5.4を用いた半自律的な『AI化学者』により医薬品化学で難度の高い反応を改善した事例を示した。創薬研究の加速に向けた取り組みで、具体的な性能数値や手法の詳細は記事ベース、第三者検証は未確認。
    元記事を読む (OpenAI Blog) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents
    多主体共有メモリのガバナンスを測る「GateMem」
    AI エージェント ニューラルネットワーク
    LLMエージェントのメモリ評価は単一ユーザーを前提とすることが多く、複数主体が共有するメモリの統制は見落とされがちである。GateMemは複数主体が共有するメモリのガバナンス(アクセス制御や管理)を評価するベンチマークを提供する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • ITmedia AI+ · JA 新モデル・リリース 抜粋
    Cursor、Gitホスティング「Origin」発表 SpaceXによる買収発表直後に
    Cursor、Gitホスティング「Origin」発表 GitHub対抗か
    AIコーディングツール「Cursor」が、Gitホスティングサービス「Origin」を発表した。記事は「GitHub」に対抗する狙いがありそうだとしている。発表は SpaceX による Cursor 買収報道の直後とされる。買収額・詳細や Origin の機能は記事ベースで、第三者検証は未確認。
    元記事を読む (ITmedia AI+) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    HandwritingAgent: Language-Driven Handwriting Synthesis in Scalable Vector Space
    言語で手書き文字を合成する「HandwritingAgent」
    深層学習 ニューラルネットワーク 検索拡張生成 (RAG)
    自然な手書きの筆致を機械に再現させることは未解決の課題である。HandwritingAgentは言語による指示から、拡大しても劣化しないベクトル空間上で手書き文字を合成する手法を提案し、多様な筆跡スタイルの生成を可能にする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    RedactionBench
    機微情報の墨消し能力を測る「RedactionBench」
    ニューラルネットワーク 強化学習
    大規模言語モデルは個人情報など機微なデータを扱う領域に応用が広がっている。RedactionBenchはこうした文脈で必要となる機微情報の墨消し(リダクション)能力を評価するベンチマークを提供し、安全な運用に向けた検証を支援する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Lost in a Single Vector: Improving Long-Document Retrieval with Chunk Evidence Aggregation
    チャンク証拠集約で長文書検索を改善
    深層学習 推論 (Inference) 強化学習
    密ベクトル検索は一つのクエリベクトルと一つの文書ベクトルを照合するが、長文書では情報が単一ベクトルに埋もれてしまう。本研究は文書をチャンクに分け、各チャンクの証拠を集約することで長文書検索の精度を高める手法を提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    SAMA: Semantic Anchor-aligned Augmentation for Unified Low-Resource Multimodal Information Extraction
    低資源マルチモーダル情報抽出の意味アンカー拡張「SAMA」
    機械学習 検索拡張生成 (RAG)
    マルチモーダル情報抽出(MIE)は多様なタスクを含むが、低資源環境では学習データが不足する。SAMAは意味的なアンカーに整合させたデータ拡張を提案し、低資源条件でも統一的にマルチモーダル情報抽出の性能を高める。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 政策・規制 抜粋
    Output Vector Editing for Memorization Mitigation in Large Language Models
    出力ベクトル編集でLLMの記憶再生を抑制
    Llama 機械学習
    大規模言語モデルは訓練データの系列を記憶し、そのまま再生してしまうことがある。本研究は出力ベクトルを編集することで、こうした記憶の再生(メモリゼーション)を緩和し、著作権や個人情報の漏洩リスクを下げる手法を提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Attention as Frustrated Synchronization
    注意機構を「フラストレートした同期」として捉える理論
    Transformer
    完全に同期する振動子ネットワークは何も計算しない。本研究は注意機構を、完全には同期しない(フラストレートした)同期現象として捉える理論的視点を提示し、物理的な同期の枠組みからTransformerの注意の働きを解釈する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    ForecastBench-Sim: A Simulated-World Forecasting Benchmark
    模擬世界で予測力を測る「ForecastBench-Sim」
    強化学習 ソフトウェア工学
    汎用AIの予測ベンチマークは現実世界の事象を題材にするため、評価の再現や統制が難しい。ForecastBench-Simはシミュレートされた世界を用いた予測ベンチマークを提案し、統制された条件下でAIの予測能力を評価できるようにする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • OpenAI Blog · EN 新モデル・リリース 抜粋
    Introducing LifeSciBench
    OpenAI、生命科学研究の AI 能力を測る LifeSciBench を公開
    深層学習 強化学習
    OpenAI は、AI システムが実際の生命科学研究の課題や判断をどう扱えるかを評価するベンチマーク「LifeSciBench」を発表した。専門家が作成・査読した内容で、現実の研究タスクに即した難度を備える。生命科学分野での AI の実用性を厳密に検証する狙い。
    元記事を読む (OpenAI Blog) ↗
  • Simon Willison's Weblog · EN 新モデル・リリース 抜粋
    datasette 1.0a34
    Datasette 1.0a34公開、画面上での行編集機能を追加
    ニューラルネットワーク
    サイモン・ウィリソン氏のデータ公開ツールDatasetteのバージョン1.0a34がリリースされた。今回の目玉は、Datasetteの画面上で行を挿入・編集・削除できる機能で、テーブルページから直接データを操作できるようになった。
    元記事を読む (Simon Willison's Weblog) ↗
  • Publickey · JA 新モデル・リリース 抜粋
    GitLab、AIエージェント向けの次世代Git互換ソースコード管理サービス「Project Switch」発表。最大で50倍高速かつ半分のトークンで利用可能に
    GitLab、AIエージェント向けGit互換管理サービス「Project Switch」発表
    AI エージェント 機械学習
    GitLabは英ロンドンのイベント「GitLab Transcend」で、AIエージェント向けの次世代Git互換ソースコード管理サービス「Project Switch」を発表したと報じられている。報道によれば最大50倍高速かつ約半分のトークン消費で利用できるとされる。数値・性能は発表内容に基づく報道であり、第三者検証は未確認。
    元記事を読む (Publickey) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues
    ReproRepo、GitHub課題で再現性監査をスケール
    AI エージェント GPT 機械学習 検索拡張生成 (RAG) 強化学習
    論文とコードの再現は科学に不可欠だが既存ベンチマークは規模拡大が難しい。本研究はGitHubリポジトリのIssueを活用し、LLMエージェントが再現支援をどこまで行えるかを大規模に評価する枠組みReproRepoを提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    EvolveNav: Proactive Preflection and Self-Evolving Memory for Zero-Shot Object Goal Navigation
    軌跡記憶を自己進化させるゼロショット物体探索ナビゲーションを提案
    AI エージェント ニューラルネットワーク 検索拡張生成 (RAG)
    事前学習なしに目標物体を探すゼロショット物体目標ナビゲーションで、過去の軌跡から行動可能な知識を抽出する自己進化型の枠組みを提案する論文。ルール記憶と検索戦略により、テスト時の継続的な改善を実現すると述べる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Darshana Graph: A Parallel Commentary Corpus for Comparative Indian Philosophy, with Stylometric and Exploratory Graph Analyses
    Darshana Graph、印度哲学の並列注釈コーパスを構築
    機械学習 ニューラルネットワーク
    ヒンドゥー・仏教・ジャイナの古典哲学伝統にまたがる12.5万件超のテキスト記録から成るコーパスDarshana Graphを公開。パブリックドメイン等の翻訳を基に、比較印度哲学のための文体計量およびグラフ解析を行う。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients
    勾配でなくプロンプトで教師を使う近接方策最適化
    強化学習
    知識蒸留は小さな生徒モデルで脆く、大教師のロジット模倣は鋭いモードに集中し汎化を損なう。本研究は教師を勾配ではなくプロンプト内で活用する近接方策最適化(ZPPO)を提案し、小生徒域での汎化改善を狙う。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Looped World Models
    Looped World Models、反復的潜在精緻化で深さと効率を両立
    強化学習 Transformer
    世界モデルは忠実な長期シミュレーションに深い計算を要するが、深いモデルは高コストで誤差が蓄積しやすい。LoopWMは世界モデル向け初のループ型アーキテクチャで、潜在表現を反復的に精緻化しこの緊張を解消すると主張する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗