新モデル・リリース A
269 件中 31〜60 件目を表示
-
CATCH-ME if you RAG: a dataset of Contextually Annotated multi-Turn Counterspeech against Hate and Misinformation Exchangesヘイトと誤情報への対抗発話データセットCATCH-MEを提案本論文は、しばしば重なり合うヘイトスピーチと誤情報に対する、文脈注釈付きの複数ターン対抗発話(counterspeech)データセット「CATCH-ME」を提案する。両者を切り離して扱いがちなNLP研究の傾向や、ゼロショットLLMが反復的で曖昧な応答を生む問題に対処する。
-
Critical Percolation as a Synthetic Data Model for Interpretability解釈性研究の合成データとして臨界パーコレーションを提案本論文は、解釈性手法の評価に用いる合成データのモデルとして臨界パーコレーションを提案する。自然なデータが持つ階層的・マルチスケールな構造を備えた合成データセット群を構築し、従来の合成データがこの構造を欠き現実的な玩具モデルになりにくい問題を埋める。
-
Integrating national forest inventory, airborne lidar, and satellite imagery for wall-to-wall mapping of forest structure with computer vision森林調査・LiDAR・衛星画像を統合した全域の森林構造マッピング本論文は、国家森林資源調査・航空機LiDAR・衛星画像をコンピュータビジョンで統合し、森林構造を隙間なく(wall-to-wall)地図化する手法を提案する。森林・山火事リスク管理に必要な、広域かつ毎年更新される地図を継続的に得ることを狙う。
-
ELVA: Exploring Ranking-Driven Universal Multimodal Retrievalランキング駆動の汎用マルチモーダル検索ELVA対照学習でMLLMを活用するマルチモーダル検索が主流となるなか、ELVAはランキング駆動の汎用マルチモーダル検索を探求する。
-
Lagrange: An Open-Vocabulary, Energy-Based Sparse Framework for Generalized End-to-End Driving開語彙・エネルギーベースの疎な端到端運転枠組みLagrange端到端の自動運転を複雑な実世界環境へ拡張するには高度な知覚が要る。Lagrangeは開語彙でエネルギーベースの疎な枠組みにより一般化された端到端運転を実現する。
-
Editorial Alignment: A Participatory Approach to Engaging Editorial Expertise in LLM-mediated Knowledge DisseminationLLM媒介の知識普及に編集者の専門性を取り込む参加型手法LLM駆動の情報サービスは公共知識の生成条件を変えつつある。本研究は編集者の専門性を参加型に取り込み、LLM媒介の知識普及を整合させる枠組みを示す。
-
The Register Gap: A Meaning Intelligence Framework for Nigerian Public Discourseナイジェリア公共言説向けの意味知能枠組みThe Register Gap本研究は9次元の注釈・評価体系である意味知能枠組み(MIF)を導入し、ナイジェリアの公共言説における言語使用域の差(レジスターギャップ)を分析する。
-
Navigating Unreliable Parametric and Contextual Knowledge: Explicit Knowledge Conflict Resolution for LLM InferenceLLM推論で信頼できない知識の衝突を明示的に解消する手法LLMは多様な言語課題で高性能だが、パラメトリック知識と文脈知識が矛盾し得る。本研究はその知識衝突を明示的に解消する手法を提案する。
-
SPOT-E: Test-Time Entropy Shaping with Visual Spotlights for Frozen VLMs凍結VLM向けの視覚スポットライトによるテスト時エントロピー整形SPOT-EVLMは証拠の多い課題で決定的な視覚手がかりを見落とし性能が落ちる。SPOT-Eは視覚スポットライトを用いたテスト時のエントロピー整形でこれを改善する。
-
FlowMaps: Modeling Long-Term Multimodal Object Dynamics with Flow Matchingフローマッチングで長期のマルチモーダル物体動態を予測するFlowMaps3Dシーンの空間・時間理解はロボット展開に不可欠。FlowMapsはフローマッチングにより長期のマルチモーダルな物体動態をモデル化する。
-
Beyond Accuracy: Measuring Logical Compliance of Predictive Models予測モデルの論理的整合性を精度を超えて測る研究MLモデルは主に予測性能の指標で評価されるが、それだけでは不十分。本研究は精度を超えて、予測モデルの論理的整合性を測る方法を提案する。
-
Off-Policy Evaluation for Missingness-Aware Policies in MDPs with Rewards Missing Not at Random報酬が非ランダムに欠損するMDPでのオフ方策評価を扱う本論文は、報酬がランダムでない形で欠損する(missing not at random)有限ホライズンMDPにおけるオフ方策評価(OPE)を研究する。オフライン強化学習で、記録の疎・不規則さや一定値以上の打ち切りにより即時報酬が観測されない、医療やマーケティングなどの状況を想定し、欠損を考慮した方策を扱う。
-
MedRLM: Recursive Multimodal Health Intelligence for Long-Context Clinical Reasoning, Sensor-Guided Screening, Evidence-Grounded Decision Support, and Community-to-Tertiary Referral Optimization長文脈の臨床推論に向けた再帰的マルチモーダル医療AI「MedRLM」本論文は、長文脈の臨床推論・センサー誘導スクリーニング・根拠に基づく意思決定支援・地域から高次医療への紹介最適化を担う、再帰的マルチモーダルの医療知能システム「MedRLM」を提案する。単発のプロンプトや検索にとどまる既存の医療LLMやRAGを超え、異種かつ縦断的な患者情報を横断して推論することを狙う。
-
NAMESAKES: Probing Identity Memorization in Text-to-Image Modelsテキスト画像モデルの人物記憶を調べるNAMESAKESを提案本論文は、人物名から実在の人物に似た顔を生成しうるテキスト画像(T2I)モデルにおける、本人性の記憶(identity memorization)を調べる研究「NAMESAKES」を提案する。生成顔が記憶由来か捏造かを、正解写真・訓練データ・ホワイトボックスアクセスなしに判別する難しさに取り組み、プライバシー上の懸念を検討する。
-
HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridizationヘッド単位で線形・フルアテンションを融合するHydraHead本論文は、ヘッド単位の機能的な異質性を活かして線形アテンションとフルアテンションを融合するハイブリッド設計「HydraHead」を提案する。多くのオープンソースのハイブリッドモデルが採る層単位の戦略を超え、長文脈処理に向けて両者を統合する難しさに対処する。
-
Improving health intelligence in ChatGPTOpenAI、GPT-5.5 Instant で ChatGPT の健康相談の品質を向上OpenAI は GPT-5.5 Instant により、ChatGPT の健康・ウェルネス分野の応答品質を改善したと発表した。より強力な推論と文脈理解、明確な説明に加え、医師の知見を反映した評価を導入。利用者がより信頼できる健康情報を得られるようにする。
-
What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis潜在的なChain-of-Thoughtの有効な監督を情報理論で分析本論文は、推論を連続的な隠れ状態の中で内在化する潜在的な思考連鎖(latent CoT)について、どのような教師信号が有効かを情報理論的に分析する。結果のみに基づく監督が弱い学習信号しか与えず、頑健な潜在推論が難しくなる理由を考察する。
-
When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM AgentsLLMエージェントによる過剰権限のツール選択を調査本論文は、LLMエージェントが権限の異なるツールから自律的に選択する際の「過剰権限なツール選択」を調査する。安全性に無関係なメタデータの好みに着目してきた従来研究の隙間を埋め、より低い権限で十分な場面を分析して、安全性に関わる選択を明らかにする。
-
REDACT: A Systematically Controlled Multilingual Benchmark for Personal Information DetectionPII検出向けの体系的に統制された多言語ベンチマークREDACT本論文は、個人を特定できる情報(PII)の検出に向けた、体系的に統制された多言語ベンチマーク「REDACT」を提案する。対象エンティティが少なく、生成条件が場当たり的で、どの表層条件が検出失敗を招くかを示せない既存コーパスの限界に対処する。
-
AtomMem: Building Simple and Effective Memory System for LLM Agents via Atomic Facts原子的事実でLLMエージェントの記憶システムを構築するAtomMem本論文は、原子的な事実(atomic facts)を単位として、LLMエージェント向けのシンプルで効果的な記憶システム「AtomMem」を構築する。固定された文脈窓が、複数セッションをまたいだ長期的な情報の蓄積と再利用を妨げる問題や、既存の記憶拡張手法が粗く不安定である問題に対処する。
-
DeepSeek Introduces VisionDeepSeek、視覚(マルチモーダル)機能を導入中国のAI企業DeepSeekが、画像を扱える視覚(ビジョン)機能を導入したことを伝える記事。テキスト中心だったモデルにマルチモーダル対応が加わり、画像理解を含むタスクへの応用が広がる動きを紹介している。
-
Announcing Stack Overflow for Agents「Stack Overflow for Agents」発表AIエージェント向けの「Stack Overflow for Agents」が発表されたことを伝える記事。人間の開発者が使うQ&Aサイトのように、エージェントが知識やコード例を参照・共有できる仕組みを目指す取り組みとして紹介されている。
-
Think Again or Think Longer? Selective Verification for Budget-Aware Reasoning予算を意識した推論に向けた選択的な検証手法を提案本論文は、推論時の追加思考を「やり直す」か「長く考える」かという観点で、予算を意識した割り当て問題として捉え、選択的な検証手法を提案する。追加の推論は一様に有益ではなく、失敗の修復に役立つ一方、正解への計算の浪費や有害な答えの変更を招きうる点に着目する。
-
Manifold Bandits: Bayesian Curriculum Learning over the Latent Geometry of Large Language ModelsLLMの潜在幾何上でベイズ的カリキュラム学習を行うManifold Bandits本論文は、大規模言語モデルの潜在的な幾何構造の上で訓練問題をサンプリングする、ベイズ的なカリキュラム学習手法「Manifold Bandits」を提案する。推論能力向上のための強化学習では、最適化中にどのようにプロンプトを選ぶかが訓練効率を大きく左右する点に着目する。
-
Benchmarking Agentic Review Systemsエージェント的な査読システムを評価するベンチマーク本論文は、AI支援研究が査読制度にかける負荷を和らげる手段として登場しつつある「エージェント的な査読システム」を評価する。オープンソース2種、プロプライエタリ1種、ゼロショットのベースラインを比較し、こうしたシステムをどう評価すべきかという未解決の問いに取り組む。
-
「シャドーAI」7割超の企業が対策追い付かず “会社が選んだAIだけ利用”はもう限界? ガートナー日本企業の73%が「シャドーAI」対策できず ガートナー調査会社が認めていないAIツールを従業員が業務で使う「シャドーAI」について、日本企業の73%が対策できていないとの調査結果を米ガートナーが発表した。会社が選んだAIだけを使わせる運用は限界に近づき、統制と活用の両立が課題になっている。
-
Closing the Calibration Gap in Semantic Caching意味的キャッシュの較正ギャップを埋め配備判断を改善本論文は、意味的に類似するクエリにキャッシュ済み応答を返してLLMの推論コストを削減する「意味キャッシュ」における較正(calibration)のギャップに取り組む。スコアの順位付けのみを測り、固定しきい値での使用可否を無視するPR-AUCでの評価が、配備判断を体系的に誤らせることを示す。
-
GLM-5.2 is probably the most powerful text-only open weights LLMGLM-5.2、テキスト特化の最強級オープンウェイトLLMか中国のAIラボZ.aiが、コーディングプラン向けに6月13日公開したGLM-5.2を、6月16日にMITライセンスで完全なオープンウェイトとして公開した。従来のGLM-5やGLM-5.1と同規模ながら、テキスト専用では最も強力なオープンウェイトLLMの可能性があるとサイモン・ウィリソン氏は評している。
-
「AIを使う学生」vs.「使わない学生」、エッセイが創造的なのはどっち? 米大学が2025年に実証実験AIを使う学生と使わない学生、創造的なのはどちら?米ジョージタウン大学の研究者らが、大規模言語モデルが創造的多様性に与える均質化の影響を検証した論文を発表した。人間とChatGPTの文章を比較し、AIの利用が学生のエッセイの創造性や多様性にどう作用するかを実証的に調べた研究を紹介する。
-
Native Active Perception as Reasoning for Omni-Modal Understanding動画理解を効率化、難易度に応じ能動的に知覚する推論手法を提案長尺動画の理解で主流の「全フレーム一律処理」は、質問の難易度に関わらず計算量が動画長に比例して増える課題がある。本研究は知覚自体を推論として扱い、必要な箇所を能動的に観る「ネイティブ能動知覚」を提案。オムニモーダル理解を効率化する。