開発者ツール B
312 件中 121〜150 件目を表示
-
A Hybrid LSTM--Vision Transformer Architecture for Predicting HRRR Forecast ErrorsLSTM と ViT の融合で高解像度数値予報 HRRR の誤差を予測高解像度数値天気予報(HRRR など NWP)の予測誤差は、未解像の惑星境界層(PBL)過程や対流、地形起源の循環など鉛直構造を持つ現象に関係することが多い。本研究は LSTM と Vision Transformer を組み合わせたハイブリッド構造で、HRRR の予報誤差を予測する。
-
Sumi: Open Uniform Diffusion Language Model from ScratchSumi、ゼロから構築したオープンな一様拡散言語モデル拡散モデルは自己回帰モデルの有望な代替となりつつある。中でも一様拡散言語モデル(UDLM)は、どのトークンも任意のステップで更新できる柔軟性を持つ。本研究はゼロから構築したオープンな UDLM「Sumi」を公開し、拡散型言語モデルの研究と再現性を後押しする。
-
G-IdiomAlign: A Gloss-Pivoted Benchmark for Cross-Lingual Idiom Alignment慣用句の言語間対応を測る新ベンチマーク「G-IdiomAlign」慣用句は非構成的で直訳が効かず、言語間の対応付けが難しい。本研究はWiktionaryの英語注釈を軸に各慣用句を固定した評価基盤G-IdiomAlignを提案。多肢選択式の慣用句等価判定と、注釈の有無を比較する生成タスクの2プロトコルで、注釈がもたらす効果を切り分けて評価できる。
-
ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection解釈可能なマルチモーダル虚偽検出のRL枠組み「ThinkDeception」虚偽検出の既存手法は端から端までのブラックボックスで、推論過程を示せず解釈性に乏しい。本研究は段階的な強化学習の枠組みThinkDeceptionを提案し、複数モダリティにまたがる微妙な手掛かりを明示的に捉えながら、透明な推論軌跡を伴う虚偽検出を実現する。
-
Beyond Tokenization: Direct Timestep Embedding and Contrastive Alignment for Time-Series Question Answering時系列を直接埋め込み時系列質問応答を高めるTSQA手法大規模言語モデルの進展で、時系列分析を自然言語の質問応答として扱う時系列QA(TSQA)が登場した。本研究は時系列をトークン化せずタイムステップを直接埋め込み、対照学習で言語表現と整合させる手法を提案し、従来のトークン化に伴う情報損失を回避して精度を高める。
-
Mitigating Scoring Errors and Compensating for Nonverbal Subtests in Speech-Based Dementia Assessment音声による認知症評価の採点誤差を補正する手法認知機能低下の早期発見は神経心理検査に依存するが、検査者の主観や非言語的サブテストの扱いが精度を左右する。本研究は音声ベースの認知症評価において採点誤差を緩和し、非言語サブテストを補完する手法を提案し、より客観的で安定した評価を目指す。
-
A Controlled Benchmark of Quantum-Latent GAN Augmentation for Brain MRI量子潜在GANで脳MRIを拡張する対照ベンチマーク医用画像分類はラベル付きデータの不足に制約される。本研究は量子的な潜在空間を用いたGANによるデータ拡張を脳MRI分類で検証する対照実験ベンチマークを構築し、量子潜在拡張が分類性能に与える効果を統制された条件で評価する。
-
GraphPO: Graph-based Policy Optimization for Reasoning Models推論モデル向けグラフベース方策最適化「GraphPO」検証可能な報酬による強化学習(RLVR)は推論モデルの標準的な学習法となった。GraphPOは推論過程をグラフとして捉える方策最適化手法を提案し、推論ステップ間の構造を活用してより効果的に推論能力を引き上げることを狙う。
-
RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models視覚言語モデルの戦略的推論を測るRTSベンチマーク最新の視覚言語モデル(VLM)は戦略的な推論を苦手とする。RTSGameBenchはリアルタイムストラテジー(RTS)ゲームを題材に、状況判断や計画立案といったVLMの戦略的推論能力を評価するベンチマークを提供する。
-
As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language比喩表現中の否定をLLMが解釈できるか検証比喩表現と否定はいずれも現在の言語モデルが苦手とする領域である。本研究は比喩的な言い回しの中に現れる否定を大規模言語モデルがどこまで正しく解釈できるかを評価し、両者が重なる難所でのモデルの限界を明らかにする。
-
Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extractionマルチモーダル感情原因対抽出の対の信頼度を頑健に学習マルチモーダル感情原因対抽出(MECPE)は、感情とその原因の対を信頼性高く特定する必要がある。本研究は対の信頼度を頑健に学習する手法を提案し、ノイズや曖昧さに強い感情原因対の抽出を実現する。
-
Improving Medical Communication using Rubric-Guided Counterfactual Recommendationsルーブリック指針の反実仮想提案で医療コミュニケーション改善テキストベースの遠隔医療は軽量な患者フィードバックに依存することが増えている。本研究はルーブリックに沿った反実仮想的な推奨を提示することで、より良い医療コミュニケーションを支援し、患者と医療者のやり取りの質を高める手法を提案する。
-
The State of Fable, The Jailbreak Problem, SpaceX Acquires CursorStratechery、Fableの現状・ジェイルブレイク問題・SpaceXのCursor買収を論じるBen ThompsonのStratecheryが3つの話題を取り上げる週次論考。AnthropicのモデルFableの現状、AIのジェイルブレイク(脱獄)問題、そしてSpaceXによるCursorの買収を論じる。筆者は「行政当局のFableに対する見方はおそらく誤りだが、最終的にはAnthropicの責任だ」と指摘する。各論点は筆者の見解ベースで、買収の詳細・数値は第三者検証は未確認。
-
Efficient Financial Language Understanding via Distillation with Synthetic Data合成データ蒸留で効率的な金融言語理解を実現指示追従型の大規模モデルは強力だが運用コストが高く、特に金融分野での展開は負担が大きい。本研究は合成データを用いた蒸留により、軽量でも金融言語を効率的に理解できるモデルを構築する手法を提案する。
-
Aligning Implied Statements for Implicit Hate Speech Generalizability with Context-Bounded Semi-hard Negative Mining含意の整合と半硬負例採掘で暗黙的ヘイト検出を一般化暗黙的なヘイトスピーチの分類は、意図が明示されないため難しい。本研究は文が含意する内容を整合させ、文脈を限定した半硬い負例の採掘を組み合わせることで、暗黙的ヘイト検出の汎化性能を高める手法を提案する。
-
ScholarSum: Student-Teacher Abstractive Summarization via Knowledge Graph Reasoning and Reflective Refinement知識グラフ推論と内省的改良の抽象要約「ScholarSum」抽象的要約は効率的な情報理解を支える重要技術である。ScholarSumは生徒・教師モデルの枠組みに知識グラフ推論と内省的な再改良を組み合わせ、事実性と一貫性を高めた抽象要約を生成する手法を提案する。
-
Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning長文脈強化学習のためのデータレシピ長い文脈にわたる推論は大規模言語モデルに不可欠な能力である。本研究は報酬設計に頼り過ぎず、学習データの構成(データレシピ)を工夫することで長文脈の強化学習を効果的に進める方法を示す。
-
Cursor、Gitホスティング「Origin」発表 SpaceXによる買収発表直後にCursor、Gitホスティング「Origin」発表 GitHub対抗かAIコーディングツール「Cursor」が、Gitホスティングサービス「Origin」を発表した。記事は「GitHub」に対抗する狙いがありそうだとしている。発表は SpaceX による Cursor 買収報道の直後とされる。買収額・詳細や Origin の機能は記事ベースで、第三者検証は未確認。
-
Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports放射線レポートの臨床的意義をLLM指標で評価生成された放射線レポートの信頼できる評価には厳密な臨床的妥当性が求められる。本研究は単純なスカラースコアを超え、臨床的意義を評価するLLMベースの指標を検討し、レポート生成の品質をより臨床に即して測ることを目指す。
-
HandwritingAgent: Language-Driven Handwriting Synthesis in Scalable Vector Space言語で手書き文字を合成する「HandwritingAgent」自然な手書きの筆致を機械に再現させることは未解決の課題である。HandwritingAgentは言語による指示から、拡大しても劣化しないベクトル空間上で手書き文字を合成する手法を提案し、多様な筆跡スタイルの生成を可能にする。
-
RedactionBench機微情報の墨消し能力を測る「RedactionBench」大規模言語モデルは個人情報など機微なデータを扱う領域に応用が広がっている。RedactionBenchはこうした文脈で必要となる機微情報の墨消し(リダクション)能力を評価するベンチマークを提供し、安全な運用に向けた検証を支援する。
-
Lost in a Single Vector: Improving Long-Document Retrieval with Chunk Evidence Aggregationチャンク証拠集約で長文書検索を改善密ベクトル検索は一つのクエリベクトルと一つの文書ベクトルを照合するが、長文書では情報が単一ベクトルに埋もれてしまう。本研究は文書をチャンクに分け、各チャンクの証拠を集約することで長文書検索の精度を高める手法を提案する。
-
LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension AssessmentLLMは読解問題の識別力指標の測定に苦戦識別力は教育的評価における基本的な心理測定特性で、習熟度の異なる学習者を見分ける力を表す。本研究は読解問題において、大規模言語モデルがこの項目識別力を測ることが難しいことを示し、自動評価の限界を指摘する。
-
Attention as Frustrated Synchronization注意機構を「フラストレートした同期」として捉える理論完全に同期する振動子ネットワークは何も計算しない。本研究は注意機構を、完全には同期しない(フラストレートした)同期現象として捉える理論的視点を提示し、物理的な同期の枠組みからTransformerの注意の働きを解釈する。
-
日立、OpenAIとの連携を本格化 「Codex」でレガシーシステム刷新、サイバー防衛も日立、OpenAIとの連携を本格化 Codexでレガシー刷新・サイバー防衛へ日立はOpenAIとの連携を本格化し、コード解析AI「Codex」と自社のシステム開発ノウハウを組み合わせる。既存コードから上流仕様を可視化し、新システムへの移行テストまでの一連の工程をAIで支援するアプローチの確立を目指すほか、サイバー防衛分野での活用も掲げる。
-
SpaceX、AIコーディング「Cursor」を9.6兆円で買収 「近く大幅な改善」へSpaceX、AIコーディング「Cursor」を9.6兆円で買収と報道SpaceXがAIコーディングツール「Cursor」を9.6兆円で買収すると報じられた。Cursor側は公式Xで「近く大幅な改善が行われる予定だ」と述べたとされる。買収の詳細や金額の裏付けは記事ベースで、第三者検証は未確認。
-
GrapheneOS has been ported to Android 17GrapheneOSがAndroid 17へ移植、正式版近くプライバシー重視のモバイルOS「GrapheneOS」がAndroid 17へ移植され、正式リリースが近いことを伝えるフォーラム投稿。移植状況の詳細はコミュニティ発表ベース。
-
Variable-Width Transformers幅可変Transformer、層ごとに幅を変え22%省FLOPs層ごとの計算的役割の違いに着目し、序盤と終盤を広く中盤を狭める×字型のTransformerを提案。パラメータ不要の残差リサイズ機構を用い、200M〜2BおよびMoE 3Bで幅一定のベースラインを上回り、同等性能で約22%のFLOPs削減とKVキャッシュ縮小を実現したと報告する。
-
ReproRepo: Scaling Reproducibility Audits with GitHub Repository IssuesReproRepo、GitHub課題で再現性監査をスケール論文とコードの再現は科学に不可欠だが既存ベンチマークは規模拡大が難しい。本研究はGitHubリポジトリのIssueを活用し、LLMエージェントが再現支援をどこまで行えるかを大規模に評価する枠組みReproRepoを提案する。
-
EvolveNav: Proactive Preflection and Self-Evolving Memory for Zero-Shot Object Goal Navigation軌跡記憶を自己進化させるゼロショット物体探索ナビゲーションを提案事前学習なしに目標物体を探すゼロショット物体目標ナビゲーションで、過去の軌跡から行動可能な知識を抽出する自己進化型の枠組みを提案する論文。ルール記憶と検索戦略により、テスト時の継続的な改善を実現すると述べる。