開発者ツール B

312 件中 121〜150 件目を表示
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    A Hybrid LSTM--Vision Transformer Architecture for Predicting HRRR Forecast Errors
    LSTM と ViT の融合で高解像度数値予報 HRRR の誤差を予測
    強化学習 Transformer
    高解像度数値天気予報(HRRR など NWP)の予測誤差は、未解像の惑星境界層(PBL)過程や対流、地形起源の循環など鉛直構造を持つ現象に関係することが多い。本研究は LSTM と Vision Transformer を組み合わせたハイブリッド構造で、HRRR の予報誤差を予測する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Sumi: Open Uniform Diffusion Language Model from Scratch
    Sumi、ゼロから構築したオープンな一様拡散言語モデル
    深層学習 強化学習
    拡散モデルは自己回帰モデルの有望な代替となりつつある。中でも一様拡散言語モデル(UDLM)は、どのトークンも任意のステップで更新できる柔軟性を持つ。本研究はゼロから構築したオープンな UDLM「Sumi」を公開し、拡散型言語モデルの研究と再現性を後押しする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    G-IdiomAlign: A Gloss-Pivoted Benchmark for Cross-Lingual Idiom Alignment
    慣用句の言語間対応を測る新ベンチマーク「G-IdiomAlign」
    埋め込み (Embeddings)
    慣用句は非構成的で直訳が効かず、言語間の対応付けが難しい。本研究はWiktionaryの英語注釈を軸に各慣用句を固定した評価基盤G-IdiomAlignを提案。多肢選択式の慣用句等価判定と、注釈の有無を比較する生成タスクの2プロトコルで、注釈がもたらす効果を切り分けて評価できる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    ThinkDeception: A Progressive Reinforcement Learning Framework for Interpretable Multimodal Deception Detection
    解釈可能なマルチモーダル虚偽検出のRL枠組み「ThinkDeception」
    機械学習 ニューラルネットワーク 強化学習
    虚偽検出の既存手法は端から端までのブラックボックスで、推論過程を示せず解釈性に乏しい。本研究は段階的な強化学習の枠組みThinkDeceptionを提案し、複数モダリティにまたがる微妙な手掛かりを明示的に捉えながら、透明な推論軌跡を伴う虚偽検出を実現する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    Beyond Tokenization: Direct Timestep Embedding and Contrastive Alignment for Time-Series Question Answering
    時系列を直接埋め込み時系列質問応答を高めるTSQA手法
    埋め込み (Embeddings) 機械学習 検索拡張生成 (RAG) ソフトウェア工学
    大規模言語モデルの進展で、時系列分析を自然言語の質問応答として扱う時系列QA(TSQA)が登場した。本研究は時系列をトークン化せずタイムステップを直接埋め込み、対照学習で言語表現と整合させる手法を提案し、従来のトークン化に伴う情報損失を回避して精度を高める。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    Mitigating Scoring Errors and Compensating for Nonverbal Subtests in Speech-Based Dementia Assessment
    音声による認知症評価の採点誤差を補正する手法
    埋め込み (Embeddings) 検索拡張生成 (RAG) 強化学習 音声処理
    認知機能低下の早期発見は神経心理検査に依存するが、検査者の主観や非言語的サブテストの扱いが精度を左右する。本研究は音声ベースの認知症評価において採点誤差を緩和し、非言語サブテストを補完する手法を提案し、より客観的で安定した評価を目指す。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 安全性・評価 抜粋
    A Controlled Benchmark of Quantum-Latent GAN Augmentation for Brain MRI
    量子潜在GANで脳MRIを拡張する対照ベンチマーク
    医用画像分類はラベル付きデータの不足に制約される。本研究は量子的な潜在空間を用いたGANによるデータ拡張を脳MRI分類で検証する対照実験ベンチマークを構築し、量子潜在拡張が分類性能に与える効果を統制された条件で評価する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 学習・ファインチューニング 抜粋
    GraphPO: Graph-based Policy Optimization for Reasoning Models
    推論モデル向けグラフベース方策最適化「GraphPO」
    ニューラルネットワーク 強化学習 ソフトウェア工学
    検証可能な報酬による強化学習(RLVR)は推論モデルの標準的な学習法となった。GraphPOは推論過程をグラフとして捉える方策最適化手法を提案し、推論ステップ間の構造を活用してより効果的に推論能力を引き上げることを狙う。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN マルチモーダル 抜粋
    RTSGameBench: An RTS Benchmark for Strategic Reasoning by Vision-Language Models
    視覚言語モデルの戦略的推論を測るRTSベンチマーク
    AI エージェント コンピュータビジョン ニューラルネットワーク 検索拡張生成 (RAG)
    最新の視覚言語モデル(VLM)は戦略的な推論を苦手とする。RTSGameBenchはリアルタイムストラテジー(RTS)ゲームを題材に、状況判断や計画立案といったVLMの戦略的推論能力を評価するベンチマークを提供する。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗
  • arXiv cs.CL (Computation and Language) · EN 開発者ツール 抜粋
    As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language
    比喩表現中の否定をLLMが解釈できるか検証
    ニューラルネットワーク 強化学習
    比喩表現と否定はいずれも現在の言語モデルが苦手とする領域である。本研究は比喩的な言い回しの中に現れる否定を大規模言語モデルがどこまで正しく解釈できるかを評価し、両者が重なる難所でのモデルの限界を明らかにする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 開発者ツール 抜粋
    Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extraction
    マルチモーダル感情原因対抽出の対の信頼度を頑健に学習
    推論 (Inference) 検索拡張生成 (RAG)
    マルチモーダル感情原因対抽出(MECPE)は、感情とその原因の対を信頼性高く特定する必要がある。本研究は対の信頼度を頑健に学習する手法を提案し、ノイズや曖昧さに強い感情原因対の抽出を実現する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Improving Medical Communication using Rubric-Guided Counterfactual Recommendations
    ルーブリック指針の反実仮想提案で医療コミュニケーション改善
    推論 (Inference) Meta
    テキストベースの遠隔医療は軽量な患者フィードバックに依存することが増えている。本研究はルーブリックに沿った反実仮想的な推奨を提示することで、より良い医療コミュニケーションを支援し、患者と医療者のやり取りの質を高める手法を提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • Stratechery (free posts) · EN 安全性・評価 抜粋
    The State of Fable, The Jailbreak Problem, SpaceX Acquires Cursor
    Stratechery、Fableの現状・ジェイルブレイク問題・SpaceXのCursor買収を論じる
    Anthropic
    Ben ThompsonのStratecheryが3つの話題を取り上げる週次論考。AnthropicのモデルFableの現状、AIのジェイルブレイク(脱獄)問題、そしてSpaceXによるCursorの買収を論じる。筆者は「行政当局のFableに対する見方はおそらく誤りだが、最終的にはAnthropicの責任だ」と指摘する。各論点は筆者の見解ベースで、買収の詳細・数値は第三者検証は未確認。
    元記事を読む (Stratechery (free posts)) ↗
  • arXiv cs.CL (Computation and Language) · EN 推論・効率化 抜粋
    Efficient Financial Language Understanding via Distillation with Synthetic Data
    合成データ蒸留で効率的な金融言語理解を実現
    ニューラルネットワーク 自然言語処理 (NLP) 強化学習
    指示追従型の大規模モデルは強力だが運用コストが高く、特に金融分野での展開は負担が大きい。本研究は合成データを用いた蒸留により、軽量でも金融言語を効率的に理解できるモデルを構築する手法を提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    Aligning Implied Statements for Implicit Hate Speech Generalizability with Context-Bounded Semi-hard Negative Mining
    含意の整合と半硬負例採掘で暗黙的ヘイト検出を一般化
    音声処理
    暗黙的なヘイトスピーチの分類は、意図が明示されないため難しい。本研究は文が含意する内容を整合させ、文脈を限定した半硬い負例の採掘を組み合わせることで、暗黙的ヘイト検出の汎化性能を高める手法を提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 開発者ツール 抜粋
    ScholarSum: Student-Teacher Abstractive Summarization via Knowledge Graph Reasoning and Reflective Refinement
    知識グラフ推論と内省的改良の抽象要約「ScholarSum」
    抽象的要約は効率的な情報理解を支える重要技術である。ScholarSumは生徒・教師モデルの枠組みに知識グラフ推論と内省的な再改良を組み合わせ、事実性と一貫性を高めた抽象要約を生成する手法を提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN エージェント・ツール使用 抜粋
    Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning
    長文脈強化学習のためのデータレシピ
    AI エージェント 検索拡張生成 (RAG) 強化学習
    長い文脈にわたる推論は大規模言語モデルに不可欠な能力である。本研究は報酬設計に頼り過ぎず、学習データの構成(データレシピ)を工夫することで長文脈の強化学習を効果的に進める方法を示す。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • ITmedia AI+ · JA 新モデル・リリース 抜粋
    Cursor、Gitホスティング「Origin」発表 SpaceXによる買収発表直後に
    Cursor、Gitホスティング「Origin」発表 GitHub対抗か
    AIコーディングツール「Cursor」が、Gitホスティングサービス「Origin」を発表した。記事は「GitHub」に対抗する狙いがありそうだとしている。発表は SpaceX による Cursor 買収報道の直後とされる。買収額・詳細や Origin の機能は記事ベースで、第三者検証は未確認。
    元記事を読む (ITmedia AI+) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports
    放射線レポートの臨床的意義をLLM指標で評価
    推論 (Inference) 機械学習
    生成された放射線レポートの信頼できる評価には厳密な臨床的妥当性が求められる。本研究は単純なスカラースコアを超え、臨床的意義を評価するLLMベースの指標を検討し、レポート生成の品質をより臨床に即して測ることを目指す。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    HandwritingAgent: Language-Driven Handwriting Synthesis in Scalable Vector Space
    言語で手書き文字を合成する「HandwritingAgent」
    深層学習 ニューラルネットワーク 検索拡張生成 (RAG)
    自然な手書きの筆致を機械に再現させることは未解決の課題である。HandwritingAgentは言語による指示から、拡大しても劣化しないベクトル空間上で手書き文字を合成する手法を提案し、多様な筆跡スタイルの生成を可能にする。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    RedactionBench
    機微情報の墨消し能力を測る「RedactionBench」
    ニューラルネットワーク 強化学習
    大規模言語モデルは個人情報など機微なデータを扱う領域に応用が広がっている。RedactionBenchはこうした文脈で必要となる機微情報の墨消し(リダクション)能力を評価するベンチマークを提供し、安全な運用に向けた検証を支援する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Lost in a Single Vector: Improving Long-Document Retrieval with Chunk Evidence Aggregation
    チャンク証拠集約で長文書検索を改善
    深層学習 推論 (Inference) 強化学習
    密ベクトル検索は一つのクエリベクトルと一つの文書ベクトルを照合するが、長文書では情報が単一ベクトルに埋もれてしまう。本研究は文書をチャンクに分け、各チャンクの証拠を集約することで長文書検索の精度を高める手法を提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 安全性・評価 抜粋
    LLMs Struggle to Measure What Distinguishes Students of Different Proficiency Levels: A Study of Item Discrimination in Reading Comprehension Assessment
    LLMは読解問題の識別力指標の測定に苦戦
    ソフトウェア工学
    識別力は教育的評価における基本的な心理測定特性で、習熟度の異なる学習者を見分ける力を表す。本研究は読解問題において、大規模言語モデルがこの項目識別力を測ることが難しいことを示し、自動評価の限界を指摘する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    Attention as Frustrated Synchronization
    注意機構を「フラストレートした同期」として捉える理論
    Transformer
    完全に同期する振動子ネットワークは何も計算しない。本研究は注意機構を、完全には同期しない(フラストレートした)同期現象として捉える理論的視点を提示し、物理的な同期の枠組みからTransformerの注意の働きを解釈する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • ITmedia AI+ · JA 開発者ツール 抜粋
    日立、OpenAIとの連携を本格化 「Codex」でレガシーシステム刷新、サイバー防衛も
    日立、OpenAIとの連携を本格化 Codexでレガシー刷新・サイバー防衛へ
    OpenAI
    日立はOpenAIとの連携を本格化し、コード解析AI「Codex」と自社のシステム開発ノウハウを組み合わせる。既存コードから上流仕様を可視化し、新システムへの移行テストまでの一連の工程をAIで支援するアプローチの確立を目指すほか、サイバー防衛分野での活用も掲げる。
    元記事を読む (ITmedia AI+) ↗
  • ITmedia AI+ · JA 開発者ツール 抜粋
    SpaceX、AIコーディング「Cursor」を9.6兆円で買収 「近く大幅な改善」へ
    SpaceX、AIコーディング「Cursor」を9.6兆円で買収と報道
    SpaceXがAIコーディングツール「Cursor」を9.6兆円で買収すると報じられた。Cursor側は公式Xで「近く大幅な改善が行われる予定だ」と述べたとされる。買収の詳細や金額の裏付けは記事ベースで、第三者検証は未確認。
    元記事を読む (ITmedia AI+) ↗
  • Hacker News (Front Page) · EN 開発者ツール 抜粋
    GrapheneOS has been ported to Android 17
    GrapheneOSがAndroid 17へ移植、正式版近く
    プライバシー重視のモバイルOS「GrapheneOS」がAndroid 17へ移植され、正式リリースが近いことを伝えるフォーラム投稿。移植状況の詳細はコミュニティ発表ベース。
    元記事を読む (Hacker News (Front Page)) ↗
  • arXiv cs.CL (Computation and Language) · EN 推論・効率化 抜粋
    Variable-Width Transformers
    幅可変Transformer、層ごとに幅を変え22%省FLOPs
    深層学習 Mixture of Experts (MoE) 検索拡張生成 (RAG) 強化学習 Transformer
    層ごとの計算的役割の違いに着目し、序盤と終盤を広く中盤を狭める×字型のTransformerを提案。パラメータ不要の残差リサイズ機構を用い、200M〜2BおよびMoE 3Bで幅一定のベースラインを上回り、同等性能で約22%のFLOPs削減とKVキャッシュ縮小を実現したと報告する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.CL (Computation and Language) · EN 新モデル・リリース 抜粋
    ReproRepo: Scaling Reproducibility Audits with GitHub Repository Issues
    ReproRepo、GitHub課題で再現性監査をスケール
    AI エージェント GPT 機械学習 検索拡張生成 (RAG) 強化学習
    論文とコードの再現は科学に不可欠だが既存ベンチマークは規模拡大が難しい。本研究はGitHubリポジトリのIssueを活用し、LLMエージェントが再現支援をどこまで行えるかを大規模に評価する枠組みReproRepoを提案する。
    元記事を読む (arXiv cs.CL (Computation and Language)) ↗
  • arXiv cs.AI (Artificial Intelligence) · EN 新モデル・リリース 抜粋
    EvolveNav: Proactive Preflection and Self-Evolving Memory for Zero-Shot Object Goal Navigation
    軌跡記憶を自己進化させるゼロショット物体探索ナビゲーションを提案
    AI エージェント ニューラルネットワーク 検索拡張生成 (RAG)
    事前学習なしに目標物体を探すゼロショット物体目標ナビゲーションで、過去の軌跡から行動可能な知識を抽出する自己進化型の枠組みを提案する論文。ルール記憶と検索戦略により、テスト時の継続的な改善を実現すると述べる。
    元記事を読む (arXiv cs.AI (Artificial Intelligence)) ↗