自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1689)
  • 资源 (7)
  • 收藏
  • 关注

原创 论文略读:MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses

本研究探讨大语言模型(LLMs)在化学领域的自动科学发现潜力,重点考察其能否仅凭研究背景问题生成新颖有效的研究假设。基于"化学假设可由背景问题与灵感来源推导"的洞见,研究将问题分解为三个子任务:灵感检索、假设生成和假设排序。通过构建包含51篇顶级期刊论文的基准数据集,并设计基于LLM的多智能体框架,实验证明该方法能有效"重新发现"论文的核心创新点。研究成果验证了LLM在加速化学科学发现方面的可行性。

2025-06-14 23:32:12 117

原创 论文略读: LAYERWISE RECURRENT ROUTER FOR MIXTURE-OF-EXPERTS

本文针对MoE模型中路由器独立分配token导致的参数效率低下问题,提出层间循环路由器RMoE。通过引入GRU建立跨层路由决策依赖关系,RMoE实现高效并行计算的同时显著提升模型性能。实验表明,该架构通过跨层信息共享改善了专家选择的准确性和多样性,且能与现有MoE方法无缝集成。研究为提升MoE模型的参数效率提供了新思路。

2025-06-14 23:24:02 95

原创 论文略读: CITYANCHOR: CITY-SCALE 3D VISUAL GROUNDING WITH MULTI-MODALITY LLMS

本文提出CityAnchor方法,用于城市级点云中的三维视觉指定位。针对现有方法难以处理大规模点云的局限,该方法采用两阶段策略:先通过LLM模型在二维地图上粗定位候选区域,再在这些区域进行细粒度匹配。在CityRefer和新建数据集上的实验验证了该方法的准确性和可扩展性,解决了城市级点云视觉定位的挑战。

2025-06-14 15:17:31 122

原创 论文略读:Imputation for prediction: beware of diminishing returns.

缺失值在众多领域中普遍存在,给预测模型的训练与部署带来了挑战。(如均值填充),也可能在某些情境下表现出一致性(consistency)和竞争力。这项研究挑战了“插补越好,预测越准”的常规假设,为资源分配提供了更理性的依据。:在真实数据场景下,配合强大模型时,插补质量对最终预测性能的影响是。依然对预测性能有帮助,这与传统统计学观点略有不同。然而,近期的理论与实证研究表明,即便是简单的。相比之下,对真实世界数据的预测影响较小。(如随机森林、深度神经网络)时;因此,在许多实际应用中,

2025-06-13 11:53:12 216

原创 论文略读:Projection Head is Secretly an Information Bottleneck

近年来,对比学习(contrastive learning)作为一种提取有意义数据表示的有前景范式,受到了广泛关注。,已被证明能够显著提升对比学习的性能。然而,尽管这一策略在实践中非常成功,其背后的作用机制。出发,对投影头的本质进行了深入的理论研究。我们建立了一个理论框架,能够对。我们相信,这一对投影头作用的理论理解,将为未来在对比学习中的。,以提升其对无关信息的过滤能力。基于上述理论洞察,我们提出了。我们的方法在下游性能上实现了。

2025-06-13 11:12:04 158

原创 论文略读:Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN

相比之下,**后置层归一化(Post-LN)**虽然能在深层保持更大的梯度,但会在浅层遭遇梯度消失的问题。在监督微调阶段,使用 Mix-LN 预训练的模型表现也更好,说明其在提升深层表示质量方面效果显著。尽管部分研究将此视为模型压缩的契机,本文则将其视为一种。我们证明:像 GPT 和 LLaMA 等主流模型所采用的 Pre-LN 会导致模型深层的。大型语言模型(LLMs)已取得显著成果,但近期研究发现,其。,该方法将 Pre-LN 与 Post-LN。,在不增加模型参数规模的前提下,,维持稳定梯度传导;

2025-06-13 11:08:04 165

原创 论文略读:Unlearning or Obfuscating? Jogging the Memory of Unlearned LLMs via Benign Relearning

摘要:研究发现当前大语言模型的遗忘方法存在严重漏洞,容易被简单的"良性"再学习攻击破解。实验表明,仅用少量松散相关数据(如公开医学文章或维基信息)就能唤醒模型"被遗忘"的有害知识(如生物武器信息或文本记忆)。通过对三个主流遗忘基准的测试,发现现有方法仅抑制输出而非真正清除知识表征。研究揭示了当前遗忘技术的本质缺陷,并提出了改进方向与防御建议。

2025-06-13 10:54:24 110

原创 论文略读:Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models

在深度学习的更广泛背景下,多模态大型语言模型(Multimodal Large Language Models)通过将强大的大型语言模型(LLMs)作为骨干,有效地将不同模态对齐至语言空间,从而取得了重大突破。我们实验证明,即使是当前表现最好的 Video-LLMs,在面对无关问题时也无法做出拒答——这并非因其缺乏视频理解能力,而是因为它们。该工作不仅提高了 Video-LLMs 在真实场景下的实用性,也为模型“知之为知之,不知为不知”的能力构建奠定了基础。然而,在现实场景中,用户往往会提出。

2025-06-13 10:33:25 119

原创 论文略读:Number Cookbook: Number Understanding of Language Models and How to Improve It

本研究首次对 LLM 的数值理解与处理能力进行了全面细致的刻画,构建了结构完备的评估基准,并探讨了不同模型架构与训练策略对 NUPA 的影响,揭示了当前 LLM 在基础数值认知方面的显著不足,同时为未来模型的改进提供了重要参考。

2025-06-13 10:22:23 249

原创 论文略读:MUSE: Machine Unlearning Six-Way Evaluation for Language Models

本文提出MUSE评估框架,针对语言模型机器遗忘技术建立了六项关键评估标准:防止原文/知识记忆、隐私保护、模型效用保持、可扩展性和可持续性。通过在70亿参数模型上测试8种主流遗忘算法发现:现有方法普遍难以兼顾删除效果与模型可用性,仅少数能防止隐私泄露,多数会损害保留数据性能且无法支持连续/大规模删除。研究揭示了当前机器遗忘技术的实用缺陷,强调未来需优化删除效果与模型性能的平衡。

2025-06-13 10:05:23 311

原创 论文略读:MoLEx: Mixture of Layer Experts for Fine-tuning with Sparse Upcycling

本文提出层专家混合模型MoLEx,一种新型参数高效微调方法。针对现有PEFT方法忽视模型层间信息互补性的问题,MoLEx创新地将预训练模型不同层作为"专家"进行条件组合,通过选择性激活层组合提取更丰富的结构化信息。该方法属于稀疏专家混合结构,在保持高效性的同时不增加额外计算开销。实验表明,MoLEx在GLUE和E2E等NLU/NLG任务中显著提升性能,为参数高效微调提供了利用模型层结构资源的新思路。

2025-06-13 08:30:36 347

原创 论文略读:Do Large Language Models Truly Understand Geometric Structures?

几何能力对大型语言模型(LLMs)而言是一项重大挑战,因为它不仅要求模型具备高级的空间理解力,还涉及抽象思维能力。然而,现有的数据集大多只关注模型的。基于 GeomRel 基准,我们对多种 LLM 进行了系统评估,发现当前模型在理解几何结构方面仍存在显著局限性。GeoCoT 的引入不仅带来了显著的性能改进,也为提升 LLM 的空间推理能力提供了新的研究方向。,该方法引导模型在解题过程中明确推理几何关系,从而显著提升了模型的识别和推理能力。,更准确地评估 LLM 对几何结构的理解能力。

2025-06-13 08:09:14 206

原创 论文略读:SysBench: Can LLMs Follow System Message?

本文介绍了一个名为SysBench的新基准,旨在评估大型语言模型(LLMs)对系统消息的遵循能力。针对当前LLMs在约束违规、指令误判和多轮对话不稳定性方面的局限,研究团队构建了包含500条定制化系统消息和多样化多轮对话的手工数据集,涵盖六类常见约束类型。通过制定完整的评估协议,研究对多个现有LLMs进行了系统测试,揭示了模型在遵循系统消息方面的优缺点。这项工作填补了该领域缺乏全面评估基准的空白,为未来优化LLMs的系统消息响应能力提供了重要参考。

2025-06-13 08:03:20 99

原创 论文略读:Ask, and it shall be given: On the Turing completeness of prompting

本文首次对大型语言模型(LLM)的提示范式进行理论研究,证明提示机制具有图灵完备性:固定大小的Transformer通过适当提示可实现任意可计算函数。研究还发现有限规模LLM通过提示能达到接近无限规模模型的复杂度上限。该成果为提示工程提供了理论基础,表明固定规模LLM通过提示即可实现多任务处理与泛化能力,为后续研究指明方向。

2025-06-13 07:56:33 169

原创 论文略读:Why Does the Effective Context Length of LLMs Fall Short?

实验结果表明,STRING 在无需重新训练的情况下,大幅提升了最新大规模模型(如 Llama3.1 70B 和 Qwen2 72B)在长上下文基准测试(RULER 和 InfiniteBench)中的表现,提升幅度超过 10 个百分点,分布式训练技术和高效注意力机制的进步,显著扩展了大型语言模型(LLMs)的上下文窗口长度。本研究将这一局限归因于:在预训练与后训练阶段,模型内部形成了。,这一分布妨碍了模型有效捕捉远距离信息的能力。,提升模型在长上下文中的表现能力。,以覆盖原本无效的位置,从而在。

2025-06-13 01:02:04 187

原创 论文略读:A Large-scale Dataset and Benchmark for Commuting Origin-Destination Flow Generation

通勤起始-目的地(OD)流是城市规划与交通系统中的关键输入,提供了某一地区居民在其他地区工作的流动信息。然而,受限于高昂的数据采集成本,研究者提出了多种物理和计算模型,利用现成的城市属性(如社会经济数据和兴趣点)来。这一发现可能会启发该领域向**图生成建模(graph generative modeling)**方向迈进。现有研究采用了多种不同技术,在不同数据集上使用不同评估指标,导致模型间难以直接比较,阻碍了统一评估标准的建立。为解决这一问题,我们构建了一个。的通勤OD流,涵盖了各类城市环境。

2025-06-13 00:58:30 161

原创 论文略读“LLM Unlearning via Loss Adjustment with Only Forget Data

这一挑战的根本原因在于,利用显式的保留数据或参考模型中隐含的保留知识来微调模型,往往会模糊“应被遗忘”与“应被保留”数据之间的界限,因为不同的查询可能引发相似的响应。所定义的f-散度的变分形式从理论上提供了一种调整损失的方式,即通过对模板响应的学习与对应被遗忘响应的忘记赋予不同的权重。实验结果表明,我们的方法不仅在遗忘性能方面优于现有方法,同时还能最小化对模型保留能力的影响,在多个任务上保持较高的效用,包括在《哈利·波特》数据集和MUSE基准上的版权内容遗忘,以及在TOFU数据集上的实体遗忘任务。

2025-06-13 00:53:46 137

原创 论文略读:Diffusion Transformers for Tabular Data Time Series Generation

本文提出基于DiffusionTransformers(DiTs)的方法解决时序表格数据生成的两大挑战:数据异质性和序列长度可变性。通过扩展DiTs框架并引入异构数据支持,在六个数据集上的实验表明,该方法显著优于现有技术,为这一新兴领域提供了有效解决方案。

2025-06-12 18:37:50 158

原创 论文略读:Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs

本文提出LoKU框架,针对大型语言模型(LLMs)中的敏感数据遗忘问题,设计了一种高效稳健的解决方案。该方法采用反向合页损失抑制敏感词生成,并引入基于相对Fisher信息的低秩初始化策略,实现选择性参数更新。实验在GPT-Neo、Phi-1.5B和Llama2-7B模型上进行验证,结果表明LoKU能有效删除敏感信息,同时最小化对模型性能的影响。项目代码已开源。

2025-06-12 18:33:46 304

原创 论文略读:CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery

CS-Bench:首个计算机科学领域的多语言基准测试集 研究团队开发了CS-Bench,这是首个用于评估大型语言模型(LLMs)在计算机科学领域表现的多语言基准测试集。该测试集包含约10,000个样本,覆盖计算机科学四大核心领域的26个子领域,支持英语、中文、法语和德语四种语言。通过对30多个主流LLM的系统评估,研究发现模型规模与其计算机科学能力密切相关,并发现LLMs在该领域的表现与其数学和编程能力高度相关。研究还量化分析了现有模型的不足,指出知识补充和专属推理机制等改进方向。该成果为评估LLMs在计算

2025-06-12 18:30:45 164

原创 论文略读:Large Language Models Assume People are More Rational than We Really are

研究发现主流大型语言模型(LLMs)对人类决策行为的预测存在系统性偏差:这些模型普遍高估人类理性程度,更倾向于使用期望值理论而非真实人类决策模式进行预测。有趣的是,这种偏差与人类在解释他人行为时表现出的"理性预期"高度相似。研究表明,LLMs学习到的决策模型更接近"人们如何期望别人决策",而非"人们实际如何决策",揭示了模型与人类心理预期之间的微妙对齐,以及其在理解真实人类行为上的局限。该成果通过系统比较多种先进LLMs与大规模人类决策数据集得出。

2025-06-12 18:20:25 472

原创 论文略读:Small-to-Large Generalization: Training Data Influences Models Consistently Across Scale

本文探讨了训练数据分布对不同规模语言模型行为的影响。研究发现,小模型和大模型对数据变化的响应高度相关,这一发现为利用低成本代理模型推断大模型行为提供了依据。研究重点分析了这一规律在数据归因和数据集选择两个关键应用中的有效性,证明小规模实验可有效预测大模型趋势,为优化大规模模型开发的数据策略提供了经济可行的解决方案。

2025-06-12 17:38:04 97

原创 论文略读:AutoG: Towards automatic graph construction from tabular data

本文聚焦图机器学习中常被忽视的图构建问题,针对现有研究缺乏系统性探索的现状,提出两项核心贡献:一是构建专用数据集以形式化评估图构建方法,二是开发基于大语言模型的AutoG自动建图系统。实验证明AutoG生成的图结构质量媲美人工构建,显著影响下游任务性能。研究为自动图构建提供了标准化评估框架与实用工具,相关代码已开源。

2025-06-12 17:34:36 281

原创 论文略读:S4M: S4 for multivariate time series forecasting with Missing values

本文提出端到端时间序列预测框架S4M,用于解决块状缺失数据场景下的预测问题。与传统两阶段方法不同,S4M将缺失数据建模直接集成到结构化状态空间序列模型(S4)中,通过自适应时间原型映射器提取稳健表示,并采用缺失感知双流S4模型处理数据,有效捕捉时空依赖关系。实验表明,S4M在多个真实数据集上表现优于现有方法,展现了处理缺失数据的强大能力。代码已开源。

2025-06-12 17:22:24 254

原创 论文略读:HR-Extreme: A High-Resolution Dataset for Extreme Weather Forecasting

本文针对极端天气预测的数据和模型不足问题,提出了高分辨率极端天气数据集HR-Extreme,基于NOAA的HRRR数据构建。评估发现现有深度学习模型和数值预报系统对极端天气的预测误差显著高于整体水平。提出的改进模型HR-Heim在极端天气预测上表现更优。研究揭示了极端天气是重要误差来源,强调未来需重点提升其预测准确性以增强实用价值。

2025-06-12 17:17:52 169

原创 论文略读:RegMix: Data Mixture as Regression for Language Model Pre-training

RegMix 首先在多种数据混合上训练大量小模型,通过回归模型预测未见数据混合的性能,最后将预测效果最好的混合比例。上训练,用于拟合回归模型并预测最佳混合策略。随后,我们使用该预测的最佳混合比例训练了一个。(即模型大小扩大 1000 倍,训练数据量扩大 25 倍)。大型语言模型(LLM)的预训练数据混合比例对模型性能有显著影响,但。,因此需要 RegMix 这样的自动方法;,以此实现计算资源的大规模放大利用。更进一步,RegMix 在最多。不同领域之间的交互十分复杂,在实证验证中,我们训练了。

2025-06-11 15:27:10 283

原创 论文略读 CAUSALRIVERS- SCALING UP BENCHMARKING OF CAUSAL DISCOVERY FOR REAL-WORLD TIME-SERIES

【摘要】本文介绍了CausalRivers——目前最大规模的时序因果发现基准套件,旨在解决现有方法在真实场景评估不足的问题。该基准基于东德(666站)和巴伐利亚(494站)2019-2023年15分钟分辨率的水文数据,包含易北河洪水事件等特殊场景,构建了两个真实因果图并可生成数千子图。实验评估了多种因果发现方法的表现,证明该基准能促进方法间的公平比较。除因果发现外,该数据集还可用于时序预测、异常检测等领域,有望推动因果发现方法的发展。

2025-06-11 15:24:54 268

原创 论文略读:When Attention Sink Emerges in Language Models: An Empirical View

本文研究发现,自回归语言模型中普遍存在"注意力陷阱"现象,即模型对首个token分配过多注意力。研究揭示该现象源于预训练中softmax归一化导致的键偏置,表现为非信息性的注意力分数存储。实验表明,在10亿参数规模以内,采用sigmoid注意力可消除该现象。该发现为理解语言模型机制和优化推理过程提供了新视角。

2025-06-11 15:19:38 468

原创 论文略读:RAG-SR: Retrieval-Augmented Generation for Neural Symbolic Regression

为缓解语言模型可能产生的“幻觉(hallucination)”,我们设计了一个。,在运行时自适应地生成符合语义需求的符号树,作为有效的特征构造模块。,以便更好地与基于搜索的符号回归算法集成。,这不仅消耗大量计算资源,还难以应对包含。,显式利用搜索到的符号表达式进行约束。,进一步提升模型的鲁棒性与泛化能力。为解决这些限制,我们提出了一个。实验结果表明,我们的框架在。此外,我们还引入了一种。

2025-06-11 15:16:03 258

原创 论文略读:Multiple-choice question answering (MCQA) is a key competence of performant transformer languag

多项选择问答(Multiple-choice question answering, MCQA)是衡量高性能 Transformer 语言模型核心能力的关键任务,已被多个主流基准广泛采用。然而,近期研究发现,即使是表现优异的模型,在任务格式稍作变化(例如打乱选项顺序)时,性能也可能大幅波动。为此,我们采用**词汇投影(vocabulary projection)与激活补丁(activation patching)**等方法,定位模型中负责预测正确答案的关键隐藏状态。最后,我们发现,在整个训练过程中,

2025-06-11 11:59:01 127

原创 论文略读:Mixture-of-Agents Enhances Large Language Model Capabilities

摘要: 论文提出了一种新型的Mixture-of-Agents(MoA)架构,用于整合多个大语言模型(LLMs)的集体智慧。该分层结构通过让每层代理(agent)参考前一层所有代理的输出,实现了多模型优势的协同。实验表明,MoA在AlpacaEval2.0、Arena-Hard等基准测试中性能超越GPT-4Omni,达到了当前最优水平。该方法为多LLM协同提供了有效解决方案。

2025-06-11 11:56:05 319

原创 论文略读:DAILYDILEMMAS:REVEALINGVALUEPREFERENCES OFLLMSWITHQUANDARIESOFDAILYLIFE

Plutchik 情绪之轮(Plutchik's Wheel of Emotions)马斯洛需求层次(Maslow's Hierarchy of Needs)道德基础理论(Moral Foundations Theory)亚里士多德美德伦理(Aristotle's Virtues)世界价值观调查(World Values Survey)

2025-06-11 11:52:27 319

原创 论文略读:Robustness Reprogramming for Representation Learning

2025 ICLR spotlight

2025-06-11 11:23:13 144

原创 论文略读:Adversarial Perturbations Cannot Reliably Protect Artists From Generative AI

ICLR 2025 spotlight 6888

2025-06-11 01:26:58 180

原创 论文略读:NetMoE: Accelerating MoE Training through Dynamic Sample Placement

2025 ICLR spotlight 66888

2025-06-11 01:15:57 212

原创 论文略读:MIND over Body: Adaptive Thinking using Dynamic Computation

ICLR 2025 oral

2025-06-11 00:53:38 147

原创 论文略读:HOW MUCH OF MYDATASET DID YOU USE? QUANTITATIVE DATA USAGE INFERENCE IN MACHINE LEARNING

ICLR 2025。

2025-06-11 00:39:21 140

原创 论文略读:REEF: Representation Encoding Fingerprints for Large Language Models

等操作具有良好鲁棒性。

2025-06-11 00:18:22 323

原创 论文略读:Rethinking the generalization of drug target affinity prediction algorithms via similarity awar

2025 ICLR oral

2025-06-11 00:12:51 196

原创 论文略读: CUT YOUR LOSSES IN LARGE-VOCABULARY LANGUAGE MODELS

ICLR 2025 oral

2025-06-11 00:07:55 224

data.gov.sg geojson部分项目整理

data.gov.sg geojson部分项目整理

2025-03-05

network embedding lecture slide

Representation Learning on Networks 1) Node embeddings:Map nodes to low dimensional embeddings 2) Graph neural networks:Deep learning architectures for graph structured data 3) Applications

2023-01-01

elements of information theory

elements of information theory

2022-10-21

计算机组成与设计硬件软件接口-课后习题答案

计算机组成与设计硬件软件接口--课后习题答案

2022-10-21

python 实现 cmaes (调用方便)

import barecmaes2 as cma res = cma.fmin( 目标函数名, 结果向量的初始值, cmaes寻找值的标准差, 目标函数的其他参数, 最大更新轮数, 目标函数值【默认越小越好】, 多少轮输出一次中间结果, 多少轮输出进log文件, 多少轮画一张图) 返回的结果是 (xbest, fbest, evalsbest, evals, iterations, xmean,`` `` termination_condition, CMAES_object_instance, data_logger) eg: res = cma.fmin(cma.Fcts.elli, 10 * [0.5], 0.3, verb_disp=100,verb_plot=0)

2022-02-13

newyork.osm.pbf

newyork.osm.pbf

2021-09-24

algorithm design answer

​​Jon kleinberg那本的答案

2021-09-12

ASTGCN(AAAI 2019).pdf

attention based spatial-temporal graph convolutional networks for traffic flow forecasting

2021-08-13

赵鑫_中国人民大学_如何以初学者的身份写好一篇国际学术论文.zip

赵鑫_中国人民大学_如何以初学者的身份写好一篇国际学术论文.zip

2021-08-01

浅谈研究生学位论文选题

浅谈研究生学位论文选题

2021-08-01

Tips for prospective and early-stage PhD students

ICLR 2020

2021-08-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除