- 课题组负责人:郭兰哲 (南京大学智能科学与技术学院,准聘助理教授,博士生导师)
- 研究方向:神经符号学习 (Neuro-Symbolic Learning)、大模型推理 (LLM Reasoning)、智能体 (Agent)
- 具体包括:
- LLM / MLLM Reasoning: 研究高质量推理数据自动构建;有监督微调(SFT)、强化学习微调(RLFT)、Agentic Reasoning等大模型后训练算法;上下文工程、测试时采样等大模型推理时优化算法等,提升大模型推理能力并应用至数学、司法、遥感、医疗等垂直领域。
- Agent in Digital World: 构建能够在网页、操作系统等数字环境中运行,通过调用工具、软件、API等完成用户任务需求的的自主智能体。
- Agent in Physical World: 构建能够在虚拟游戏环境(例如Minecraft等)以及在真实物理环境中感知、推理和行动的游戏智能体和具身智能体,主要挑战在于长程任务规划、物理约束满足、空间推理能力、多智能体协调以及虚拟到现实的迁移等。
- AI for Open Problems: 探索基于大模型与智能体协助人类解决科学研究中的Open Problems,包括自动定理证明、自动算法设计、符号回归、科学发现等。
- 招生对象:直博生、硕士生、科研实习生(支持 Remote)
- 联系方式:欢迎感兴趣的同学联系 guolz@nju.edu.cn。
- 邮件标题建议注明:
[科研实习/保研/直博申请] 姓名-学校-年级-专业
- 邮件标题建议注明:
本学习大纲面向从 0 到 1 入门的本科生,目标是在 6-8 周 内,帮助同学建立对课题组研究方向的整体认知、核心技术理解与基础科研能力,为后续参与真实科研项目打下基础。
- 基础夯实:了解人工智能、大模型、智能体基础知识,能够自主检索并读懂前沿论文与代码。
- 领域认知:理解什么是大模型/多模态推理、LLM Agent、Neuro-Symbolic Learning。
- 科研素养:具备“提出问题 -> 文献检索 -> 代码复现 -> 实验分析”的完整科研闭环能力。
说明:此阶段为“准入资格”学习。在正式加入课题组参与科研实习之前,你应当具备人工智能、大模型的基础知识。你可以参照下面的大纲,结合提供的参考资料,或者网上其他优质资料进行学习 预备工作:
- 阅读《如何做研究与写论文》,了解人工智能领域科研的基本流程“Topic -> Problem -> Idea -> Concrete Work”
- 请自行搜索,了解什么是arXiv、HuggingFace、Google Scholar、DBLP
- 了解ICML、NeurIPS、ICLR、ACL等人工智能顶级会议,具备根据某个topic检索相关论文的能力
学习目标:
- 掌握神经网络的基本原理,能够理解前向传播与反向传播的数学推导与代码实现
- 掌握 CNN/ResNet、RNN 等机器学习基础模型架构
- 掌握 Pytorch 核心组件的使用,例如 Dataloader、损失函数、模型搭建、优化器等
参考资料:
学习目标:
- 掌握 Transformer 的核心机制 (Self-Attention, Positional Encoding, Decoder-only vs Encoder-Decoder 等)
- 了解 GPT 系列、LLaMA 系列等典型大语言模型
参考资料:
学习目标:
- 了解 Vision Transformer (ViT) 的基本原理
- 了解 LLaVA、Qwen-VL 系列等前沿多模态大模型
参考资料:
学习目标:
- 掌握基础的Prompt Engineering (Zero-shot, Few-shot, etc) 及 API 调用方式
- 掌握Chain-of-Thought等大模型推理机制
- 掌握SFT、PPO、DPO、GRPO等提升基座模型推理能力的后训练方式
- 了解GSM8K、MATH等常用的benchmark
参考资料:
- Prompt Engineering Guide
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models
- SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
学习目标:
- 理解大模型Agent的基本概念与核心架构,能够区分Agent与普通对话型LLM的差异
- 掌握ReAct等基础Agent框架的原理与实现
- 了解Agent的记忆机制与规划方法
- 了解大模型Agent背景下,Mutli-Agent系统的基本概念
参考资料:
- LLM Powered Autonomous Agents --经典必读
- 《从零开始构建智能体》 --偏工程视角
一阶段需要学到什么程度?答:
- 能够加载一个开源模型,在GSM8K数据上完成推理并得到评估结果
- 能够基于ReaAct实现一个包含工具调用Agent框架
考核方式: 完成上述基础知识学习之后,可以约时间进行交流(线下或线上会议),无需准备PPT等材料,交流方式为面试提问,通过后即可作为科研实习生加入课题组. 主要围绕基础概念的理解,不会过多关注算法细节的记忆.
说明:进入此阶段,你已经正式开始科研训练。本阶段重点在于论文调研、阅读、复现与思考
核心流程:
- 了解方向:了解本组的主要科研方向(Neuro-Symbolic Learning,LLM Reasoning,Agent)。
- 选择题目:结合自己的兴趣,选择一个方向
- 实践汇报:完成相应的论文阅读以及代码实践,并形成 PPT 汇报
本训练计划并非考核某个固定答案,而是帮助你判断: 你是否真正享受分析问题、阅读论文、调试代码和反思实验的过程。 如果你对“研究问题本身”感到兴奋,那么欢迎加入我们。
- 神经符号学习 (Neuro-Symbolic Learning)
- 大模型推理与规划 (LLM/MLLM Reasoning & Planning)
- 智能体 (Agent)
- 符号回归 (Symbolic Regression)
请结合个人兴趣选择一个方向,检索并阅读相关论文并完成代码实践
- 不要求完整复现论文全部实验,但需要在至少 1 个数据集上跑通完整算法流程,并得到结果
- 尽量复用开源框架(如
LLaMA-Factory,TRL,LangChain等),重点在于掌握算法流程以及分析实验结果,而非重复造轮子 - 若算力受限,请优先使用 PEFT (LoRA/QLoRA) 或小参数量模型(如 Qwen-2.5-1.5B/3B)
- 如果在实践过程中未能复现论文中的性能结果,并不视为失败;请尝试定位问题来源、分析原因并给出合理解释
- 如果要复现自行查找的论文,请优先选择近两年 (2025年后) 在顶会 (ICML/NeurIPS/ICLR) 上发表的,或具有较高影响力 (Citation>100) 的文章
LLM很擅长“看起来有道理但实际错误的回答”,在需要严格逻辑推导的任务上容易出错,本方向的主要目标是提升大模型严谨的逻辑推理能力。如果你对数理逻辑、形式化方法感兴趣,或者喜欢一步步推导结论的严谨感,可以关注这个方向。
- Logic-LM: Empowering Large Language Models with Symbolic Solvers for Faithful Logical Reasoning
- Faithful Logical Reasoning via Symbolic Chain-of-Thought
- VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks
🎯 实践任务
基于上述提供的论文,调研结合Formal Language与Symbolic Solver提升LLM逻辑推理能力的工作,在至少1个逻辑推理benchmark中进行1篇论文复现
目标:体会结合形式化语言与求解器提升LLM逻辑推理能力的思想
数学推理是检验LLM推理能力的经典战场,从小学应用题到IMO竞赛题,模型的表现差异巨大。本方向主要目标是提升大模型的数学推理能力,其中涉及到的算法思路也可以迁移到司法、医疗等其他垂直领域场景。如果你对数学、或者垂域大模型训练感兴趣,可以关注这个方向。
- Neuro-Symbolic Data Generation for Math Reasoning
- NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation (一作是智科院 2023 级本科生,大二期间完成)
🎯 实践任务:
复现上述论文数据合成的方法,并基于SFT或GRPO算法微调一个开源大语言模型或者多模态大模型,在一个数学推理数据集(例如GSM8K、MATH、MathVista、WeMath等)进行评测,分析合成数据与训练算法对模型推理性能的影响
目标:体会SFT与RL作为两种常用post-training范式的区别,并学会使用两种方式提升base model推理能力;SFT为必选任务,GRPO如果跑不起来,可以只掌握原理/代码实现
给定一幅图像和对应的问题,如何完成相应的推理任务?人类在处理图像推理时会在脑海里思考,例如“画辅助线”、“放大局部”等,但现有的多模态大模型只能被动地看一眼图片然后回答,这个方向探索如何让模型在推理过程中主动生成、修改和利用中间图像,实现边想边看。
- DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning
- Thyme: Think Beyond Images
- TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
- WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent
- Thinking with Images for Multi-Modal Reasoning: Foundations, Methods, and Future Frontiers
🎯 实践任务:
调研 "Think with Images" 方向的论文,尝试在一个视觉推理数据集上,复现一种方法,并进行结果分析
目标:体会think with images这一方向的主要研究问题和常见范式;如果算力不允许可以优先选择Training-Free的方法
ARC-AGI-Challenge是一个专门设计来测试AI泛化能力的视觉谜题,每道题会给你若干个输入输出的图案样例,需要归纳出背后的抽象规则,并预测新的输入。这是一个难度很高的谜题,被认为是实现AGI的重要挑战。基于该数据集,每年都会举办奖金超过100万美元的比赛。
🎯 实践任务:
了解什么是 ARC Challenge,调研相应的论文与解决方案,并尝试实现至少一种方法,分析其结果和瓶颈
目标:了解ARC Challenge这一任务,熟悉已有的方法范式
给定一个复杂的用户旅行需求,例如,“预算5000元,从南京出发,三天游云南,需要满足xxx偏好”,如何让Agent自动调用工具、查询信息、并生成一个满足约束的合理方案?这个方向的核心挑战在于如何让LLM真正可靠的完成复杂的约束满足和规划任务,比较贴近实际应用场景。
- TravelPlanner: A Benchmark for Real-World Planning with Language Agents
- ChinaTravel: An Open-Ended Benchmark for Language Agents in Chinese Travel Planning
- Mind the Gap to Trustworthy LLM Agents: A Systematic Evaluation on Constraint Satisfaction for Real-World Travel Planning (AAAI 2026 Trust Agent Workshop Best Student Paper, 前两位作者均为智科院本科生)
🎯 实践任务:
基于 ReAct 框架构建一个简单的 Agent,分析其在上述两个数据集中的性能表现
目标:体会Travel Planning这一任务的关键挑战(约束可满足的复杂规划能力)以及潜在解决方案
这个方向尝试探索让Agent在模拟或真实的环境中行动,比如在Minecraft中自主探索、采矿、建造,或者在家居场景中,让机器人完成具身任务,这里的挑战在于环境是动态的、反馈是稀疏的、任务是长程的,Agent需要具备记忆、技能积累和自我反思的能力。如果你对游戏智能体、具身智能体感兴趣,这个方向会比较有意思。
- Voyager: An Open-Ended Embodied Agent with Large Language Models
- WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents
- InstructFlow: Adaptive Symbolic Constraint-Guided Code Generation for Long-Horizon Planning
- Agent Workflow Memory
- Inducing Programmatic Skills for Agentic Tasks
- Training-Free Group Relative Policy Optimization
- Re2 Agent: Reflection and Re-execution Agent for Embodied Decision Making (NeurIPS 2025 EAI Challenge Most Innovative Approach)
🎯 实践任务:
参考上面的论文,在我的世界 (MineCraft) 环境或具身数据集 ALFWorld 或者Web Agent环境WebShop中进行实验,并汇报性能结果。 (注:MineCraft 相对来说环境更为复杂,且对模型能力要求较高,请根据自身工程能力选择)
目标:了解Agent Skill、Agent Memory等相关内容,熟悉相关的benchmark
给你一批科学家的观测数据,能否发现背后隐藏的科学规律?比如从物理实验数据中自动发现牛顿定律,这就是符号回归的目标。传统方法依赖演化计算等搜索策略,而近年来LLM的引入带来了新的思路,如果你对AI4Science感兴趣,这个方向值得关注。
🎯 实践任务:
基于上述 Tutorial,阅读相关论文,尝试复现论文 LLM-SR: Scientific Equation Discovery via Programming with Large Language Models,根据论文给出的 Github 仓库跑通代码,并对比原文中的结果
目标:了解Symbolic Regression任务,常见的benchmark以及LLM时代的主流方法
💡 自定义方向 如果你对其他隶属于 Neuro-Symbolic Learning、Agent、LLM Reasoning 领域的研究方向感兴趣(比如多模态医学推理、遥感图像推理、Chart QA、智慧司法、或者我的世界之外的其他游戏场景等),也可以提前进行沟通,得到允许之后,可以自行发挥查阅相关文献,按对等要求完成(即复现至少 1 篇论文算法在 1 个数据集上的实验结果)
完成上述任务之后,需要准备一份 PPT 进行汇报,内容应包含:
- 领域背景简介:该方向主要解决什么科学问题?为什么重要?
- 代表方法介绍:有哪些代表性的方法,核心思路是什么?(尽量用自己的语言简洁叙述,不要照搬原文)
- 实验结果分析:实验设置、实验结果、分析讨论等
- 未来思考:基于你的实践,你认为该方向下一步可以做什么?
PPT 制作基本原则:
- PPT 可以用中文或英文制作
- 不需要设置动画,导出为 PDF 格式
- 字体建议:中文使用微软雅黑,英文使用 Times New Roman
- 涉及到参考文献的需要添加引用,参考文献放在本页PPT的最下方
- 可以使用 Powerpoint,也可以使用 LaTeX,以文档排版美观、易于阅读为最终目标
关于本文档的任何问题或者建议,欢迎留言或邮件咨询~~