按领域与知识节点学习

选择下方领域进入知识节点树，点击节点查看该节点下的文档（PPT、DOC、Excel、TXT、知识卡片、MD 等），支持在线预览或下载。可与难度体系配合使用。

机器学习

人工智能的基础层，研究如何让计算机从数据中自动学习规律并用于预测或决策，无需显式编程。核心范式包括：监督学习（从标注数据学习输入到输出的映射，用于分类与回归）、无监督学习（聚类、降维与异常检测）、半监督学习（少量标注与大量无标注结合）与集成学习（多模型融合提升泛化）。与统计学习、凸优化与算法设计紧密相关，是深度学习与各类应用（推荐、风控、销量预测等）的理论与算法基础。

80 个节点0 份资料

🧠

深度学习

基于多层神经网络的机器学习方法，通过层次化表示学习从原始数据中自动提取特征，是当前 AI 爆发的核心驱动力。主要架构包括：CNN（卷积神经网络，擅长局部与空间结构，用于图像与序列）、RNN/LSTM（循环网络，建模序列与时间依赖）、Transformer（自注意力机制，在 NLP 与多模态中成为主流）。涉及表示学习、优化与正则化、损失设计与工程实现，是图像分类、语音识别、大语言模型与多模态模型的基础。

80 个节点0 份资料

💬

自然语言处理

研究让计算机理解、生成与运用人类语言的学科。涵盖语言理解（文本分类、命名实体识别、关系抽取、情感分析、语义解析等）、语言生成（机器翻译、摘要、对话与创作）、问答与推理、信息抽取与知识图谱构建。从传统统计方法到基于预训练语言模型（BERT、GPT 等）的范式，与搜索、客服、合同审核、智能写作等应用紧密结合，是大语言模型（LLM）与对话系统的核心应用领域。

80 个节点0 份资料

👁

计算机视觉

研究让计算机从图像与视频中感知、理解与生成视觉内容的学科。核心任务包括：图像分类与识别、目标检测与实例分割、语义与全景分割、图像/视频生成与编辑、视频理解（动作识别、时序定位、描述）、三维视觉与深度估计、人脸与人体分析、OCR 与文档理解。依赖 CNN、Transformer 与扩散模型等架构，应用于人脸识别、自动驾驶、医疗影像、工业质检、安防与内容创作等场景。

80 个节点0 份资料

🎤

语音技术

研究让机器「听清、说好、认人」的技术领域。包括：语音识别 ASR（将语音转文字，含端到端与流式、多语与低资源）、语音合成 TTS（从文本或特征生成自然语音，含声码器与神经 TTS）、声纹识别（说话人识别与验证）、语音前端（降噪、增强、分离）、语音理解与语义解析（意图、槽位、情感）。应用于智能音箱、车载语音、虚拟主播、会议转写、无障碍辅助与多模态交互等。

80 个节点0 份资料

✨

生成式 AI

利用 AI 创造新内容的领域，涵盖文本、图像、视频、音乐与代码等多种形态。核心技术包括：基于大语言模型的文本生成（续写、对话、摘要、创作）、扩散模型与 GAN 等图像生成（文生图、图生图、编辑与风格迁移）、文生视频与图生视频、音乐与代码生成。涉及提示工程、可控生成、幻觉缓解、安全对齐、水印与检测等；与 RAG、智能体与多模态结合，支撑 AI 写作、绘画、短视频、编程助手与创意工具等应用。

80 个节点0 份资料

📚

知识工程与符号 AI

基于符号、逻辑与知识库的表示与推理技术。核心包括：知识图谱（实体、关系与事实的构建、存储、嵌入与推理）、专家系统（规则与知识驱动的诊断与决策）、本体论（概念、层次与公理的形式化，RDF/OWL）、逻辑推理（一阶逻辑、归结与描述逻辑）以及神经符号结合（知识注入与可解释推理）。应用于智能搜索、推荐、风控、医疗诊断、合规审查与问答等，并与大模型结合形成知识增强的检索与生成。

80 个节点0 份资料

🎮

强化学习

智能体通过与环境交互、根据奖励信号学习最优决策策略的范式。基础包括 MDP 建模、价值函数与策略、动态规划/蒙特卡洛/时序差分；深度强化学习用神经网络近似值函数或策略（DQN、Actor-Critic、PPO、SAC 等），结合经验回放、探索与奖励设计。延伸方向包括多智能体 RL、离线 RL、逆强化学习与模仿学习、安全 RL 与基于模型的 RL。应用于游戏 AI（AlphaGo）、机器人控制、推荐与序列决策、自动驾驶与 LLM 对齐（RLHF）等。

81 个节点0 份资料

🤖

机器人与具身智能

将 AI 与物理世界中的机器人、车辆等实体结合，实现感知、决策与执行的闭环。涵盖运动学与动力学、轨迹规划与控制、视觉与多传感器感知、抓取与操作、导航与 SLAM；应用场景包括工业机器人（焊接、装配、质检）、服务与配送机器人、人形与仿生机器人、无人机与自动驾驶。结合模仿学习、强化学习与 sim2real，以及 ROS、仿真与安全标准，是具身智能与通用机器人的关键方向。

81 个节点0 份资料

🔗

多模态 AI

融合文本、图像、语音、视频等多种模态的表示、对齐与推理技术。核心包括视觉-语言模型（VLM）的预训练与对齐（如 CLIP、LLaVA）、图文/视频理解与生成、指代表达与定位（Referring、Grounding）、多模态检索与问答、视听融合与语音-视觉联合建模。通过统一编码或跨模态注意力实现「看图说话、听音识图」等能力，支撑 GPT-4V、文生图/视频、文档理解、智能驾驶多传感器融合与具身多模态等应用。

81 个节点0 份资料