选择下方领域进入知识节点树,点击节点查看该节点下的文档(PPT、DOC、Excel、TXT、知识卡片、MD 等),支持在线预览或下载。可与难度体系配合使用。
人工智能的基础层,研究如何让计算机从数据中自动学习规律并用于预测或决策,无需显式编程。核心范式包括:监督学习(从标注数据学习输入到输出的映射,用于分类与回归)、无监督学习(聚类、降维与异常检测)、半监督学习(少量标注与大量无标注结合)与集成学习(多模型融合提升泛化)。与统计学习、凸优化与算法设计紧密相关,是深度学习与各类应用(推荐、风控、销量预测等)的理论与算法基础。
基于多层神经网络的机器学习方法,通过层次化表示学习从原始数据中自动提取特征,是当前 AI 爆发的核心驱动力。主要架构包括:CNN(卷积神经网络,擅长局部与空间结构,用于图像与序列)、RNN/LSTM(循环网络,建模序列与时间依赖)、Transformer(自注意力机制,在 NLP 与多模态中成为主流)。涉及表示学习、优化与正则化、损失设计与工程实现,是图像分类、语音识别、大语言模型与多模态模型的基础。
研究让计算机理解、生成与运用人类语言的学科。涵盖语言理解(文本分 类、命名实体识别、关系抽取、情感分析、语义解析等)、语言生成(机器翻译、摘要、对话与创作)、问答与推理、信息抽取与知识图谱构建。从传统统计方法到基于预训练语言模型(BERT、GPT 等)的范式,与搜索、客服、合同审核、智能写作等应用紧密结合,是大语言模型(LLM)与对话系统的核心应用领域。
研究让计算机从图像与视频中感知、理解与生成视觉内容的学科。核心任务包括:图像分类与识别、目标检测与实例分割、语义与全景分割、图像/视频生成与编辑、视频理解(动作识别、时序定位、描述)、三维视觉与深度估计、人脸与人体分析、OCR 与文档理解。依赖 CNN、Transformer 与扩散模型等架构,应用于人脸识别、自动驾驶、医疗影像、工业质检、安防与内容创作等场景。
研究让机器「听清、说好、认人」的技术领域。包括:语音识别 ASR(将语音转文字,含端到端与流式、多语与低资源)、语音合成 TTS(从文本或特征生成自然语音,含声码器与神经 TTS)、声纹识别(说话人识别与验证)、语音前端(降噪、增强、分离)、语音理解与语义解析(意图、槽位、情感)。应用于智能音箱、车载语音、虚拟主播、会议转写、无障碍辅助与多模态交互等。
利用 AI 创造新内容的领域,涵盖文本、图像、视频、音乐与代码等多种形态。核心技术包括:基于大语言模型的文本生成(续写、对话、摘要、创作)、扩散模型与 GAN 等图像生成(文生图、图生图、编辑与风格迁移)、文生视频与图生视频、音乐与代码生成。涉及提示工程、可控生成、幻觉缓解、安全对齐、水印与检测等;与 RAG、智能体与多模态结合,支撑 AI 写作、绘画、短视频、编程助手与创意工具等应用。
基于符号、逻辑与知识库的表示与推理技术。核心包括:知识图谱(实体、关系与事实的构建、存储、嵌入与推理)、专家系统(规则与知识驱动的诊断与决策)、本体论(概念、层次与公理的形式化,RDF/OWL)、逻辑推理(一阶逻辑、归结与描述逻辑)以及神经符号结合(知识注入与可解释推理)。应用于智能搜索、推荐、风控、医疗诊断、合 规审查与问答等,并与大模型结合形成知识增强的检索与生成。
智能体通过与环境交互、根据奖励信号学习最优决策策略的范式。基础包括 MDP 建模、价值函数与策略、动态规划/蒙特卡洛/时序差分;深度强化学习用神经网络近似值函数或策略(DQN、Actor-Critic、PPO、SAC 等),结合经验回放、探索与奖励设计。延伸方向包括多智能体 RL、离线 RL、逆强化学习与模仿学习、安全 RL 与基于模型的 RL。应用于游戏 AI(AlphaGo)、机器人控制、推荐与序列决策、自动驾驶与 LLM 对齐(RLHF)等。
将 AI 与物理世界中的机器人、车辆等实体结合,实现感知、决策与执行的闭环。涵盖运动学与动力学、轨迹规划与控制、视觉与多传感器感知、抓取与操作、导航与 SLAM;应用场景包括工业机器人(焊接、装配、质检)、服务与配送机器人、人形与仿生机器人、无人机与自动驾驶。结合模仿学习、强化学习与 sim2real,以及 ROS、仿真与安全标准,是具身智能与通用机器人的关键方向。
融合文本、图像、语音、视频等多种模态的表示、对齐与推理技术。核心包括视觉-语言模型(VLM)的预训练与对齐(如 CLIP、LLaVA)、图文/视频理解与生成、指代表达与定位(Referring、Grounding)、多模态检索与问答、视听融合与语音-视觉联合建模。通过统一编码或跨模态注意力实现「看图说话、听音识图」等能力,支撑 GPT-4V、文生图/视频、文档理解、智能驾驶多传感器融合与具身多模态等应用。