Sign in
There are a total of 12 posts.
2025-12-19
本文阐述深度学习中梯度消失(Vanishing Gradient)现象的根源,解析 Sigmoid 与链式法则如何导致梯度衰减,并详细介绍 ReLU 与 ResNet 如何有效解决该问题,提供实战应用建议。
本文以通俗易懂的方式阐述了反向传播(Backpropagation)如何帮助 AI 找出错误根源,链式法则(Chain Rule)与 PyTorch Autograd 自动计算梯度的原理,以及深度网络中梯度消失(Vanishing Gradient)问题的成因与解决思路。
2025-12-17
我从开发者的视角,解释了为什么在深度学习中“求导”是必不可少的。在线性代数与非线性函数组合而成的模型中,导数就像一只指针,用来告诉我们如何调整方向以减小误差,并通过梯度下降和反向传播高效完成训练。文章还分步骤说明了导数如何更新参数,以及如何帮助我们在非线性带来的复杂损失曲面上更好地优化模型。
深度学习开发者常常困惑 NumPy 与 PyTorch 的关系。本文阐明 NumPy 主要用于 CPU 计算、数据预处理与可视化,而 PyTorch 则专注于 GPU 上的张量运算与自动微分。了解两者的内存共享与转换方式,可帮助你在实际项目中高效切换。
2025-12-16
NumPy的基本运算(+、-、*、/、**)、比较运算、聚合函数(sum、mean、max、min)以及axis概念,从深度学习角度进行详细说明。通过原子运算、标量运算、掩码使用、feature-wise与sample-wise统计计算等实战示例,帮助你快速将NumPy与PyTorch张量运算自然衔接,实现损失、准确率、归一化等核心计算。
2025-12-15
NumPy 是深度学习的基础工具,本文从向量化、广播、线性代数等核心概念出发,结合代码示例,阐述为何先学 NumPy 能让你更顺畅地使用 PyTorch,并提升数据预处理与模型实现的效率。
2025-11-21
本文讨论了从CPU转向GPU的原因、AI模型如何偏好矩阵运算以及性能提升的案例。阐述了GPU加速如何提升深度学习性能及矩阵运算的高效性。
2025-11-19
探索LoRA模型更新的秘密,介绍模仿人类记忆的微调技术,并通过遗忘和复习机制,提供LoRA模型高效更新策略和应用案例,为AI开发者和研究者提供实用洞察。
2025-06-09
CUDA是NVIDIA的并行计算平台,是利用GPU进行快速运算的关键技术。本文介绍其概念和结构。
应该学习深度学习和TensorFlow吗?探索一种在利用AI API进行快速开发与直接构建模型的技术能力之间的现实方法,为想制作自己AI的开发者提供方向。
学习使用TensorFlow的深度学习概念及线性回归模型的实现。通过实践了解张量和计算图的原理、数据预处理、模型选择、学习与优化过程。
本文整理了AI、机器学习和深度学习的区别,并介绍了如TensorFlow、PyTorch、Keras等主要深度学习框架,帮助读者了解各框架的特征和应用实例,选择合适的深度学习工具。