/avatar.png

CMU 10-414/714: Deep Learning Systems (2020) - 深度学习系统 hw0

10-714: Homework 0 build a basic softmax regression algorithm, plus a simple two-layer neural network github hw0 Question 1: A basic add function, and testing/autograding basics plement simple_ml.add() function in src/simple_ml.py testing: !python3 -m pytest -k "add" 根据测试,由于 add(x, y) 传入的参数可以是任意类型,则直接返回 return x + y 没有

CMU 10-414/714: Deep Learning Systems (2020) - 深度学习系统 04 Automatic Differentiation

Automatic Differentiation hypothesis class: $x \rightarrow h_\theta(x)$, MLP loss function(cross-entropy loss): $\ell(x, y) = -h_y(x) + \log \sum_{j=1}^n \exp(h_j(x))$ optimization method: $\theta := \theta - \alpha \nabla_\theta \ell$ 机器学习/深度学习是否就是在学习参数集合 $\theta$? 除了 SGD 随机梯度下降,还有 Adam 等优化方法 计算 gradient

Paper Reading: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

Megatron-LM Nvidia 开源的 Megatron-LM 大模型训练框架 结合 Model Parallelism 和 Pipeline Parallelism 实现了 Tensor Model Parallelism 基于 Transformer 和 Attention 进行切分,同样是经典的一篇分布式语言模型训练的文章 论文比较短,细节很少,需要结

阅读笔记:微服务架构

微服务架构 回顾下微服务架构的一些知识,包括服务发现、负载均衡、可用性,很多东西没有实操过所以难以记住,需要多多回顾。 来自极客时间的课程 https://time.geekbang.org/column/intro/100551601 后端