目录
第二章
2.1线性回归
2-2代价函数(类似误差一样)
2.5-2.6 梯度下降算法,梯度下降算法理解
2.3 线性回归的梯度下降 / Batch梯度下降
第四章
4.1 多变量线性回归假设函数
4.2 多元(多变量)梯度下降算法
4.3 梯度下降实用技巧1-特征缩放
4.4 梯度下降算法实用技巧2 -学习率的选择
4.5 特征与多项式回归
4.6正规方程(对于某些线性回归方程给出更好的方法求得参数x(塞塔)的最优值)
4.6.2 正规方程同梯度下降比较
第二章
2.1线性回归
m:表示训练样本数量
x:代表输入数量或者特征
y:预测目标/输出目标
(x,y)训练集中的一个样本 (x^i,y^i)代表训练集中样本的索引 i
2-2代价函数(类似误差一样)
平方误差代价函数是解决回归问题最常用的手段。其中二分之一m其实是数学的一种表达,使其误差显得更小一点
2.5-2.6 梯度下降算法,梯度下降算法理解
用来寻找代价函数J(xo,xi)的最小值,下图为梯度算法要干嘛:
梯度算法背后的数学原理,下图为梯度算法的计算公式及正确的验算步骤:
左侧正确格式算法、右侧错误算法,因为没有同步更新
需要同时更新x1,x0,其中x1:=x2是赋值,x1=x2是判断符号,α是你所迈步子的大小
下图为梯度算法形象图解:
下图为 只有一个参数时候的x1:=重新赋值 (更新值),
下图为α学习率的形象理解:
2.3 线性回归的梯度下降 / Batch梯度下降
下图为梯度算法与线性回归以及代价函数的三者的组合应用,其目的就是为了求得θ1,θ0:
下图为θ0θ1的最后表示,
梯度回归的局限性: 可能得到的是局部最优解
线性回归的梯度下降的函数是凸函数,因此没有局部最优解,只有全局最优解
凸函数图像:
第四章
4.1 多变量线性回归假设函数
参照:吴恩达 - 机器学习课程笔记(持续更新)_做一只猫的博客-CSDN博客_吴恩达机器学习课程笔记
4.2 多元(多变量)梯度下降算法
下图为多元梯度(含偏导式子):
m:表示训练样本数量
x:代表输入数量或者特征
y:预测目标/输出目标
(x,y)训练集中的一个样本 (x^i,y^i)代表训练集中样本的索引 i(第i个样本),下角字母表示第几个矩阵中第几个数据
4.3 梯度下降实用技巧1-特征缩放
特征缩放,先看左边的图,如果有两个特征,一个特征是房子大小0-2000,而另一个特征是卧室的数量(1-5),那么画出来的代价函数的图像,就是椭圆状,这种图像经过梯度下降算法,很难收敛,因为(x0,x1)会来回震荡。(查找路径更加直线化,可以尽快找到全局最小)
参考: 【机器学习】机器学习笔记(吴恩达)_Bug 挖掘机的博客-CSDN博客_机器学习笔记
注: 使用特征缩放时,有时候会进行均值归一化的操作,使其范围比较接近就可以接受
特征值x1=( x1 -u1) / s1
这里的u1 就是训练数据集当中 x1 的平均值,而 s1 就是 x1的范围,即x1最大值-x1 最小值。 s1 也可以取x1的标准差,不过一般用x1最大值-x1 最小值就行
4.4 梯度下降算法实用技巧2 -学习率的选择
在梯度下降算法运行过程中,该图的横轴是迭代次数,而 竖轴是代价函数的最小值,通常情况下,迭代次数越多,代价函数的最小值会依次减小。有一个自动收敛测试,当J(x)小于 10-3 次方时,就认为已经收敛
像上图中的三幅图,都要降低学习率a。但是如果学习率a太小的话,收敛就会很慢,那么如何选择合适的学习率呢。(α代表上述箭头的跨度/不发大小)
先找一个最小的学习率,再找一个太大的学习率,然后取一个最大可能值或比最大值小一些的值,作为学习效率α
4.5 特征与多项式回归
参考:【机器学习】机器学习笔记(吴恩达)_Bug 挖掘机的博客-CSDN博客_机器学习笔记
4.6正规方程(对于某些线性回归方程给出更好的方法求得参数x(塞塔)的最优值)
在讲正规方程以前,我们知道使用梯度下降,是通过迭代的方法,使得代价函数不断下降
通过求导,或者求所有变量的偏微分等于0(类似条件极值),可以获取函数的最小值,但这样实现起来过于复杂,这里我需要知道实现原理即可
对于下面这个例子,有4个特征,我们构造x0的一列,然后表示出矩阵X和向量y,通过下面这个式子就能直接求出的最小值(正规矩阵避免了一直求导求极值的麻烦,可以一步到位)(就像最小二乘法)
构造正规方程的步骤如下:(这儿构造的x的转置矩阵上小标写反了)
下图中的正规矩阵可以求得最小值代价函数值 minJ(o)
注意:使用正规方程,不用进行特征缩放
对比梯度下降和正规方程,一般特征数量 n>10000 对于线性回归模型就可以使用梯度下降



