人工智能必备数学基础：高等数学基础（2）

时间 2020-12-22

标签 html git github 算法数组网络机器学习函数 post 性能栏目应用数学繁體版

原文原文链接

若是须要小编其余数学基础博客，请移步小编的GitHub地址

　　传送门：请点击我html

　　若是点击有误：https://github.com/LeBron-Jian/DeepLearningNotegit

　　这里我打算补充一下机器学习涉及到的一些关于微积分的知识点。github

　　微积分是高等数学中研究函数的微分，积分以及有关概念和应用的数学分支。它是数学的一个基础学科。内容主要包括极限，微分学，积分学及其应用。微分学包含求导数的运算，是一套关于变化率的理论。它使得函数，速度，加速度和曲线的斜率等都可用一套通用的符号进行讨论。积分学，包含求积分的运算，为定义和计算面积，体积等提供一套通用的方法。算法

　　前一节博客已经整理了求导的公式，一些经常使用的概念。这里主要学习一下微积分的起源。由于微积分是现代数学的基础，后面学习的线性代数，矩阵论，最优化方法等数学课程都须要微积分的知识。单就机器学习和深度学习而言，更多的用到微分，积分基本上只在几率论中被使用，几率密度函数，分布函数等概念和计算都要借助于积分来定义或计算。　　数组

　　前一节的博客地址：网络

人工智能必备数学基础：高等数学基础（1）机器学习

　　（注意：目前本身补充到的全部知识点，均按照本身网课视频中老师课程知识点走的，同时一些公式是网友辛辛苦苦敲的，这里用到那个博客均在文末补充地址，不过这里首先表示感谢！！）函数

　　（特别感谢此博客（深刻浅出的讲解了微积分）：https://www.zhihu.com/question/336322284/answer/918067537）post

1，微积分的起源

　　微积分有多重要，相信你们多多少少内心有点数，特别是咱们这些学数学的。好了废话很少说了，直接来学。性能

　　微积分诞生于 17 世纪，主要帮助人们解决各类速度，面积等实际问题。下图为微积分的发明者牛顿和莱布尼兹大佬，瞻仰一下。

　　咱们从小学数学就学会了各类求面积的公式，好比长方形，三角形，圆，梯形等等。不知道你们有没有想过一个问题：好像咱们每新学习一种新图形就有一个新的面积公式，但是世界上有无数种图形，咱们难道要记无数种公式吗？，并且还有一些图形根本没有什么面积公式，好比随手画一条曲线，这条曲线围成的面积如何计算呢？　　

　　因此面对如何求一条曲线围成的面积就有不少人去研究。面对这个问题，古今中外的数学家的想法都是相似的，那就是：用咱们熟悉的图像（好比三角形，长方形等）去逼近曲线围成的图像面积。这就比如在铺地砖的时候，咱们会用尽量多的瓷砖填满地板，而后这些瓷砖的面积之和差很少就是地板的面积。这里就蕴含了微积分的思想了。

　　微积分主要解决如何求曲线的面积。咱们这里能够把微积分拆分红 “微分” 和 “积分”两个词，

　　首先来看积分，积分这个词当初被造出来，就是用来表示“由无穷个无穷小的面积组成的面积S”。

　　如上图所示，若是一条曲线 y=f(x) 和 x 轴在 a 和 b 之间围成的面积为A，那么咱们就能够这样表示这部分面积A：

　　微积分的思想是：以直代曲。

　　为了加深一下对上面这个积分公式的理解，咱们再来用矩阵试一下，对于矩形，咱们能够轻松求得其面积，那么是否可以用矩形代替曲线形状呢?若是要代替则应该用多少个矩阵来代替呢？

　　以下图，咱们能够将其分为四个矩阵，九个矩阵：

　　咱们用有限个矩阵把a和b之间分为四份，咱们看到若是只是用矩阵求面积的话，仍是有很大偏差的，可是使用九个的话，偏差就缩小了，那么咱们是否可使用无穷多个矩形来逼近原面积，这样偏差就变得无穷小了，答案是确定的。当咱们使用无数个矩阵来逼近原面积的时候，每一个矩形的底天然就变成了无穷小，这个无穷小的底就是上面的 dx，而 f(x) 就是函数的纵坐标，矩阵的底，高相乘不就是求面积了吗？

　　下面说说公式由来。

　　在 ab 之间插入若干个点，这样就获得了 n个小区间。

　　每个小矩形面积为：

　　近似获得曲线面积：

　　当分割无限加细，每一个小区间的最大长度为 λ ，此时 λ -> 0

　　曲边面积：

　　不过这里再吹吹牛逼。

　　上面将 dx 当作一个无穷小的底，把积分当作求面积，这些都是微积分创立初期的见解。这种见解很是符合咱们的直观，可是逻辑上是不严密的。这种无穷小量 dx 也招致了不少人（好比贝克莱）对微积分的攻击，而且引起了第二次数学危机，这场危机一直到19世纪柯西等人完成了微积分的严密化以后才完全化解。随着微积分的涅槃重生，咱们对这些基本概念的见解也发生了根本的改变。

　　关于求面积的事情这里就说完了。“用一些图形去无限逼近曲线图形”的想法很早就有了，穷竭法在古希腊就很成熟了，中国魏晋时期的数学家刘徽使用割圆术去逼近圆周率也是这种思想。到了17世纪初，这些思想并无什么太大的改变，因为这些解法比较复杂，又很难扩展，因此你们的关注度并不高。

　　没办法，由于打死人也想不到：破解这种求曲线面积（求积分）的关键，居然藏在一个看起来跟他毫无关联的东西身上，这个东西就是微积分名字的另外一半：微分。当牛顿和莱布尼兹意识到微分和积分之间的内在关系以后，数学就迎来了一次空前的大发展。

　　从求和出发，咱们须要尽量的将每个矩阵的底边无穷小，莱布尼兹为了体现求和的感受，给 S 拉长了，简写成：∫ f(x) dx。

2，直线和斜率

　　微积分的基本概念是导数。

　　关于导数呢，举个例子：咱们登山的时候，山越陡越难爬；骑车的时候，路面的坡度越大越难骑。一个面的坡度越大，倾斜的越厉害，咱们就越难上去，那么咱们该如何衡量这个倾斜程度呢？

　　在平面里画一条直线，咱们能够直观地看出这条直线的倾斜程度，并且还不难发现：无论在直线的什么地方，它的倾斜程度都是同样的。因此咱们就能够用一个量来描述这整条直线的倾斜程度，这个概念就被形象的称为斜率。

　　那么，一条直线的斜率要怎么计算呢？这个想法也很直观：建一个坐标系，看看直线在 x 轴改变了 Δx 的时候，它在 y 轴的改变量 Δy 是多少。若是 Δx 是固定的，那么显然 Δy 越大，这条直线就斜的越厉害，斜率也就越大。

　　这就和咱们判断跑步的速度是同样的道理：给定一个固定的时间，好比10秒（至关于固定的 Δx），看看你能跑多远（至关于 Δy），你跑的越远（Δy 越大），我就认为你跑得就越快。固然也能够反过来，给定一个固定的距离，好比100米（至关于Δy），你跑的时间越短（Δx 越小），我就认为你跑的越快。

　　把这两种状况综合一下，咱们就能发现：固定时间（Δx）也好，固定距离（Δy）也好，最终起决定做用的是Δy和Δx的比值Δy/Δx。这个比值越大，你就跑得越快，对应的直线也就越陡。因此，咱们就能够在直线上随意找两个点，用它们纵坐标之差Δy和横坐标之差Δx的比值（Δy/Δx）来定义这条直线斜率。

　　学过三角函数的同窗也会知道，这个斜率恰好就是这条直线和x轴夹角θ的正切值tanθ，即：tanθ=Δy/Δx。这就是说，直线和x轴的夹角θ越大，它的斜率就越大，就倾斜的越厉害，这跟经验都是一致的。

3，曲线和切线

　　直线好说，关键是曲线怎么办？曲线跟直线不一样，它彻底能够在这里平缓一点，在那里陡峭一点，它在不一样地方的倾斜程度是不同的。因此，咱们就不能说一条曲线的倾斜程度（“斜率”），而只能说曲线在某个具体点的倾斜程度。

　　因而咱们要引入一个新的概念：切线。

　　切线，直观的看，就是恰好在这点“碰到”曲线的直线，由于切线是直线，因此切线有斜率，因而咱们就能够用切线的斜率表明曲线在这点的倾斜程度。

　　传统上咱们能够这样定义切线：先随便画一条直线，让这条直线与曲线有两个交点，这样的直线叫割线（仿佛把曲线“割断”了，以下图蓝色的AB）。而后，咱们让B点沿着曲线慢慢向A点靠近，直观上，等到B点和A点重合以后，割线AB就变成了曲线在A点的切线。

　　这样作很符合人们的直观，可是它在逻辑上会有一点问题：当B点向A点移时，它是何时从割线变成切线呢？

　　重合的时候吗？若是B点和A点重合，那就剩下一个点了，咱们知道“两点肯定一条直线”，一个点怎么能肯定一条直线呢？可是，若是B点和A点不重合的话，那么这就仍然是一条割线而不是切线啊。

　　因而，这样就出现了一个“一看很是简单直观，可是怎么说都说不圆”的状况，彷佛两个点不行，一个点也不行，怎么办？

　　解决这个问题有一个很朴素的思路：要肯定这条切线，让A，B两点重合是不行的，可是让他们分得太开也不行。最好就是让着两点靠近靠近无限靠近，可是就是不让他们重合。没重合的话就依然是两个点。两个点能够肯定一条直线；无限靠近的话又能够把他们跟通常的割线区分开来，这样不就是一箭双鵰了。

　　也就是说，A，B两点必须无限靠近但又不能重合，这样他们的距离就无限接近0但又不等于0。这是什么，这不就是无穷小么？

　　咱们前面求曲线围成的面积时，核心实现就是用无数个矩阵来逼近原图像，这样每一个矩形的底边就变成了无穷小。在这里，咱们又认为当A，B两点的距离变成无穷小的时候，割线AB就变成了过A点的切线。

　　那么切线的斜率是什么？

　　好，利用无穷小定义了一点上的切线，咱们就能够理所固然的用过这点切线的斜率来标色曲线在这点的倾斜度了。

　　那么切线是当曲线上A，B两点相隔无穷小时肯定的直线，那么切线的斜率依然能够写成 Δy/Δx，只不过这时Δx和Δy都无限趋近于0。

　　莱布尼兹就给这两个趋近于0却又不等于0的 Δx和Δy 从新取了一个名字：dx 和 dy，并把他们称为“微分”。

　　也就是说，对莱布尼兹而言，dx这个微分就是当 Δx 趋近于0时的无穷小量， dy 也是同样。虽然 dx 和 dy 都是无穷小，可是他们的比值 dy/dx 确是一个有限的数（因此这时候你就不能把无穷小 dx 当成 0 了，不然还怎么当除数？）这就是该点切线的斜率，这样一切就彷佛解释的通了。

　　虽然上图放大了，可是其实依然是：

　　再次使用图对几个指标进行解释：

4，导数

4.1 导数的初始定义

　　显然，咱们在曲线上的一点上定义了切线，那么在平滑曲线的其余点上也能定义切线。由于每条切线都有一个斜率，因此曲线上的任何一点都有一个斜率，因此，曲线上任何一点都有一个斜率值跟它对应。两个量之间存在一种对应关系，这个关系就是函数。

　　函数 y = f(x) 不就是告诉咱们：给定一个 x，就有一个 y 和它对应。如今咱们是给定一个点（假设横坐标为 x），就有一个斜率 dy/dx 跟他对应。显然，这也是个函数，这个函数就叫导函数，简称导数。

　　在中学，咱们一般在函数 f(x) 的右上角加上一撇表示这个函数的导数，那么如今这两个状况就表示导数：

　　因此，导数 f '(x) 就能够表示横坐标为 x 的地方对应切线的斜率，它表示曲线在这一点上的倾斜程度。若是导数 f '(x) 的值比较大，曲线就比较陡，f '(x) 比较小，曲线就比较平缓。因而，咱们就能够用导数来描述曲线的倾斜程度了。

　　例子：求函数 f(x) = x² 的导数。

　　这仍是咱们前面说的抛物线，它的函数图像是这样的：

　　求函数的导数，就是求函数在每一点切线的斜率，而切线就是曲线上两个相距无穷小的点肯定的直线。

　　那就好说了，咱们假设曲线上有一个横坐标为x的点，那么，跟它距离无穷小的点的横坐标就是x+dx，因为这个点也在曲线f(x)=x²上，因此它的纵坐标就是(x+dx)²，即：

　　而后，咱们用这两个点的纵坐标之差f(x+dx)-f(x)除以横坐标之差(x+dx)-x就能算出x点的切线斜率。由于这个x是任意取的，因此获得的结果就是任意点的切线斜率，那么这就是导数了：

　　接下来，化简上面，不过存在一个问题：这上面和下面的dx能不能约掉？

　　咱们知道，除数不能为0的，若是你想分子分母同时除以一个数，就必须保证这个数不是0，如今咱们是想除以 dx，这个 dx 就是咱们前面定义的无穷小量，它无限接近于 0 却又不等于 0 。因此咱们暂且能够约掉它，以下：

　　可是还剩下一个 dx，怎么办呢？一个有限的数加上一个无穷小量，结果是多少呢？彷佛还应该是这个数。这样咱们彷佛又能够去掉 dx，就像丢掉了一个等于 0 的数同样，这样最终的导数就能够简单地写成这样：

　　代表上看，当 x 愈来愈大（x > 0）的是， f ' (x) 的值也是愈来愈大的。而导数是用来表示函数的倾斜程度的，也就是说，当 x 愈来愈大的时候，曲线就愈来愈陡，这和图像彻底一致了。

　　可是逻辑上就很奇怪了：一个无限趋近于 0 的无穷小量 dx 究竟是不是 0？若是是 0，那么为何可让分子分母同时除以它来约分；若是不是 0 ，那么为何又能够把它随意舍弃？总不能同时等于零又不等于零吧。

　　怎么办呢？下面看导数的意义。

4.2 导数的意义

　　导数反映的是一个量变化快慢的程度，这其实就是一种广义的“速度”。速度这个概念在科学里很重要，当咱们说一辆车的速度很快的时候，咱们其实就是说这辆车的位移对时间的导数很大。

　　此外，有了导数，咱们就能垂手可得的求一条曲线的极值（极大值或极小值），为何？由于只要导数不为 0，曲线在这里就是在上升（大于 0）或者降低（小于 0）的，只有导数等于 0 的地方，才有多是一个极值点。

　　求极值也是很是重要的：军人但愿他们发射的导弹能够飞得尽量的远；商人但愿他们的利润能够尽量的高；咱们也但愿去哪都能走最近的路....

　　导数的这些用处不少人也知道，事实上，求曲线围成的面积也好，求曲线的导数也好，在牛顿和莱布尼兹以前你们都已经知道了，但这些并非最重要的。

　　牛顿和莱布尼兹之因此伟大，之因此把他们视为微积分的发明人，是由于他们在这些寻常事实背后发现了一个极不寻常的秘密：求面积和求导数，或者说积分和微分，这两个看似彻底不搭边的东西，居然是一对互逆的运算。

4.3 互逆运算

　　积分和微分是一堆互逆运算，这是微积分最核心的思想。把这个思想用数学语言描述出来就会获得一个定理，这个定理叫微积分基本定理。

　　这也是牛顿和莱布尼兹在微积分里最重要的发现，所以，微积分基本定理又叫牛顿-莱布尼兹公式。

　　求面积的时候，矩形的数量越多，矩形的面积之和就越接近真实面积。另外，在求瞬时速度的时候，咱们把时间段分的越细，每一个小时间段里的平均速度就越接近瞬时速度，若是无穷细分，那么无穷小时间段里的平均速度就能够认为是瞬时速度了。也就是说，若是知道整个过程当中的瞬时速度（或者说是无穷小时间段内的速度），咱们就能精确地求出无穷小时间段内的距离，而后把全部距离加起来获得精确地总距离，这就是积分。也就是说，经过积分的过程，咱们能从瞬时速度求出总距离。

　　另外一方面，要证实微分（求导）是这个过程的逆运算，咱们就得证实从总距离能够求出瞬时速度。也就是说，若是已知任意时刻你从家到学校的距离，你经过微分（求导）就能把瞬时速度求出来。

　　距离对时间的求导，这就是速度啊。前面咱们也说了“导数是一种广义的速度”。也就是说：距离除以时间，结果就是速度。你用平均距离除以平均时间获得平均速度，用瞬时距离（某一时刻的距离）除以瞬时时间（无穷小时间片断）天然就获得了瞬时速度。这样不就说完了。经过积分，咱们能从瞬时速度求出总距离来；经过微分，咱们能从总距离求出瞬时速度，这就说明积分和微分是一对互逆运算。

4.4 原函数

　　咱们知道了“积分和微分是互逆运算”，能给咱们带来什么呢？答案是：多一种选择。由于既然积分和微分是互逆运算，那么有些操做若是积分不擅长，我就能够把它丢给微分。

　　什么意思呢？咱们仍是以最开始求曲线围成的面积为例。咱们是这样求抛物线 y=x²与x轴在0到1之间围成面积的：若是用n个矩形去逼近，每一个矩形的底就是1/n，n个矩形的面积之和就是这样：

　　当 n 区域无穷大的时候，后面两项就等于无穷小，而后结果就只剩下第一项 1/3。

　　用这种方法，面对不一样的曲线就得有不一样的求和公式，最后还得保证相关项能够变成无穷小丢掉。因此这种方法的复杂度和局限性都很是大，没法推广。

　　可是，在伟大的牛顿和莱布尼兹发现了“积分和微分是互逆运算”以后，这一切就改变了。由于咱们有另外一种选择：积分之路很差走，咱们能够走微分。

　　怎么走呢？咱们能够求 f(x) = x²的导数，最终的结果是这样的：

　　那么反过来，若是咱们知道一个函数是f(x)=2x，难道我就猜不出到底是哪一个函数求导以后变成了f(x)=2x么？固然能够啊，咱们彻底能够根据f(x)=2x反推出原来的函数是f(x)=x²+c。

　　为何这里多了一个常数c？由于常数求导的结果都是0，因此就多了这样一个尾巴。

　　也就是说，f(x)=x²，f(x)=x²+1，f(x)=x²+3等函数的导数都是f(x)=2x，只凭f(x)=2x咱们没法肯定最开始函数具体是什么样子。可是，咱们能够肯定它必定就是x²加上一个常数c。因而，咱们就把求导以前原来的函数f(x)=x²+c称为的f(x)=2x的原函数。

　　好，下面是关键：积分是函数围成面积的过程，速度 v 是经过积分就获得了位移 s，在 v-t 图像里速度 v 围成的面积就是位移 s；微分是求导的过程，对位移 s 求一次导数就可以获得速度 v。

　　有了原函数之后，咱们也能够根据速度 v 把（求导以后等于速度 v的）位移 s 给求出来，这时候位移 s 就是速度 v 的原函数（无非就是再加一个常数 c）。而原函数表示的位移 s 就是速度 v 围成的面积，因而，原函数就有了求面积（积分）的效果。

　　也便是说，s 求导一次就变成了 v，那么 v 反向求导一次就能够获得 s，这时候 s 是 v 的原函数。另外一方面，由于 s 求导一次能变成了 v，那么 v 积分一次也能变成了 s（互逆运算）。因而，v经过求原函数和积分都能获得 s，因此原函数 s 其实就是有了积分（曲线 v 围成面积）的效果。

　　再简单的说，由于积分和微分是一对互逆运算，因此你反向微分（求原函数）的话，天然就获得和积分同样的效果了。

　　因此，如今求曲线f(x)=x²和x轴在0到1区间里围成面积这个本来属于积分的事情，如今就能够经过反向微分（求原函数）来实现。

　　这是一次很是华丽的转变，立刻你就会看到这种新方法会把问题简化到什么程度，并且，正是这种力量让数学发生了根本性的改变。

5，微积分基本定理（牛顿-莱布尼兹公式）

5.1 牛顿-莱布尼兹公式

　　既然要反向微分的方法求面积，那咱们就去找f(x)=x²的原函数，看看究竟是哪一个函数求导以后变成了f(x)=x²。咱们用F(x)来表示这个原函数，那么F(x)就是它（C为常数）：

　　有了 f(x) = x² 的原函数F(x)之后，怎么去求f(x)和x轴在0到1区间里围成的面积呢？前面已经分析了，原函数具备积分的效果，而积分就是曲线围成的面积，因此原函数也能够表示曲线围成的面积（为了方便理解，这里咱们先不考虑常数c的影响，反正函数相减的时候常数c会抵消掉）。

　　所以，咱们要求f(x)与x轴在0到1区间内围成的面积，直接用这个表明面积的原函数F(x)在1处的值F(1)减去在0处的值F(0)就完了：

　　F(1)-F(0)就是曲线在0到1之间围成的面积，咱们这样获得的结果是1/3，跟咱们原来用矩形逼近计算的结果如出一辙，惊不惊喜，意不意外？可是它明显比原来的方法简单太多太多太多了，简单到一个中学生都能垂手可得地算出来，这才是微积分的真正力量。

　　有了这样的铺垫，微积分基本定理（牛顿-莱布尼兹公式）就很是容易理解了：若是函数 f(x) 在区间 a到b之间连续（简单理解就是曲线没有断），而且存在原函数 F(x) ，那么就有：

　　这式子的左边就是函数 f(x) 与 x 轴在 a到b 区间内围成的面积，式子的右边就是原函数在 b点和 a点的差。意义也很明确：函数反向求导获得的原函数F(x) 原本就表示面积，那么F(b)-F(a)天然就是这两点之间的面积之差。因而公式左右两边就都表示面积。

　　 这就是微积分的基本定理，这就是微积分的核心思想。

　　能够说“对函数求导，求原函数”比用原始定义，用无穷多个矩阵来逼近面积的方法要简单的多，而且这种方法更具通常性。所以，微分和积分本来是两门独立的学问，如今被牛顿和莱布尼兹统一成微积分。这种1+1会产生大于2的力量。因而接下来的数学和科学获得了空前的发展。

　　这里再来回答一下上面将区间分为四份，八份的微积分解：

5.2 进击的微积分

　　诚然，微积分基本定理（牛顿-莱布尼兹公式）的发现是这场革命里最核心的东西，至关于革命的指导思想，既然有了指导思想了，那么接下来就是要扩大战果了，把这个优秀的思想扩散到各个领域里去，怎么扩呢？

　　首先，微积分基本定理的核心思想就是用求原函数的方式来解决求面积的问题，因此求一个函数的原函数就成了问题的核心。那么，咱们天然就要研究各类常见函数的求导和求原函数的方法。

　　这些弄清楚以后，咱们接下来就要问：由一些常见函数组成的复合函数，好比两个函数相加减、相乘除、相嵌套复合等时候要怎么求原函数？怎么求积分？再扩展一下，如今知道了如何求面积，那要怎样求体积，求曲线的长度呢？

　　而后，咱们就能够把微积分的技术扩展到各类其它的领域了。好比，有了微积分，我就能够研究弯曲的东西，曲线、曲面什么的均可以研究。这就等于说是在用微积分来研究几何，这就是微分几何。

　　有了微积分，咱们发现不少物理定律均可以写成微分方程的形式，有多个变量的时候就是偏微分方程。麦克斯韦方程组、波动方程，广义相对论的场方程，都是这样。

　　有了微积分，咱们就能够计算各类不一样曲线的长度。那么，如何肯定在特定条件下最短的那条曲线呢？这里就发展出了变分法，变分法配合最小做用量原理，在物理学的发展里起到了极为关键的做用。

　　因此微积分在接下来的两个世纪里就这样疯狂的扩张着，科学（尤为是物理学）的发展须要微积分，微积分也须要从科学里汲取养分，他们就这样互相促进，互相成长，相亲相爱。

5.3 柯西中值定理

　　彷佛还有一个问题没有解决：那就是莱布尼兹将 dx 视为一个无穷小量，可是无穷小怎么说都说不圆。一个接近于0但又不等于0的无穷小量究竟是什么呢？为何有时候你能够把它当作除数约掉（认为他不等于0），但有时候有能够随意把它丢掉（认为他等于0）？

　　因此柯西来了。

　　柯西深入的认识到：只要涉及数学概念，任何关于连续运动的一些先验的直观观念，都是能够避免，甚至是必须避免的。科学放弃了形而上学方面的努力，采用“可观测”概念以后就迎来了大发展，那数学为何不也这样呢？

　　无穷小量是一个无限趋近于0可是又不能等于0的概念，也就是说他有一个极限位置0，你能够想多接近就多接近，但就是没法到达。

　　咱们知道实数跟数轴上的点是一一对应的。当咱们说一个量在无限趋近于0的时候，不少人脑海里浮现的画面就是一个点在数轴上不停的移动，从一个点移动到下一个点，一直靠近0这个点。

　　可是上图是不对的。由于实数是稠密的。稠密就是说任意两个点（实数）之间永远都有无数个点（实数）。（你想一想：1和2之间有多少个数？）你觉得它能从A点移动到邻近的下一个B点么？很差意思，这个它还真作不到。

　　A和B之间永远有无数个点，也就是说A点根本就没有所谓的“下一个点”。你认为我必定要走完了A点到B点之间全部的点才能到达B点，那就不可避免的陷入了芝诺悖论里去了。由于你压根就就不可能走完任何两个点之间的全部点（由于是无穷多个），因此若是按照这种逻辑，你就根本“走不完”，因此芝诺的飞矢就飞不动了。

　　所以，面对这种连续的概念的时候，咱们就不该该使用这种“动态的”定义。你想经过“让一个点在数轴上动态地运动来定义极限”是行不通的，这就是莱布尼兹的无穷小量栽跟头的真正缘由。

　　数学家们通过一百多年的探索，失败和总结，最后终于意识到了这点，这些思想在柯西这里彻底成熟。因而，柯西彻底放弃了那种动态的定义方式，转而采起了一种彻底静态，彻底能够描述测量的方式从新定义了极限，进而为微积分奠基了扎实的基础。

　　柯西对极限的新定义为：当一个变量相继的值无限的趋近于某个固定值的时候，若是他同这个固定值之间的差能够随意地小，那么这个固定值就被称为它的极限。

　　有人看了这个定义以后就在犯嘀咕：这跟莱布尼茨说的不是同样的么？你还不是在用“无限趋近”啊，“随意的小”啊这种跟“ 无穷小”差很少的概念来定义极限么？你说之前的定义是 动态的，柯西给整成了 静态的，但是我看来看去，柯西这个定义好像也在动啊。什么无限趋近，随意的小，不是在动么？

　　有这些疑问是正常的，毕竟是让数学家们卡了一百多年的问题，不可能那么太“显而易见”。咱们再仔细看看柯西的定义，它跟之前的差异到底在哪？你看啊，柯西虽然也有用“无限趋近”，可是他只是用这个来描述这个现象，并非用它来作判决的。他的核心判决是后面一句：若是它同这个固定值之间的差能够随意的小，那么它就是极限。

　　能够随意的小和你主动去无限逼近是彻底不同的。能够随意小的意思是：你让我多小我就能够多小。你让我小于0.1，我就能小于0.1；你让我小于0.01，我就能小于0.01；你让我小于0.00…001，我就能够小于0.00…001。只要你能说出一个肯定的值，无论你说的值有多小，我均可以让它跟这个固定值的差比你更小。柯西说若是这样的话，那么这个固定值就是它的极限。

　　你们发现没有，柯西学聪明，学鸡贼了，他把这个判断过程给颠倒了过来。之前是你要证实本身的极限是0，你就不停地变小，不停地朝0这个地方跑过去。可是，你和0之间永远隔着无数个点，因此你永远也跑不完，你也就不知道你要跑到何时去，这样就晕了。

　　如今我学聪明了，这个难以界定的东西，这个烫手的山芋我无论了，我丢给你，我让你先说。只要你说出一个数，你要我变得多小我就变得多小。你若是想让我变成无穷小，那你就得先把无穷小是多少给我说出来，你说不出来的话那就不能怪我了。

　　柯西就经过这种方式把那些不可测的概念挡在了数学以外，由于你能具体说出来的数，那确定就都是“可观测”的啊。你们再看看这个定义，再想一想以前莱布尼茨的想法，是否是这么回事？

　　因而，柯西就这样完美的甩开了那个招人烦的无穷小量。在柯西这里，无穷小量不过就是一个简单的极限为0的量而已，一个“只要你能够说出一个数，我确定就可让我和0之间的差比你给的数更小”的量。这样咱们就能把它说得清清楚楚，它也再也不有任何神秘了。

5.4 魏尔斯特拉斯和 ε-δ 极限

　　而后，魏尔斯特拉斯用彻底数学的语言改进了柯西的这段纯文字的定义，获得了最终的，也就是咱们如今教材里使用的 ε-δ 极限定义。

　　根据柯西的思想，魏尔斯特拉斯说：你要判断某个函数f(x)在某个地方a的极限是否是某个值L，关键就要看若是我任意说一个数ε（好比0.00…001或者任意其它的，注意是任意取，这里用ε代替），你能不能找到一个x的取值范围（用δ来衡量），让这个范围里的函数值f(x)与那个值L之间的差（用套个绝对值的|f(x)-L|表示）小于ε。若是你总能找到这样的δ，那我就说函数f(x)在a点的极限为L。

　　用精练的数学语言表述上面的话就是：当且仅当对于任意的ε，存在一个δ>0，使得只要0<|x-a|<δ，就有|f(x)-L|<ε，那么咱们就说f(x)在a点的极限为L。记作：

　　定义里的 Lim 就是极限的英文单词 limit的缩写，这个箭头 x->a 也很是形象的表达了极限这个概念。

　　这个定义就真正作到了彻底“静态”，再也不有任何运动的痕迹（连柯西说的“无限趋近”，“随意的小”都没有了），也再也不有任何说不清的地方。从定义你也能清楚的看出来：它根本不关心你是如何逼近L的，飞过来，调过去它都无论，只要最后的差比 ε 小就行，我就认可你是个人极限。

　　这里要特别注意的是 ε 是任意的，任意就是说随便 ε 取什么你都要找到对应的 δ，你不能说有 10 个 ε 知足条件就说这是极限。

　　看个例子，咱们考虑最简单的 f(x) = 1/x，当x的取值（x>0）愈来愈大的时候，这个函数的值就会愈来愈小：：f(1)=1，f(10)=0.1，f(100)=0.01，f(1000)=0.001，……

　　看的出来，当x 的取值愈来愈大的时候，f(x)的值会愈来愈趋近于0。因此，函数 f(x) 在无穷远处的极限值应该是 0，也就是说：

　　这个结论是很明显的，接下来咱们就来看看如何用 ε-δ 定义来讲这个事。

　　按照定义，咱们要取一个任意小的ε，假设这里咱们取ε=0.1，那么咱们就要去找一个δ，看能不能找到一个范围让|f(x)-0|<0.1，显然只须要x>10就好了；取ε=0.01，就只须要x>100就好了；任意给一个ε，咱们显然都能找到一个数，当x大于这个数的时候知足|f(x)-0|<ε，这样就OK了。

　　因而，咱们就构建了一个逻辑严密，再也不有任何“说不清”概念的极限理论。有了这个坚实的地基，咱们就能够放心地在上面盖房子了。那个漂泊了一百多年，那个被幽灵般的无穷小量缠绕了一百多年的微积分，即将迎来新生。

6，微积分的重构

6.1 积分的重建

　　先看积分，咱们以前认为曲线围成的面积是无数个宽度为无穷小量的矩形面积之和，因而咱们在这里就被无穷小量缠上了。有了ε-δ极限以后，咱们就能够刷新一下咱们对积分的认知了：从如今起，咱们把曲线围成的面积当作一个极限，而再也不是无数个无穷小量的矩形面积之和。

　　什么意思呢？假设咱们用 1个矩形逼近曲线围成的面积的时候，咱们就把这个矩形的面积记为S1，用两个矩形逼近的面积之和记为S2，一样的，咱们记下S3， S4， S5，...

　　通常状况下，若是咱们用 n个矩形去逼近这个面积，这 n 个矩形的面积之和就记为 Sn。若是这个 Sn 的极限存在，也就是说，随便你说一个数字 ε，我都能找到一个 n 的范围，让 Sn和A之间的差 |Sn-A| 小于你给定的这个数字 ε。那么，A就是这个Sn的极限。

　　因而，咱们就说：曲线围成的面积就是这个极限A，它是 n 个矩形面积之和这个序列 Sn的极限。

　　因此咱们把这个极限过程表示的面积A定义为函数 f(x) 从 a 到 b 上的积分：

　　这样，咱们的积分就成了一个由ε-δ语言精肯定义的极限。这里没有那个等于0又不等于0的无穷小量，一切都清清楚楚、明明白白，没有含糊的地方，这就是第二次数学危机的终极解决之道。

　　这样处理虽然再也不那么直观，可是它很是精确和严密，这是符合数学的精神的。直观虽然能帮助咱们更好的感觉数学，可是若是失去了严密性，数学将什么都不是。

6.2 导数的重建

　　积分解决了，微分也是同样，有了 ε-δ定义 以后，咱们就再不能把导数当作两个无穷小量的比值（dy/dx），而是把导数也当作一个极限。

　　就是说函数在某一点的导数就是这点切线的斜率，咱们前面提到，切线就是当割线的两点不停的靠近，当他们的距离变成无穷小时决定的直线。

　　很明显，这个定义是依赖无穷小量的，咱们在要用ε-δ定义的极限来代替这个无穷小量。因此，切线就应该被理解为割线的极限，那么切线的斜率（也就是这点的导数）天然就是割线斜率的极限，因此导数f(x)’也天然而然地成了一个极限。

　　因为割线的斜率就是用这两点的纵坐标之差f(x+Δx)-f(x)除以这两点的横坐标之差（x+Δx-x=Δx），而导数f(x)’是割线斜率的极限。那么，咱们在割线斜率的前面加一个极限符号就能够表示导数f(x) ' 了：

　　这才是导数的真正定义，它是一个极限，而再也不是两个无穷小量 dy 与 dx 的商 dy/dx。也就是说，按照极限的ε-δ定义 的含义，这个导数 f '(x) 的真正含义是：你任意给一个 ε ，我都能让割线的斜率与这个值的差比你给的 ε 更小。

6.3 微分的重建

　　莱布尼兹当年认为导数是两个无穷小量 dy 和 dx 的商，因此他用 dy/dx 来表示导数。虽然如今导数再也不是这个意思，可是莱布尼兹当年精心发明的这一套符号确实好用，因而咱们就继续沿用了。也就是说咱们如今仍然使用 dy/dx 来表示导数，可是如今 dy/dx 是一个极限，而再也不是两个无穷小量的商。

　　微分的严格定义是这样的：对于 Δy 是否存在一个关于 Δx 为线性的无穷小 A*Δx（A为常数），使它与 Δy 的差是较 Δx 更高阶的无穷小，也就是说下面这个式子是否成立：

　　o(Δx) 就表示 Δx 的高阶无穷小，从字面上理解，高阶无穷小就是比无穷小还无穷小。当 Δx 慢慢趋向于 0 的时候，o(Δx) 可以比 Δx 以更快的速度趋向于 0。好比当 Δx 减小为原来的 1/10 的时候， o(Δx) 就减小到原来的 1/100,1/1000甚至更多。

　　若是这个式子成立，咱们就说函数 f(x) 是可微的，dy=A*Δx 就说函数的微分。由于这是一个线性函数，因此咱们说微分 dy 是 Δy 的线性主题。

7，定积分

7.1 定积分的定义

　　定积分是积分的一种，是函数 f(x) 在区间 [a,b]上积分和的极限。

　　注意定积分和不定积分的关系：若定积分存在，则它是一个具体的数值，而不定积分是一个函数表达式，它们仅仅在数学上有一个计算关系（牛顿-莱布尼兹公式）。

　　一个函数，能够存在不定积分，而不存在定积分；也能够存在定积分，而不存在不定积分。一个连续函数，必定存在定积分和不定积分；若只有有限个间断点，则定积分存在；如有跳跃间断点，则原函数必定不存在，即不定积分必定不存在。

　　当 ||Δx|| -> 0 时，总和 S 老是趋于肯定的极限 I，则称极限 I为函数 f(x)，在曲线 [a, b] 上的定积分定义用公式表达以下：

　　积分值和被积函数与积分曲线有关，与积分遍历字母无关。

　　当函数 f(x) 在曲线 [a, b] 上的定积分存在的时候，称 f(x) 在区间 [a, b]上可积。

　　定积分的几何含义：

　　面积的正负值：

　　代数和，它有正负之分，在 x 轴之上为正，在轴之下为负。

　　那么如何利用定积分的几何意义判判定积分的正负？

　　若是被积函数在积分区间总大于零，积分区间上限大于下限，则定积分为正，由于表示的是积分函数在积分上下限间与 X 轴围成的一个面积；若是被积函数在积分区间总小于零，积分区间上限大于下限，则定积分为负。

7.2 定积分的性质

　　定积分的性质以下：

定理1：

　　设 f(x) 在区间 [a, b] 上连续，则 f(x) 在 [a, b]上可积

定理2：

　　设 f(x) 区间 [a, b] 上有界，且只有有限个间断点，则 f(x) 在 [a, b] 上可积

定理3：

　　设 f(x) 在区间 [a, b]上单调，则 f(x) 在 [a, b] 上可积

积分第一中值定理

　　积分第一中值定理是积分中值定理的推广之一，此外还有积分第二中值定理。积分中值定理揭示了一种将极分化为函数值，或者将复杂函数的积分化为简单函数的积分的方法。是数学分析的基本定理和重要手段，在求极限，断定某些性质点，估计积分值等方面应用普遍。

　　定理定义：若是函数 f(x) 在闭区间 [a, b] 上连续， g(x) 在 [a, b] 上不变号，而且 g(x) 在闭区间 [a, b] 上是可积的，则在 [a, b]上至少存在一个点 ε ，使下式成立：

　　若是函数 f(x) 在闭区间 [a, b] 上连续，则在积分区间 [a, b] 上至少存在一个点 ζ，使得：

积分第二中值定理：

　　积分第二中值定理是与积分第一中值定理相互独立的一个定理，属于积分中值定理。它能够用来证实Dirichlet-Abel 反常，Riemann 积分判别法。

　　定理内容：设 f(x) 在 [a, b] 上可积， g(x) 在 [a, b] 上单调，则存在 ζ 属于 [a, b]，使得：

积分上限函数：

　　设函数 f(x) 在区间 [a, b] 上可积，且对于定积分 ∫^x_bf(x)dx 每个取值的 x 都有一个对应的定积分值，则称变上限定积分 ∫_a ^x f(t)dt 为 f(x) 的积分上限函数，记为：

　　若是 f(x) 在区间 [a, b] 上连续，则积分上限函数就是 f(x) 在 [a, b] 上的原函数。

　　当 f(x) >=0 时， Φ(x) 在集合上表示为右侧邻边能够变更的曲线梯形面积，下图中的阴影部分：

　　定理：设函数 f(x) 在区间 [a, b] 上连续，则积分上限函数：

　　在 [a, b] 上可导，而且：

7.3 实例

　　对于定积分的定义，有四个步骤：分割，近似，求和，取极限，具体以下：

　　1，求曲线 y=x² 与 x=1, y=0 所围成的区域的面积

　　2，利用定义计算定积分 ∫¹₀x²dx

　　3，利用定义计算定积分 ∫^π/2₀(2cosx + sinx -1)dx

　　4，计算由曲线 y²=2x 和直线 y=x-4 所围成的图形的面积

8，微积分的总结

8.1 微分学的思想

　　微分学的核心思想是逼近。其中：

一阶导数：线性逼近
二阶导数：二次逼近
导数计算：求导法则

8.2 微分学的主要做用

　　微积分的主要做用是：

1，求解函数的极限
2，分析函数的性质

8.3 微积分知识点总结

　　下面列出机器学习和深度学习中所须要的微积分知识点，虽然前面都已经学习过了，可是这里再整理起来。

　　1，极限：极限是高等数学和初等数学的分水岭，也是微积分的基石，是倒数，微分，积分的基础。虽然在机器学习里不直接用到极限的知识，但要理解导数和积分，它是必须的。

　　2，上确界和下确界：这个在机器学习中会常常用到，好比论文中常出现的 sup 和 inf。

　　3，导数：其重要性众所周知，求函数的极限须要它，分析函数的性质须要它。典型的如梯度降低法的推导，Logistic函数导数的计算。因此熟练地计算函数的导数是基本功。

　　4，Lipschitz 连续性：这一律念对分析算法的性质却颇有用，在GAN，深度学习算法的稳定性，泛化性能分析中都有用武之地。

　　5，导数与函数的单调性：某些算法的推导，如神经网络的激活函数，AdaBoost算法，都须要研究函数的单调性。

　　6，导数与函数的极限：这个在机器学习中处于中心位置，大部分优化问题都是连续优化问题，所以能够经过求导为0的点而求函数的极限，以实现最小化损失函数，最大化似然函数等目标。

　　7，导数与函数的凹凸性：在凸优化中，Jensen不等式的证实中都有它的应用。

　　8，泰勒公式：又一个核心知识点，在优化算法中普遍使用，从梯度降低法，牛顿法，拟牛顿法，到AdaBoost算法，梯度提高算法，XGBoost算法的推导都离不开它。

　　9，不定积分：积分在机器学习中使用的相对较小，主要用于概念的计算中，它是定积分的基础。

　　10，定积分：包含广义积分，被用于几率论的计算中。机器学习中很大一类算法是几率型算法，如贝叶斯分类器，几率图模型，变分推导等。这些地方都涉及到对几率密度函数进行积分。

　　11，变上限积分：分布函数是典型的变上限积分函数，一样主要用于几率计算中。

　　12，牛顿-莱布尼兹公式：在机器学习中不多直接使用，但它是微积分中最重要的公式之一，为定积分的计算提供了依据。

　　13，偏导数：重要性不用多说，机器学习绝大多数函数都是多元函数，要求其极限，偏导数是绕不开的。

　　14，梯度：决定了多元函数的单调性和极限，梯度降低法的推导离不开它。几乎全部连续优化算法都须要计算函数的梯度值，且以寻找梯度为0的点做为目标。

　　15，高阶偏导数：肯定函数的极值离不开它，光有梯度值还没法肯定函数的极值。

　　16，链式法则：一样使用普遍，各类神经网络的反向传播算法都依赖于链式法则。

　　17，Hessian 矩阵：决定了函数的极值凹凸性。

https://www.zhihu.com/question/336322284/answer/918067537