wget很厉害,你若是想把某个网站上的一系列的文档,一般是api文档扒下来可用下列命令:
wget -e robots=off -w 1 -x -np -p -m -k -t 1 -X/upload/ http://网址
为了让这个命令行的各选项意义更加明确,它还能够写成: wget --execute robots=off --wait=1 --force-directories --no-parent --page-requisites --mirror --convert-links --tries=1 --exclude-directories /upload/ http://网址
使用wget拷贝网站时的一些选项 下面对其中的各选项简要说明,作备忘之用。 ‘-e command’ ‘--execute command’ 用来执行额外的.wgetrc命令。就像vim的配置存在.vimrc文件中同样,wget也用.wgetrc文件来存放它的配置。也就是说在wget执行以前,会先执行.wgetrc文件中的配置命令。一个典型的.wgetrc文件能够参考: 用户能够在不改写.wgetrc文件的状况下,用-e选项指定额外的配置命令。若是想要制定多个配置命令,-e command1 -e command2 ... -e commandN便可。这些制定的配置命令,会在.wgetrc中全部命令以后执行,所以会覆盖.wgetrc中相同的配置项。 这里robots=off是由于wget默认会根据网站的robots.txt进行操做,若是robots.txt里是User-agent: * Disallow: /的话,wget是作不了镜像或者下载目录的,使用-e robots=off参数便可绕过该限制。 -w seconds --wait=seconds 为了避免给被拷贝的镜像网站带来太大的访问压力,页面请求之间停下等待seconds时间。 -x --force-directories 建立与镜像网站对应的目录结构。 http://example/robots.txt这个文件下载下来时,会等到对应的www.example.com/robots.txt。与之相反的是-nd,即--no-directories,
-np --no-parent 只下载给定的目录下的文件,不下载它的上级目录中的文件,即便有些页面中存在上级目录中文件的链接。这个比较必要,若是不限定的话,原本只想下载www.example.com/blog/中的博客文章,最后颇有可能将整个www.example.com都下载下来了。 -p --page-requisites 下载能显示整个页面须要的全部资源,包括内嵌的image以及css样式文件。 -m --mirror 它会打开镜像相关的选项,好比无限深度的子目录递归下载。 -k --convert-links 这个选项会在整个网站下载完成后修HTML、CSS、Image等资源的连接关系,让它们都指向下载下来的本地文件,从而适合本地浏览。 -t times --tries=times 若是某个资源下载失败,这个选项指定了重试下载的次数。.wgetrc默认的是20次。咱们在下载网站时能够将其放小,一则减小下载时间,二则减轻镜像站点的压力。 -X /some/dir
--exclude-directories /some/dir 能够用这个参数指定不须要下载的目录,若是有多个须要排除的目录,能够用逗号隔开,好比 -X /some/dir1;/some/dir2