搜索引擎发现和侦察有直接和间接的因素。直接方法涉及从缓存中搜索索引和相关内容。间接方法涉及经过搜索论坛,新闻组和招标网站来收集敏感的设计和配置信息。php
一旦搜索引擎机器人完成了爬行,它就会开始根据标签和相关属性(如<TITLE>)索引网页,以便返回相关的搜索结果[1]。若是在网站的生命周期内未更新robots.txt文件,而且还没有使用指示机器人不对内容编制索引的内联HTML元标记,则索引可能包含不打算包含在内的Web内容由业主。网站全部者可使用以前提到的robots.txt,HTML元标记,身份验证和搜索引擎提供的工具来删除此类内容。html
了解应用程序/系统/组织的敏感设计和配置信息是直接(在组织的网站上)仍是间接(在第三方网站上)公开的。算法
使用搜索引擎搜索:数据库
使用高级“site:”搜索运算符,能够将搜索结果限制为特定域[2]。不要将测试限制在一个搜索引擎提供商,由于它们可能会生成不一样的结果,具体取决于他们什么时候抓取内容和他们本身的算法。考虑使用如下搜索引擎:缓存
Duck Duck Go和ixquick / Startpage能够减小测试人员的信息泄漏。服务器
Google提供了高级“缓存:”搜索运算符[2],但这至关于点击每一个Google搜索结果旁边的“缓存”。所以,首选使用高级“站点:”搜索运算符,而后单击“缓存”。网络
Google SOAP Search API支持doGetCachedPage和相关的doGetCachedPageResponse SOAP Messages [3],以帮助检索缓存页面。OWASP“Google Hacking”项目正在开发此项目的实施。ide
PunkSpider是Web应用程序漏洞搜索引擎。对于进行手工操做的渗透测试仪来讲,它几乎没用。然而,它能够用来证实脚本小子易于发现漏洞。工具
示例 要查找由典型搜索引擎索引的owasp.org的Web内容,所需的语法为:测试
网站:owasp.org
要将owasp.org的index.html显示为缓存,语法为:
缓存:owasp.org
Google黑客数据库是Google的有用搜索查询列表。查询分为几类: