安全的PHP代码编写准则

时间 2020-03-26
原文原文链接
毫不要信任外部数据或输入

关于 Web 应用程序安全性，必须认识到的第一件事是不该该信任外部数据。外部数据（outside data） 包括不是由程序员在 PHP 代码中直接输入的任何数据。在采起措施确保安全以前，来自任何其余来源（好比 GET 变量、表单 POST、数据库、配置文件、会话变量或 cookie）的任何数据都是不可信任的。

例如，下面的数据元素能够被认为是安全的，由于它们是在 PHP 中设置的。

1
<?php
2
$myUsername = 'tmyer';
3
$arrayUsers = array('tmyer', 'tom', 'tommy');
4
define("GREETING", 'hello there' . $myUsername);
5
?>
可是，下面的数据元素都是有瑕疵的。

1
<?php
2
$myUsername = $_POST['username']; //tainted!
3
$arrayUsers = array($myUsername, 'tom', 'tommy'); //tainted!
4
define("GREETING", 'hello there' . $myUsername); //tainted!
5
?>
为何第一个变量 $myUsername 是有瑕疵的？由于它直接来自表单 POST。用户能够在这个输入域中输入任何字符串，包括用来清除文件或运行之前上传的文件的恶意命令。您可能会问，“难道不能使用只接受字母 A-Z 的客户端（JavaScript）表单检验脚原本避免这种危险吗？”是的，这老是一个有好处的步骤，可是正如在后面会看到的，任何人均可以将任何表单下载到本身的机器上，修改它，而后从新提交他们须要的任何内容。

解决方案很简单：必须对 $_POST['username'] 运行清理代码。若是不这么作，那么在使用 $myUsername 的任何其余时候（好比在数组或常量中），就可能污染这些对象。

对用户输入进行清理的一个简单方法是，使用正则表达式来处理它。在这个示例中，只但愿接受字母。将字符串限制为特定数量的字符，或者要求全部字母都是小写的，这可能也是个好主意。

01
<?php
02
$myUsername = cleanInput($_POST['username']); //clean!
03
$arrayUsers = array($myUsername, 'tom', 'tommy'); //clean!
04
define("GREETING", 'hello there' . $myUsername); //clean!
05
function cleanInput($input){
06
    $clean = strtolower($input);
07
    $clean = preg_replace("/[^a-z]/", "", $clean);
08
    $clean = substr($clean,0,12);
09
    return $clean;
10
}
11
?>
禁用那些使安全性难以实施的 PHP 设置

已经知道了不能信任用户输入，还应该知道不该该信任机器上配置 PHP 的方式。例如，要确保禁用 register_globals。若是启用了 register_globals，就可能作一些粗心的事情，好比使用 $variable 替换同名的 GET 或 POST 字符串。经过禁用这个设置，PHP 强迫您在正确的名称空间中引用正确的变量。要使用来自表单 POST 的变量，应该引用 $_POST['variable']。这样就不会将这个特定变量误会成 cookie、会话或 GET 变量。

若是不能理解它，就不能保护它

一些开发人员使用奇怪的语法，或者将语句组织得很紧凑，造成简短可是含义模糊的代码。这种方式可能效率高，可是若是您不理解代码正在作什么，那么就没法决定如何保护它。

例如，您喜欢下面两段代码中的哪一段？

01
<?php
02
//obfuscated code
03
$input = (isset($_POST['username']) ? $_POST['username']:'');
04
//unobfuscated code
05
$input = '';
06
if (isset($_POST['username'])){
07
    $input = $_POST['username'];
08
}else{
09
    $input = '';
10
}
11
?>
在第二个比较清晰的代码段中，很容易看出 $input 是有瑕疵的，须要进行清理，而后才能安全地处理。

“纵深防护” 是新的法宝

本教程将用示例来讲明如何保护在线表单，同时在处理表单的 PHP 代码中采用必要的措施。一样，即便使用 PHP regex 来确保 GET 变量彻底是数字的，仍然能够采起措施确保 SQL 查询使用转义的用户输入。

纵深防护不仅是一种好思想，它能够确保您不会陷入严重的麻烦。

既然已经讨论了基本规则，如今就来研究第一种威胁：SQL 注入攻击。

在 SQL 注入攻击 中，用户经过操纵表单或 GET 查询字符串，将信息添加到数据库查询中。例如，假设有一个简单的登陆数据库。这个数据库中的每一个记录都有一个用户名字段和一个密码字段。构建一个登陆表单，让用户可以登陆。

下面是一个简单的登陆表单：

01
<html>
02
<head>
03
<title>Login</title>
04
</head>
05
<body>
06
<form action="verify.php" method="post">
07
<p><label for='user'>Username</label>
08
<input type='text' name='user' id='user'/>
09
</p>
10
<p><label for='pw'>Password</label>
11
<input type='password' name='pw' id='pw'/>
12
</p>
13
<p><input type='submit' value='login'/></p>
14
</form>
15
</body>
16
</html>
这个表单接受用户输入的用户名和密码，并将用户输入提交给名为 verify.php 的文件。在这个文件中，PHP 处理来自登陆表单的数据，以下所示：

01
<?php
02
$okay = 0;
03
$username = $_POST['user'];
04
$pw = $_POST['pw'];
05
$sql = "select count(*) as ctr from users where username='".$username."' and password='". $pw."' limit 1";
06
$result = mysql_query($sql);
07
while ($data = mysql_fetch_object($result)){
08
    if ($data->ctr == 1){
09
        //they're okay to enter the application!
10
        $okay = 1;
11
    }
12
}
13
if ($okay){
14
    $_SESSION['loginokay'] = true;
15
    header("index.php");
16
}else{
17
    header("login.php");
18
}
19
?>
这段代码看起来没问题，对吗？世界各地成百（甚至成千）的 PHP/MySQL 站点都在使用这样的代码。它错在哪里？好，记住 “不能信任用户输入”。这里没有对来自用户的任何信息进行转义，所以使应用程序容易受到攻击。具体来讲，可能会出现任何类型的 SQL 注入攻击。例如，若是用户输入 foo 做为用户名，输入 ' or '1'='1 做为密码，那么实际上会将如下字符串传递给 PHP，而后将查询传递给 MySQL：

1
<?php
2
$sql = "select count(*) as ctr  from users where username='foo' and password='' or '1'='1' limit 1";
3
?>
这个查询老是返回计数值 1，所以 PHP 会容许进行访问。经过在密码字符串的末尾注入某些恶意 SQL，黑客就能装扮成合法的用户。

解决这个问题的办法是，将 PHP 的内置 mysql_real_escape_string() 函数用做任何用户输入的包装器。这个函数对字符串中的字符进行转义，使字符串不可能传递撇号等特殊字符并让 MySQL 根据特殊字符进行操做。下面展现了带转义处理的代码。

01
<?php
02
$okay = 0;
03
$username = $_POST['user'];
04
$pw = $_POST['pw'];
05
$sql = "select count(*) as ctr from users where username='".mysql_real_escape_string($username)."' and password='". mysql_real_escape_string($pw)."' limit 1";
06
$result = mysql_query($sql);
07
while ($data = mysql_fetch_object($result)){
08
    if ($data->ctr == 1){
09
        //they're okay to enter the application!
10
        $okay = 1;
11
    }
12
}
13
if ($okay){
14
    $_SESSION['loginokay'] = true;
15
    header("index.php");
16
}else{
17
    header("login.php");
18
}
19
?>
使用 mysql_real_escape_string() 做为用户输入的包装器，就能够避免用户输入中的任何恶意 SQL 注入。若是用户尝试经过 SQL 注入传递畸形的密码，那么会将如下查询传递给数据库：

1
select count(*) as ctr from users where username='foo' and password='\' or \'1\'=\'1' limit 1"
数据库中没有任何东西与这样的密码匹配。仅仅采用一个简单的步骤，就堵住了 Web 应用程序中的一个大漏洞。这里得出的经验是，老是应该对 SQL 查询的用户输入进行转义。

可是，还有几个安全漏洞须要堵住。下一项是操纵 GET 变量。

防止用户操纵 GET 变量

上面咱们探讨了，防止了用户使用畸形的密码进行登陆。若是您很聪明，应该应用您学到的方法，确保对 SQL 语句的全部用户输入进行转义。可是，用户如今已经安全地登陆了。用户拥有有效的密码，并不意味着他将按照规则行事 —— 他有不少机会可以形成损害。例如，应用程序可能容许用户查看特殊的内容。全部连接指向 template.php?pid=33 或 template.php?pid=321 这样的位置。URL 中问号后面的部分称为查询字符串。由于查询字符串直接放在 URL 中，因此也称为 GET 查询字符串。

在 PHP 中，若是禁用了 register_globals，那么能够用 $_GET['pid'] 访问这个字符串。

1
<?php
2
$pid = $_GET['pid'];
3
//we create an object of a fictional class Page
4
$obj = new Page;
5
$content = $obj->fetchPage($pid);
6
//and now we have a bunch of PHP that displays the page
7
?>
这里有什么错吗？首先，这里隐含地相信来自浏览器的 GET 变量 pid 是安全的。这会怎么样呢？大多数用户没那么聪明，没法构造出语义攻击。可是，若是他们注意到浏览器的 URL 位置域中的 pid=33，就可能开始捣乱。若是他们输入另外一个数字，那么可能没问题；可是若是输入别的东西，好比输入 SQL 命令或某个文件的名称（好比 /etc/passwd），或者搞别的恶做剧，好比输入长达 3,000 个字符的数值，那么会发生什么呢？

在这种状况下，要记住基本规则，不要信任用户输入。应用程序开发人员知道 template.php 接受的我的标识符（PID）应该是数字，因此可使用 PHP 的 is_numeric() 函数确保不接受非数字的 PID，以下所示：

01
<?php
02
$pid = $_GET['pid'];
03
if (is_numeric($pid)){
04
    //we create an object of a fictional class Page
05
    $obj = new Page;
06
    $content = $obj->fetchPage($pid);
07
    //and now we have a bunch of PHP that displays the page
08
}else{
09
    //didn't pass the is_numeric() test, do something else!
10
}
11
?>
这个方法彷佛是有效的，可是如下这些输入都可以轻松地经过 is_numeric() 的检查：

100 （有效）
100.1 （不该该有小数位）
+0123.45e6 （科学计数法 —— 很差）
0xff33669f （十六进制 —— 危险！危险！）
那么，有安全意识的 PHP 开发人员应该怎么作呢？多年的经验代表，最好的作法是使用正则表达式来确保整个 GET 变量由数字组成，以下所示：

使用正则表达式限制 GET 变量：

01
<?php
02
$pid = $_GET['pid'];
03
if (strlen($pid)){
04
    if (!ereg("^[0-9]+$",$pid)){
05
        //do something appropriate, like maybe logging them out or sending them back to home page
06
    }
07
}else{
08
    //empty $pid, so send them back to the home page
09
}
10
//we create an object of a fictional class Page, which is now
11
//moderately protected from evil user input
12
$obj = new Page;
13
$content = $obj->fetchPage($pid);
14
//and now we have a bunch of PHP that displays the page
15
?>
须要作的只是使用 strlen() 检查变量的长度是否非零；若是是，就使用一个全数字正则表达式来确保数据元素是有效的。若是 PID 包含字母、斜线、点号或任何与十六进制类似的内容，那么这个例程捕获它并将页面从用户活动中屏蔽。若是看一下 Page 类幕后的状况，就会看到有安全意识的 PHP 开发人员已经对用户输入 $pid 进行了转义，从而保护了 fetchPage() 方法，以下所示：

对 fetchPage() 方法进行转义：

1
<?php
2
class Page{
3
    function fetchPage($pid){
4
        $sql = "select pid,title,desc,kw,content,status from page where pid='".mysql_real_escape_string($pid)."'";
5
    }
6
}
7
?>
您可能会问，“既然已经确保 PID 是数字，那么为何还要进行转义？” 由于不知道在多少不一样的上下文和状况中会使用 fetchPage() 方法。必须在调用这个方法的全部地方进行保护，而方法中的转义体现了纵深防护的意义。

若是用户尝试输入很是长的数值，好比长达 1000 个字符，试图发起缓冲区溢出攻击，那么会发生什么呢？下一节更详细地讨论这个问题，可是目前能够添加另外一个检查，确保输入的 PID 具备正确的长度。您知道数据库的 pid 字段的最大长度是 5 位，因此能够添加下面的检查。

使用正则表达式和长度检查来限制 GET 变量：

01
<?php
02
$pid = $_GET['pid'];
03
if (strlen($pid)){
04
    if (!ereg("^[0-9]+$",$pid) && strlen($pid) > 5){
05
        //do something appropriate, like maybe logging them out or sending them back to home page
06
    }
07
} else {
08
    //empty $pid, so send them back to the home page
09
}
10
    //we create an object of a fictional class Page, which is now
11
    //even more protected from evil user input
12
    $obj = new Page;
13
    $content = $obj->fetchPage($pid);
14
    //and now we have a bunch of PHP that displays the page
15
?>
如今，任何人都没法在数据库应用程序中塞进一个 5,000 位的数值 —— 至少在涉及 GET 字符串的地方不会有这种状况。想像一下黑客在试图突破您的应用程序而遭到挫折时咬牙切齿的样子吧！并且由于关闭了错误报告，黑客更难进行侦察。

缓冲区溢出攻击

缓冲区溢出攻击 试图使 PHP 应用程序中（或者更精确地说，在 Apache 或底层操做系统中）的内存分配缓冲区发生溢出。请记住，您多是使用 PHP 这样的高级语言来编写 Web 应用程序，可是最终仍是要调用 C（在 Apache 的状况下）。与大多数低级语言同样，C 对于内存分配有严格的规则。

缓冲区溢出攻击向缓冲区发送大量数据，使部分数据溢出到相邻的内存缓冲区，从而破坏缓冲区或者重写逻辑。这样就可以形成拒绝服务、破坏数据或者在远程服务器上执行恶意代码。

防止缓冲区溢出攻击的唯一方法是检查全部用户输入的长度。例如，若是有一个表单元素要求输入用户的名字，那么在这个域上添加值为 40 的 maxlength 属性，并在后端使用 substr() 进行检查。下面给出表单和 PHP 代码的简短示例。

01
<?php
02
if ($_POST['submit'] == "go"){
03
    $name = substr($_POST['name'],0,40);
04
}
05
?>
06
<form action="<?php echo $_SERVER['PHP_SELF'];?>" method="post">
07
<p><label for="name">Name</label>
08
<input type="text" name="name" id="name" size="20" maxlength="40"/></p>
09
<p><input type="submit" name="submit" value="go"/></p>
10
</form>
为何既提供 maxlength 属性，又在后端进行 substr() 检查？由于纵深防护老是好的。浏览器防止用户输入 PHP 或 MySQL 不能安全地处理的超长字符串（想像一下有人试图输入长达 1,000 个字符的名称），然后端 PHP 检查会确保没有人远程地或者在浏览器中操纵表单数据。

正如您看到的，这种方式与前面使用 strlen() 检查 GET 变量 pid 的长度类似。在这个示例中，忽略长度超过 5 位的任何输入值，可是也能够很容易地将值截短到适当的长度，以下改变输入的 GET 变量的长度所示：

01
<?php
02
$pid = $_GET['pid'];
03
if (strlen($pid)){
04
    if (!ereg("^[0-9]+$",$pid)){
05
        //if non numeric $pid, send them back to home page
06
    }
07
}else{
08
    //empty $pid, so send them back to the home page
09
}
10
    //we have a numeric pid, but it may be too long, so let's check
11
    if (strlen($pid)>5){
12
        $pid = substr($pid,0,5);
13
    }
14
    //we create an object of a fictional class Page, which is now
15
    //even more protected from evil user input
16
    $obj = new Page;
17
    $content = $obj->fetchPage($pid);
18
    //and now we have a bunch of PHP that displays the page
19
?>
注意，缓冲区溢出攻击并不限于长的数字串或字母串。也可能会看到长的十六进制字符串（每每看起来像 \xA3 或 \xFF）。记住，任何缓冲区溢出攻击的目的都是淹没特定的缓冲区，并将恶意代码或指令放到下一个缓冲区中，从而破坏数据或执行恶意代码。对付十六进制缓冲区溢出最简单的方法也是不容许输入超过特定的长度。

若是您处理的是容许在数据库中输入较长条目的表单文本区，那么没法在客户端轻松地限制数据的长度。在数据到达 PHP 以后，可使用正则表达式清除任何像十六进制的字符串。

防止十六进制字符串：

01
<?php
02
if ($_POST['submit'] == "go"){
03
    $name = substr($_POST['name'],0,40);
04
    //clean out any potential hexadecimal characters
05
    $name = cleanHex($name);
06
    //continue processing....
07
}
08
function cleanHex($input){
09
    $clean = preg_replace("![\][xX]([A-Fa-f0-9]{1,3})!", "",$input);
10
    return $clean;
11
}
12
?>
13
<form action="<?php echo $_SERVER['PHP_SELF'];?>" method="post">
14
<p><label for="name">Name</label>
15
<input type="text" name="name" id="name" size="20" maxlength="40"/></p>
16
<p><input type="submit" name="submit" value="go"/></p>
17
</form>
您可能会发现这一系列操做有点儿太严格了。毕竟，十六进制串有合法的用途，好比输出外语中的字符。如何部署十六进制 regex 由您本身决定。比较好的策略是，只有在一行中包含过多十六进制串时，或者字符串的字符超过特定数量（好比 128 或 255）时，才删除十六进制串。

跨站点脚本攻击

在跨站点脚本（XSS）攻击中，每每有一个恶意用户在表单中（或经过其余用户输入方式）输入信息，这些输入将恶 意的客户端标记插入过程或数据库中。例如，假设站点上有一个简单的来客登记簿程序，让访问者可以留下姓名、电子邮件地址和简短的消息。恶意用户能够利用这 个机会插入简短消息以外的东西，好比对于其余用户不合适的图片或将用户重定向到另外一个站点的 Javascrīpt，或者窃取 cookie 信息。幸运的是，PHP 提供了 strip_tags() 函数，这个函数能够清除任何包围在 HTML 标记中的内容。strip_tags() 函数还容许提供容许标记的列表，好比 <b> 或 <i>。

浏览器内的数据操纵

有一类浏览器插件容许用户篡改页面上的头部元素和表单元素。使用 Tamper Data（一个 Mozilla 插件），能够很容易地操纵包含许多隐藏文本字段的简单表单，从而向 PHP 和 MySQL 发送指令。

用户在点击表单上的 Submit 以前，他能够启动 Tamper Data。在提交表单时，他会看到表单数据字段的列表。Tamper Data 容许用户篡改这些数据，而后浏览器完成表单提交。

让咱们回到前面创建的示例。已经检查了字符串长度、清除了 HTML 标记并删除了十六进制字符。可是，添加了一些隐藏的文本字段，以下所示：

01
<?php
02
if ($_POST['submit'] == "go"){
03
    //strip_tags
04
    $name = strip_tags($_POST['name']);
05
    $name = substr($name,0,40);
06
    //clean out any potential hexadecimal characters
07
    $name = cleanHex($name);
08
    //continue processing....
09
}
10
function cleanHex($input){
11
    $clean = preg_replace("![\][xX]([A-Fa-f0-9]{1,3})!", "",$input);
12
    return $clean;
13
}
14
?>
15
<form action="<?php echo $_SERVER['PHP_SELF'];?>" method="post">
16
<p><label for="name">Name</label>
17
<input type="text" name="name" id="name" size="20" maxlength="40"/></p>
18
<input type="hidden" name="table" value="users"/>
19
<input type="hidden" name="action" value="create"/>
20
<input type="hidden" name="status" value="live\"/>
21
<p><input type="submit" name="submit" value="go"/></p>
22
</form>
注意，隐藏变量之一暴露了表名：users。还会看到一个值为 create 的 action 字段。只要有基本的 SQL 经验，就可以看出这些命令可能控制着中间件中的一个 SQL 引擎。想搞大破坏的人只需改变表名或提供另外一个选项，好比 delete。

如今还剩下什么问题呢？远程表单提交。

远程表单提交

Web 的好处是能够分享信息和服务。坏处也是能够分享信息和服务，由于有些人作事毫无顾忌。

以表单为例。任何人都可以访问一个 Web 站点，并使用浏览器上的 File > Save As 创建表单的本地副本。而后，他能够修改 action 参数来指向一个彻底限定的 URL（不指向 formHandler.php，而是指向 http://www.nowamagic.net/formHandler.php，由于表单在这个站点上），作他但愿的任何修改，点击 Submit，服务器会把这个表单数据做为合法通讯流接收。

首先可能考虑检查 $_SERVER['HTTP_REFERER']，从而判断请求是否来自本身的服务器，这种方法能够挡住大多数恶意用户，可是挡不住最高明的黑客。这些人足够聪明，可以篡改头部中的引用者信息，使表单的远程副本看起来像是从您的服务器提交的。

处理远程表单提交更好的方式是，根据一个唯一的字符串或时间戳生成一个令牌，并将这个令牌放在会话变量和表单中。提交表单以后，检查两个令牌是否匹配。若是不匹配，就知道有人试图从表单的远程副本发送数据。

要建立随机的令牌，可使用 PHP 内置的 md5()、uniqid() 和 rand() 函数，以下所示：

01
<?php
02
session_start();
03
if ($_POST['submit'] == "go"){
04
    //check token
05
    if ($_POST['token'] == $_SESSION['token']){
06
        //strip_tags
07
        $name = strip_tags($_POST['name']);
08
        $name = substr($name,0,40);
09
        //clean out any potential hexadecimal characters
10
        $name = cleanHex($name);
11
        //continue processing....
12
    }else{
13
        //stop all processing! remote form posting attempt!
14
    }
15
}
16
$token = md5(uniqid(rand(), true));
17
$_SESSION['token']= $token;
18
function cleanHex($input){
19
    $clean = preg_replace("![\][xX]([A-Fa-f0-9]{1,3})!", "",$input);
20
    return $clean;
21
}
22
?>
23
<form action="<?php echo $_SERVER['PHP_SELF'];?>" method="post">
24
<p><label for="name">Name</label>
25
<input type="text" name="name" id="name" size="20" maxlength="40"/></p>
26
<input type="hidden" name="token" value="<?php echo $token;?>"/>
27
<p><input type="submit" name="submit" value="go"/></p>
28
</form>
这种技术是有效的，这是由于在 PHP 中会话数据没法在服务器之间迁移。即便有人得到了您的 PHP 源代码，将它转移到本身的服务器上，并向您的服务器提交信息，您的服务器接收的也只是空的或畸形的会话令牌和原来提供的表单令牌。它们不匹配，远程表单提交就失败了。