暴力破解MD5的实现（MapReduce编程）

时间 2019-11-10

原文原文链接

本文主要介绍MapReduce编程模型的原理和基于Hadoop的MD5暴力破解思路。java

1、MapReduce的基本原理

Hadoop做为一个分布式架构的实现方案，它的核心思想包括如下几个方面：HDFS文件系统，MapReduce的编程模型以及RPC框架。不管是怎样的架构，一个系统的关键无非是存储结构和业务逻辑。HDFS分布式文件系统是整个Hadoop的基础。在HDFS文件系统之中，大文件被分割成不少的数据块，每一块都有可能分布在集群的不一样节点中。也就是说在HDFS文件系统中，文件的状况是这样的：apache

文件保存在不一样的节点上，而Hadoop是用于海量数据处理的，那么如何把分布在各个节点的数据进行高效的并发处理呢？Hadoop对此提供了不一样的解决方案，好比yarn框架等。框架已经帮咱们写好了不少的诸如任务分配，节点通讯之类的事情。而咱们要作的就是写好本身的业务逻辑，那么咱们就要遵照Hadoop的编程规范，而这个编程规范就是MapReduce。编程

那么MapReduce的运行过程是怎么样的呢？且看下图：架构

1.从HDFS文件系统中读取文件，每个数据块对应一个MapTask。并发

2.进行Map任务，逐行读取文件，每一行调用一次Map函数，数据被封装为一个键值对也就是图中的<k2,v2>。app

3.将Map后的键值对进行归约，key值相同的value会被封装到一块儿。就好了图中的<k,{v1,v2,v3}>框架

4.归约后的键值对会被送到不一样的Reduce中，执行Reduce任务，输出<k3,v3>到输出文件中。分布式

弄懂了MapReduce的执行过程以后，咱们就能够编写本身的逻辑来进行处理了。函数

2、MD5暴力破解的基本思路

仍是先上图：oop

1.编程生成全部的密码明文文件。

2.将明文上传至HDFS文件系统中，在Map函数中实现MD5的求值。而后直接存入文件系统中中。

代码实现:

package com.test;

import java.security.MessageDigest;

import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
/**
 * 目地很简单。不须要reduce处理，直接在Map中解决问题
 * @author hadoop
 *
 */
public class Test {
	//定义Map处理类
	static class TestMapper extends Mapper<LongWritable, Text, Text, Text>{
		//重写map方法
		public void map(LongWritable key, Text value, Context context)throws  InterruptedException {
		     try{
		    	 //生成MD5 
		    	 String keyStr=value.toString();
		    	 String MD5=getMD5(keyStr);
		    	 context.write(new Text(keyStr), new Text(MD5));
		     }catch (Exception e){
		    	 e.printStackTrace();
		     }
		}
	}
/**
 * MD5计算
 * @param str
 * @return
 */
public static String getMD5(String str) {
    try {
        // 生成一个MD5加密计算摘要
        MessageDigest md = MessageDigest.getInstance("MD5");
        // 计算md5函数
        md.update(str.getBytes());
        // digest()最后肯定返回md5 hash值，返回值为8为字符串。由于md5 hash值是16位的hex值，实际上就是8位的字符
        // BigInteger函数则将8位的字符串转换成16位hex值，用字符串来表示；获得字符串形式的hash值
        byte[] encrypt = md.digest();
        StringBuilder sb = new StringBuilder();
        for (byte t : encrypt) {
        	String s = Integer.toHexString(t & 0xFF);
        	if (s.length() == 1) {
        	    s = "0" + s;
        	}
            sb.append(s);
        }
        String res = sb.toString();
        return res;
    } catch (Exception e) {
        e.printStackTrace();
    }
    return null;
}

public static void main(String[] args) throws Exception {
    		//必需要传递的是自定的mapper和reducer的类，输入输出的路径必须指定，输出的类型<k3,v3>必须指定
            //将自定义的MyMapper和MyReducer组装在一块儿
            Configuration conf=new Configuration();
            String jobName=Test.class.getSimpleName();
            //首先写job，知道须要conf和jobname在去建立便可
            Job job = Job.getInstance(conf, jobName);
            //若是要打包运行改程序，则须要调用以下行
            job.setJarByClass(Test.class);
            //读取HDFS內容：设置输入路径
            FileInputFormat.setInputPaths(job, new Path(args[0]));
            //指定解析<k1,v1>的类（谁来解析键值对）
            //*指定解析的类能够省略不写，由于设置解析类默认的就是TextInputFormat.class
            job.setInputFormatClass(TextInputFormat.class);
            //指定自定义mapper类
            job.setMapperClass(TestMapper.class);
            //指定map输出的key2的类型和value2的类型  <k2,v2>
            //下面两步能够省略，当<k3,v3>和<k2,v2>类型一致的时候,<k2,v2>类型能够不指定
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(Text.class);
            //分区(默认1个)，排序，分组，规约 采用 默认
//            job.setCombinerClass(null);
            //接下来采用reduce步骤
            //指定自定义的reduce类
//            job.setReducerClass(null);
            //指定输出的<k3,v3>类型
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(Text.class);
            //指定输出<K3,V3>的类
            //下面这一步能够省
//            job.setOutputFormatClass(TextOutputFormat.class);
            //指定输出路径
            FileOutputFormat.setOutputPath(job, new Path(args[1]));
            //写的mapreduce程序要交给resource manager运行
            job.waitForCompletion(true);
     }

}

这里为何不用Reduce过程？

Reduce是对归约后的键值对进行处理的，可是能够看见，咱们的明文都是惟一的，通过Map后输出的键值对的Key都是不同的，归约以后仍然如此，因此没有必要在Reduce过程当中进行其余操做。

另外我以前的想法是不在map中处理，而是将Map中读取到的文件内容直接输出到Reduce，而后在Reduce中进行MD5的计算，可是从Map中传输过来的数据总会多出一些行，致使计算出错。（这个我也没能弄懂怎么回事，有大佬知道的能够靠诉我）

3、数据查询

有了上一步生成的数据，咱们就能够作数据的查询了。生成的文件仍然是在HDFS文件系统中，经过终端输入参数（能够是明文或者是密文），而后用MapReduce进行查找，结果输出到文件中。

代码：

package com.test;

import java.security.MessageDigest;

import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
/**
 * 目地很简单。不须要reduce处理，直接在Map中解决问题
 * @author hadoop
 *
 */
public class Test {
	private static String s=null;
	//定义Map处理类
	static class TestMapper extends Mapper<LongWritable, Text, Text, Text>{
		//重写map方法
		public void map(LongWritable key, Text value, Context context)throws  InterruptedException {
		     try{
		    	 //查询MD5的值
		    	int index=value.find(s);
		    	if(index>=0){
		    		System.out.println("=================="+value.toString());
		    		context.write(new Text("result"), value);
		    	}
		     }catch (Exception e){
		    	 e.printStackTrace();
		     }
		}
	}
/**
 * MD5计算
 * @param str
 * @return
 */
public static String getMD5(String str) {
    try {
        // 生成一个MD5加密计算摘要
        MessageDigest md = MessageDigest.getInstance("MD5");
        // 计算md5函数
        md.update(str.getBytes());
        // digest()最后肯定返回md5 hash值，返回值为8为字符串。由于md5 hash值是16位的hex值，实际上就是8位的字符
        // BigInteger函数则将8位的字符串转换成16位hex值，用字符串来表示；获得字符串形式的hash值
        byte[] encrypt = md.digest();
        StringBuilder sb = new StringBuilder();
        for (byte t : encrypt) {
        	String s = Integer.toHexString(t & 0xFF);
        	if (s.length() == 1) {
        	    s = "0" + s;
        	}
            sb.append(s);
        }
        String res = sb.toString();
        return res;
    } catch (Exception e) {
        e.printStackTrace();
    }
    return null;
}

public static void main(String[] args) throws Exception {
    		//必需要传递的是自定的mapper和reducer的类，输入输出的路径必须指定，输出的类型<k3,v3>必须指定
            //将自定义的MyMapper和MyReducer组装在一块儿
			
	
			//参数（明文或者MD5值）
			s=args[2];
            Configuration conf=new Configuration();
            String jobName=Test.class.getSimpleName();
            //首先写job，知道须要conf和jobname在去建立便可
            Job job = Job.getInstance(conf, jobName);
            //若是要打包运行改程序，则须要调用以下行
            job.setJarByClass(Test.class);
            //读取HDFS內容：设置输入路径
            FileInputFormat.setInputPaths(job, new Path(args[0]));
            //指定解析<k1,v1>的类（谁来解析键值对）
            //*指定解析的类能够省略不写，由于设置解析类默认的就是TextInputFormat.class
            job.setInputFormatClass(TextInputFormat.class);
            //指定自定义mapper类
            job.setMapperClass(TestMapper.class);
            //指定map输出的key2的类型和value2的类型  <k2,v2>
            //下面两步能够省略，当<k3,v3>和<k2,v2>类型一致的时候,<k2,v2>类型能够不指定
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(Text.class);
            //分区(默认1个)，排序，分组，规约 采用 默认
//            job.setCombinerClass(null);
            //接下来采用reduce步骤
            //指定自定义的reduce类
//            job.setReducerClass(null);
            //指定输出的<k3,v3>类型
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(Text.class);
            //指定输出<K3,V3>的类
            //下面这一步能够省
//            job.setOutputFormatClass(TextOutputFormat.class);
            //指定输出路径
            FileOutputFormat.setOutputPath(job, new Path(args[1]));
            //写的mapreduce程序要交给resource manager运行
            job.waitForCompletion(true);
}

}

4、导出JAR包放到Hadoop中运行

把文件导出成JAR包，在终端使用命令

生成密文：

bin/hadoop jar [jar包路径] [输入文件路径] [输出路径]

查询

bin/hadoop jar [jar包路径] [输入文件路径] [输出路径] [密文或者明文]

生成的密文结果实例：

查询的结果示例：

ok以上，祝君好运。