《构建之法》——第四次做业

时间 2019-11-13

标签构建之法第四繁體版

原文原文链接

Github项目地址	Github项目地址
这个做业要求在哪里	做业要求的连接
结对同伴的连接	同伴连接
个人博客地址	个人地址

结对编程

这是，咱们在结对编程实现关键代码，在两我的的齐心合力之下最终实现了关键代码html

PSP表格

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划	40	55
· Estimate	· 估计这个任务须要多少时间	90	90
Development	开发	60	75
· Analysis	· 需求分析 (包括学习新技术)	30	35
· Design Spec	· 生成设计文档	15	18
· Design Review	· 设计复审 (和同事审核设计文档)	20	20
· Coding Standard	· 代码规范 (为目前的开发制定合适的规范)	5	5
· Design	· 具体设计	30	40
· Coding	· 具体编码	120	150
· Code Review	· 代码复审	40	60
· Test	· 测试（自我测试，修改代码，提交修改）	50	70
Reporting	报告	100	120
· Test Report	· 测试报告	50	55
· Size Measurement	· 计算工做量	20	20
· Postmortem & Process Improvement Plan	· 过后总结, 并提出过程改进计划	15	10
	合计	685	823

1、项目思路及其总结

a.解题思路描述。
- 拿到题目后，仔细阅读理清题意。题目须要咱们对文本中的字符、单词、单词频率、有效总行数进行统计
- 进行模块划分除主函数以外只须要一个类，七个函数，每一个函数不一样的功能。其次根据我的编程能力的强弱进行分配
- 先将待统计的文档读入，利用正则表达式统计出符合题目要求的单词并放入字典并返回
- 将字典转换成数组，并根据频率排序从高到低进行排序，若频率同样按照字母顺序
- 对数组中的字符、单词、单词频率、有效总行进行统计
- 对每一个功能进行封装，使代码更简洁
b.设计实现过程
大致上，除了主函数这个类，还有一个大类getFile()，在getFile这个类中有七个方法，有一个公共方法getDic 这个方法用于得到字典，存入字典中的是长度大于四且不以数
字开头的单词以及他们出现的次数，这个方法会返回一个Hashtable，方法getWordFre()方法将字典按照单词出现的次数进行排序，并返回一个动态数组。
其余的，能够直接调用，getWordFre这个方法利用返回的数组进行相应功能的实现。单元测试是对这几个方法所
对应的功能进行相应的测试。如下是整个程序的流程图
git
c.代码规范
- 适当使用空行，来增长代码的可读性
- 方法的命名，通常将其命名为动宾短语，一个方法只完成一个任务
- 经常使用缩进和换行，使代码层次清晰，明了
- 对泛型进行循坏时，尽可能foreach
- 缩进和间隔：缩进用TAB，不用 SPACES
- 注释需和代码对齐
- 避免写太长的方法。一个典型的方法代码在1～25行之间。
d.代码说明

public Hashtable getDic(string pathName, ref Hashtable wordList)     //getDic：从文本文件中统计词频保存在Hashtable中
        {
            StreamReader sr = new StreamReader(pathName);
            string line;
            line = sr.ReadLine();             //按行读取
            while (line != null)
            {
                MatchCollection mc;
                Regex rg = new Regex("[0-9A-Za-z-]+");    //用正则表达式匹配单词
                mc = rg.Matches(line);
                for (int i = 0; i < mc.Count; i++)
                {
                    Regex regNum = new Regex("^[0-9]");
                    string mcTmp = mc[i].Value.ToLower();    //大小写不敏感
                    if (mcTmp.Length >= 4 && regNum.IsMatch(mcTmp) == false)//字符长度大于4且不以数字开头
                    {

                        if (!wordList.ContainsKey(mcTmp))     //第一次出现则添加为Key
                        {
                            wordList.Add(mcTmp, 1);

                        }
                        else                                            //不是第一次出现则Value加
                        {
                            int value = (int)wordList[mcTmp];
                            value++;
                            wordList[mcTmp] = value;
                        }
                    }
                    else
                        continue;
                }
                line = sr.ReadLine();
            }
            sr.Close();
            return wordList;
        }

getDic(string pathName, ref Hashtable wordList)这个方法用于从文本中将每一个词提取出来，并统计出每一个词词频放到Hashtable中，而后用StreamReader打开文件，
用while实现按行读取，在循环体中，用正则表达式匹配每一行的单词，while中的for循环用于对匹配出来的单词进行按条件剔除，符合条件的加入字典，不符合的剔除，最后返回一个Hashtablegithub

public ArrayList getWordFre(string pathName, ref Hashtable wordList)
        {
            getFile Wordlist = new getFile();

            Hashtable Wordlist_fre = new Hashtable();

            Wordlist_fre = Wordlist.getDic(pathName, ref wordList);
            ArrayList keysList = new ArrayList(Wordlist_fre.Keys);
            keysList.Sort();
            string tmp = String.Empty;
            int valueTmp = 0;
            for (int i = 1; i < keysList.Count; i++)
            {
                tmp = keysList[i].ToString();
                valueTmp = (int)wordList[keysList[i]];//次数
                int j = i;
                while (j > 0 && valueTmp > (int)wordList[keysList[j - 1]])
                {
                    keysList[j] = keysList[j - 1];
                    j--;
                }
                keysList[j] = tmp;//j=0
            }


            return keysList;
        }

getWordFre(string pathName, ref Hashtable wordList)将传递过来的wordList进行按频率排序，并将Hashtable转换成动态数组并返回正则表达式

public void write(string outputPath, ref Hashtable wordList, int lines, int words, int characters, int wordsOutNumFla, int wordsOutNum,int m,string inputPath)
        {
            getFile Wordlist = new getFile();
            ArrayList keysList = new ArrayList();
            ArrayList keysList1 = new ArrayList();

            keysList1 = Wordlist.getPhrase(inputPath, outputPath, ref wordList,  m);
            keysList = Wordlist.getWordFre(outputPath, ref wordList);
            StreamWriter sw = new StreamWriter(outputPath);
            sw.WriteLine("characters:{0}", characters);
            sw.WriteLine("words:{0}", words);
            sw.WriteLine("lines:{0}", lines);
            if (wordsOutNumFla == 1)
            {
                wordsOutNum = wordsOutNum;
            }
            else
                wordsOutNum = 10;
            for (int i = 0; i < wordsOutNum; i++)
            {
                sw.WriteLine("<{0}>:{1}", keysList[i], wordList[keysList[i]]);
            }
            sw.WriteLine("如下是长度为{0}的词组：\n",m);
            foreach (string j in keysList1)
            {
                sw.WriteLine("<{0}>:{1}", j, 1);
            }
            sw.Flush();
            sw.Close();
        }

写入文件仍是比较简单，可是有一个小细节就是在打开文件以后必定要关闭所打开的文件，否则若是要对文件进行二次追加写入的时候回报错，

我以前分两次写入文件的，而后又忘记了在第一次打开文件以后进行关闭，致使了报错必定要记住

这个方法，传入了须要写入文件的总字符数、单词数、频率，以及频率最高的单词的个数的标志位wordsOutNumFla，

经过wordsOutNumFla这个来判断是输出默认的十个最高频率单词，仍是使用-n参数后面的数字
编程

e 收获
- 一开始拿着这个题目头都大了说个实话，首先是由于我对C#是很陌生的，随后和个人同伴一块儿针对此次做业如何实现进行查阅必定的相关资料，
  
  知道了在C#中对于统计文本中的单词能够借助字典来实现，因此又去查找了字典相关的资料，而后慢慢的了解了该如何去实现咱们想要的功能。其次由于此次的我的做业是结对编程，
  
  能够两个一块儿来实现代码模块，相比较于一我的的话就会轻松不少，由于两我的结对编程的话，一我的写，一我的审查，若是有问题能够及时纠正，明白本身出错的地方，
  
  而若是是我本身一我的写的话，每每只能经过编译器报错来告诉我哪里错了，本身一我的是很难发现的，这样就能够节省必定的时间。在解决项目问题的关键代码上，这部分花的时间不少，
  
  第一个是由于刚学的知识应用不熟悉，第二个由于本身技术确实不到位，可是经过大量的时间最终仍是作出来了，因此世上无难事只怕有心人吧。
- 在我第一次实现代码的时候，是没有进行模块的划分的，就只有两个类，一个程序入口，另外一个类实现全部功能，这也就致使我本身的代码，很是乱，很是复杂，
  
  我本身都找不到相应的功能是在哪里进行实现的，若是运行报错，找半天都找不到错误的地方，就浪费了大量的时间，而后第二次我将个人代码进行了模块的划分，
  
  划分出了七个方法，每一个方法独立，同时能够调用其余的方法，这样一来，就比我第一次的代码看着简洁了许多。

2、单元测试

在没有封装以前，咱们对各自的代码进行了代码互审
对getHangNum进行测试，一下是代码

[TestMethod]
public void getHangNum()
        {
            int lines;
            int m = 3;
            string input_path = "C:/Users/罗伟诚/Desktop/input.txt", out_put = "C:/Users/罗伟诚/Desktop/out.txt";

            Hashtable wordList = new Hashtable();
            ArrayList keysList = new ArrayList();
            getFile c = new getFile();

            keysList = c.getWordFre(input_path, ref wordList);

            lines = c.getHangNum(input_path);

           
        }

测试出来如上图所示，没有问题c#

对 getWordNum1进行测试

[TestMethod]
 public void getWordNum1()
        {
            int words;
            int m = 3;
            string input_path = "C:/Users/罗伟诚/Desktop/input.txt", out_put = "C:/Users/罗伟诚/Desktop/out.txt";

            Hashtable wordList = new Hashtable();
            Hashtable wordList1 = new Hashtable();
            ArrayList keysList = new ArrayList();
            getFile c = new getFile();

            keysList = c.getWordFre(input_path, ref wordList);
            words = c.getWordNum(input_path);

        }

对getCharactersNum1进行测试

[TestMethod]
public void getCharactersNum1()
        {
            int  words, characters = 0, wordsOutNum = 0, wordsOutNumFla = 0, inputPathFla = 0, outputPathFla = 0;
            int m = 3;
            string input_path = "C:/Users/罗伟诚/Desktop/input.txt", out_put = "C:/Users/罗伟诚/Desktop/out.txt";

            Hashtable wordList = new Hashtable();
            Hashtable wordList1 = new Hashtable();
            ArrayList keysList = new ArrayList();
            getFile c = new getFile();

            keysList = c.getWordFre(input_path, ref wordList);
            words = c.getWordNum(input_path);

        }

三个测试写在一个类中，一块儿进行测试，测出来都经过了
以前三个测试都是用的同一个文件进行测试的，接下来，用准备的十个测试样例进行上述操做
代码测试覆盖率，因为这个是离线版，没有测试覆盖率

3、异常处理

关于路径的异常处理，由于这里须要用户输入路径，又没法用Direct 这个路径检查函数来判断，因此我就本身设置了一个标志位

try
            {
                if (inputPathFla == 1 || outputPathFla == 1)
                {
                    Hashtable wordList = new Hashtable();
                    Hashtable wordList1 = new Hashtable();
                    ArrayList keysList = new ArrayList();
                    getFile c = new getFile();

                    keysList = c.getWordFre(input_path, ref wordList);

                    lines = c.getHangNum(input_path);

                    words = c.getWordNum(input_path);

                    characters = c.getCharactersNum(input_path);

                    c.write(out_put, ref wordList, lines, words, characters, wordsOutNumFla, wordsOutNum,m,input_path );

                    Console.WriteLine("写入文件完成，请前往{0}查看\n", out_put);
                    
               }
                else
                {
                   Console.WriteLine("请使用 -i 参数和 -o 参数指定输入和输出路径\n");
               }
            
             

        }

            catch (Exception e)
            {
                Console.WriteLine("请检查输入路径是否正确");
            }

这是路径输入正常的状况

这是路径输入错误的状况

4、代码改进

一开始其实没有想着用字典的，由于想着用本身已有的知识看能不能解决，可是用字符串和数组都很差解决，会致使代码过长，冗杂
使用字典以后，我只须要用一个类，将文本文档中的数据提取出来存入字典，以后的操做能够直接使用字典就好了，很是的方便。
统计字符，以前采用的方法效率很低，后来采用的正则表达式，提升了效率
效率分析及最耗时的函数以下

5、代码复审

一开始由于我不是用的正则表达式，来提取单词，在张鹏的提示下，学习了一点点关于正则表达式的知识，并应用于程序中，由于以前我本身的没有用正则表达式的代码没有保存，因此附上如今的正则表达式的代码
用正则表达式，在处理数据比较多的时候，能够提升处理的速度（因此仍是很感谢张鹏同窗的提醒）

MatchCollection mc;
                    Regex rg = new Regex("[A-Za-z]+");    //用正则表达式匹配单词
                    mc = rg.Matches(line);
                    for (int i = 0; i < mc.Count - m + 1; i++)
                    {
                        Regex regNum = new Regex("^[0-9]");
                        string mcTmp = "";
                        int t = i;
                        for (int q = 0; q < m; q++)
                        {
                            mcTmp += mc[t].Value.ToLower() + " ";
                            t++;
                        }
                        k.Add(mcTmp);
                    }

6、总结

经过此次结对编程，总结了一下结对编程的好处数组

能够互相监督，不容易偷懒：两我的一块儿工做须要互相配合，若是偷懒就会拖延进度
能够互相学习，两我的的编程基础不同，想法也不同，在某些方面可能我厉害些，有些方面他厉害些，因此能够相互促进
多双眼睛，更少的bug：两我的相互监督工做，能够加强代码质量，并减小BUG
结对编程确实能够达到1+1>2的效果