软工网络16我的做业2——WordCount

Deadline:

2018-9-17 22:00PM,以博客提交至班级博客时间为准
要求参考来自:https://www.cnblogs.com/xinz/archive/2011/11/27/2265425.html
https://edu.cnblogs.com/campus/buaa/BUAASummerSETraining/homework/2013
https://edu.cnblogs.com/campus/fzu/FZUSoftwareEngineering1816W/homework/2085html

  1. 实现一个可以对文本文件中的单词词频进行统计的控制台程序。
  2. 进行单元测试、回归测试、效能测试,在实现上述程序的过程当中使用相关的工具。
  3. 进行我的软件过程(PSP)的实践,逐步记录本身在每一个软件工程环节花费的时间。
  4. 使用源代码管理系统 (码云)。

Task1:编码要求

  1. Fork 码云项目 https://gitee.com/SE-net16/PersonalProject-C
    https://gitee.com/SE-net16/PersonalProject-Java 到本身的仓库,在本身的码云仓库中新建一个学号命名的文件夹。
  2. 在开始实现程序以前,在PSP表格[附录1]记录下你估计在程序开发各个步骤上耗费的时间,在你实现程序以后,在PSP表格记录下你在程序的各个模块上实际花费的时间。
  3. 使用C++或者Java语言实现,C++请使用Visual Studio Community 2017进行开发,Java请使用,运行环境为64-bit Windows 10。
  4. 编写的代码遵照代码规范
  5. 使用码云来管理源代码和测试用例,代码有进展即签入码云。签入记录不合理的项目会被助教抽查询问项目细节。
  6. 使用单元测试对项目进行测试,并使用插件查看测试分支覆盖率等指标;并写出至少10个测试用例确保你的程序可以正确处理各类状况。
  7. 在完成我的项目后,请正确发起一个Pull Request,并确保本身的代码最终成功签入到 https://gitee.com/SE-net16/PersonalProject-C
    https://gitee.com/SE-net16/PersonalProject-Java 中。(若是成功签入会在原始项目主页看到本身学号为名的文件夹)

Task2:博客要求

  1. 在文章开头给出博客做业要求地址,码云项目地址。
  2. 给出我的的PSP表格。
  3. 解题思路描述。即刚开始拿到题目后,如何思考,如何找资料的过程。
  4. 设计实现过程。设计包括代码如何组织,好比会有几个类,几个函数,他们之间关系如何,关键函数是否须要画出流程图?单元测试是怎么设计的?
  5. 代码说明。展现出项目关键代码,并解释思路与注释说明。
  6. 结合在构建之法中学习到的相关内容与我的项目的实践经历,撰写解决项目的心路历程与收获。

Task3:WordCount 项目要求

实现一个统计程序,它能正确统计程序文件中的字符数、单词数、行数,以及还具有其余扩展功能,并可以快速地处理多个文件。java

第一步:基本功能要求

输入文件名以命令行参数传入。例如咱们在命令行窗口(cmd)中输入:git

//C语言类
wordCount.exe input.txt
//Java语言
java wordCount input.txt

则会统计input.txt中的如下几个指标github

  • 统计文件的字符数:
    - 只须要统计Ascii码,汉字不需考虑
    - 空格,水平制表符,换行符,均算字符
    - 统计文件的单词总数,单词:以4个英文字母开头,跟上字母数字符号,单词以分隔符分割,不区分大小写。
    - 英文字母:A-Za-z
    - 字母数字符号:A-Za-z0-9
    - 分割符:空格,非字母数字符号
    - 例:file123是一个单词,1file不是一个单词。fileFileFILE是同一个单词
  • 统计文件的有效行数:任何包含非空白字符的行,都须要统计。
  • 统计文件中各单词的出现次数,最终只输出频率最高的10个。频率相同的单词,优先输出字典序靠前的单词。
  • 按照字典序输出到文件result.txt:例如,windows95,windows98和windows2000同时出现时,则先输出windows2000
    • 输出的单词统一为小写格式
  • 输出的格式为算法

    characters: number
    words: number
    lines: number
    <word1>: number
    <word2>: number
    ...

第二步:接口封装

在写了一些代码开胃以后,你们都完成了一份知足基本功能的代码。
你们的代码都各有特点,若是如今咱们要把这个功能放到不一样的环境中去(例如,命令行,Windows图形界面程序,网页程序,手机App),就会碰到困难:代码散落在各个函数中,很难剥离出来做为一个独立的模块运行以知足不一样的需求。
同时咱们也看到,不一样的代码解决不一样层面的问题:windows

  1. 有些是计算数据的(例如统计单词)
  2. 有些是控制输入的(例如scanf,cin,图形界面的输入字段)
  3. 有些是数据可视化的(例如printf,cout,println,DrawText)
  4. 有些则更为特殊,是架构相关的(例如main函数,并非全部的程序都须要某个特定格式的main)

这些代码的种类不一样,混杂在一块儿对于后期的维护扩展很不友好,因此它们的组织结构就须要精心的整理和优化。
咱们但愿把基本功能里的:架构

  1. 统计字符数
  2. 统计单词数
  3. 统计最多的10个单词及其词频

这三个功能独立出来,成为一个独立的模块(class library, DLL, 或其它),这样的话,命令行和GUI的程序都能使用同一份代码。为了方便起见,咱们称之为计算核心"Core模块",这个模块至少能够在几个地方使用:app

  1. 命令行测试程序使用
  2. 在单元测试框架下使用
  3. 与数据可视化部分结合使用

把计算核心在单元测试框架中作过完备的测试后,咱们就能够在算法层级保证了这个模块的正确性。
但咱们知道软件并不是只有计算核心,实际的软件是交付给最终用户的软件,除了计算核心外,还须要有必定的界面和必要的辅助功能。
这个Core模块和使用它的其余模块之间则要经过必定的API来交流。
API应该怎么设计呢?
为了方便起见,咱们能够从下面的最简单的接口开始(仅举例,你的代码里可能没有这个函数):框架

int countChar(File *file)
这个函数表示输出一个文件指针,返回这个文件的字符数。
假设咱们用Core封装了这个接口,那么咱们的测试程序能够是这样:ide

File *in = fopen("input.txt","r");
int count = 100;
Assert(countChar(in) == count);

固然,这样的测试程序并不充分,但愿你们测试时不要像这样偷懒。

第三步:错误处理并设计单元测试

如今咱们封装了接口,咱们要对咱们的代码进行正确性验证。
另外一方面咱们都知道健壮性对于软件来讲是很是必要的,请各位使用单元测试对项目进行测试,并使用插件查看测试分支覆盖率等指标;另外,请准备至少10个测试用例确保你的程序可以正确处理各类状况,而且不会崩溃。
对待错误的输入,可以尽量精确报错(就像编译器同样)。
你能够有“容错性”的出错设计,但必须输出必要的提示或说明。

第四步:效能分析

如今咱们已经有了一个基础的词频统计软件,若是它经过了足够多的单元测试,那它可能也已是一个比较完善的词频统计软件了。可是一个软件光正确了还不够,还须要有必定的性能。
那么,如何让软件又快又好地执行呢?那就须要咱们找到执行消耗时间最久的模块,而后不断地优化改进它。那么,如何知道哪些语句是软件的时间瓶颈呢,这就须要用到效能分析。

使用 Visual Studio 进行 C++ 效能分析:https://docs.microsoft.com/en-us/visualstudio/profiling/beginners-guide-to-performance-profiling
使用 JProfiler 进行 Java 效能分析:http://www.javashuo.com/article/p-urvgxxxt-hn.html

关于效能分析的更多资料,能够查看:http://www.cnblogs.com/xinz/archive/2011/11/20/2255809.html

参照“效能测试、分析、改进,再效能测试”的流程,找出关键模块消耗最大的函数,而后分析一下:该如何改进这个程序?
值得注意的一点是,效能分析只在真正有性能问题时才会有显著结果。也就是说,学员在进行效能分析时,可能统计一个只有100行的文件并看不出来有什么差别,也看不出来哪里消耗最大。此时可使用更大的参数试试,好比统计一个有1000,000行的文件,再使用效能分析工具测试消耗时间最多的模块,再进行改进。

Task4:测试须知

组织目录

助教在测试时,将运行自动测试程序编译源文件并运行,进行批量测试,所以请保证项目的组织目录符合要求.

Java

对于使用Java语言的项目有如下两点要求:

【以学号为名的文件夹中】的目录下必须有src文件夹

  1. 在src目录下必须有名为Main.java文件,且Main.java中包含 public static void main(String[] args) 方法
  2. 一个Java项目的示例组织目录以下所示:
201621123000(文件夹名字为学号,这里以学号201621123000为例)
|- src
  |- Main.java(主程序,能够从命令行接收参数)
  |- lib.java(包含其它自定义函数,能够有多个,对名字不作要求)

C++

对于使用C++语言的项目有如下两点要求:
【以学号为名的文件夹中】的目录下必须有src文件夹,在src文件夹中是可在VS2017下编译运行的解决方案,解决方案的名字必须为 WordCount,一个C++工程示例组织目录以下所示:

201621123000(文件夹名字为学号,这里以学号201621123000为例)
|- src
   |- WordCount.sln
   |- WordCount
       |- stdafx.cpp
       |- stdafx.h
       |- WordCount.cpp
       |- WordCount.vcxproj

评分基准

博客评分

本次博客做业总分 20分,由如下部分组成:

  1. 在文章开头给出本身的码云项目地址。(1')
  2. 在开始实现程序以前,在下述PSP表格记录下你估计将在程序的各个模块的开发上耗费的时间。(0.5')
  3. 计算模块接口的设计与实现过程。 设计包括代码如何组织,好比会有几个类,几个函数,他们之间关系如何,关键函数是否须要画出流程图?说明你的算法的关键(没必要列出源代码),以及独到之处。(8')
  4. 计算模块接口部分的性能改进。 记录在改进计算模块性能上所花费的时间,描述你改进的思路。(3')
  5. 计算模块部分单元测试展现。 展现出项目部分单元测试代码,并说明测试的函数,构造测试数据的思路。并将单元测试获得的测试覆盖率截图,发表在博客中。(4')
  6. 计算模块部分异常处理说明。 在博客中详细介绍每种异常的设计目标。每种异常都要选择一个单元测试样例发布在博客中,并指明错误对应的场景。(3')
  7. 在你实现完程序以后,在附录提供的PSP表格记录下你在程序的各个模块上实际花费的时间。(0.5')

程序评分

本次程序做业总分40分,由如下部分组成:

  1. 正确性(30')
  2. 性能(10')
  • 当程序的正确性评分大于25分时才能够参与性能评分环节,因此请各位同窗务必保证本身程序的正确性。
  • 性能评分将采起档级评分制度,助教将根据同窗们的程序跑同一数据耗费的时间长度将程序分为若干档,每一档的同窗获得的分数为 10/档级数。

注:

  • 如能积极响应助教和老师的反馈并在评论2天内作出相应修改,会在已有评分上有必定加分,但原则上得到分数不超过本次做业总分。
  • 如对分数有意见,只给一次向助教申诉的机会
  • 迟交一周扣实际分数的一半
  • 迟交两周或以上,不给分
  • 抄袭倒扣分

【附录】

附录1——PSP模板

PSP模版表格以下,第3列和第4列分别对应第2列条目的估计时间和真实时间,模版表格里的时间只是示意。

PSP2.1 我的开发流程 预估耗费时间(分钟) 实际耗费时间(分钟)
Planning 计划 8 6
· Estimate 明确需求和其余相关因素,估计每一个阶段的时间成本 8 6
Development 开发 82 88
· Analysis 需求分析 (包括学习新技术) 6 10
· Design Spec 生成设计文档 5 6
· Design Review 设计复审 4 6
· Coding Standard 代码规范 3 3
· Design 具体设计 10 12
· Coding 具体编码 36 21
· Code Review 代码复审 7 9
· Test 测试(自我测试,修改代码,提交修改) 13 21
Reporting 报告 9 6
· 测试报告 3 2
· 计算工做量 2 1
· 并提出过程改进计划 3 3

附录2——单元测试

  1. 请根据本身以往积累的测试经验,在编码完成以后,提交产品以前,设计测试用例,并编写单元测试,对本身的项目进行测试。
    • 首先,至少应采用白盒测试用例设计方法来设计测试用例,其余测试方法不限。
    • 其次,要设计至少10个测试用例,确保你的程序可以正确处理各类状况。
    • 最后,结合测试评估的要求,对本身的测试设计进行评价,这些测试用例能知足该程序测试的要求吗?
  2. 另外一个重要的措施是要把单元测试自动化,这样每一个人都能很容易地运行它,而且可使单元测试天天都运行。每一个人均可以随时在本身的机器上运行。团队通常是在每日构建中运行单元测试的,这样每一个单元测试的错误就能及时被发现并获得修改。
  3. 推荐阅读邹欣老师关于单元测试和回归测试
  4. 参考:

附录3——Git操做

  1. Java培训文档
  2. C++培训文档
相关文章
相关标签/搜索