Teamwork——Week4 团队项目之NABC

时间 2019-11-13

标签 teamwork week4 week 团队项目 nabc 繁體版

原文原文链接

项目框架——NABC模型算法

一.N（Need需求）sql

咱们组主要的用户对象是第三小组——UI小组的同窗们，所以咱们的用户需求就是他们的数据需求。数据库

1）提供给UI小组整理好的数据库，和前一组讨论好数据结构。数据结构

2）给每一条记录添加合理的标签，既不使数据结构过于麻烦，也不能增长方便UI小组进行查询。框架

3）做出爬取步骤的UI，方便UI小组知道软件的每一个功能，并有助于他们更好的理解咱们定义的每一个接口和方法。spa

4）对英文网页作翻译，并以中文的形式存入数据库（暂定采用较好的Google翻译）翻译

5）支持继续向pipeline中输入新内容。设计

二.A（Approach 作法）视频

1）对于爬到的数据先进行去噪处理，提取关键信息。（例如问题信息，回答信息，领域关键词）server

2）利用所学的sql server数据库的知识，对上一组crawler爬到的数据进行分组聚类，相应的贴上标签。

3）识别英文网页，对其进行中文翻译后再将其存入数据库。

以上提到的作法中主要要解决如下几个技术难点：

1）提取信息是如何准确匹配信息。

2）和前一组爬虫小组（crawler）商量好数据结构，以便于决定好数据提取的形式

3）决定标签如何分配，从而获得一个清晰的分类

4）翻译时除了借用谷歌翻译，还要借鉴其余良好的翻译算法，从而获得最佳的翻译文本

三.B（Benefit 好处）

像前面提到的同样，因为咱们组的任务不是具体的面向用户，所以benefit方面就提一下和学长相比的改进：

1）增长了能够根据须要实时添加数据记录的功能

2）数据标签的设计更加贴合实际状况，具体状况具体分析

3）翻译更加贴合中文

四.C（Competitors 竞争）

咱们这个层次暂时不存在竞争，由于第一，咱们也不知道其余同类系统的这一层面是如何实现的，第二，我认为竞争性的主要体现是表如今学霸组三个分组的综合功能上。

因为作爬虫的小组尚未决定好结束时爬取的网页、问答对、PDF文件、视频文件等的数量，以及抽取信息的数量，所以咱们组预估的信息基础是创建在上一届项目的基础上。

上一届的爬虫小组爬到的结果为32万个网页，包括问答对，PDF，美国名校计算机学院网页，其中问答对最多，近28万个。咱们计划处理的网页数量应该是在这个数据基础上只增不减吧（具体还要看爬虫小组的实际状况）。

——edited by 柴泽华