1.1 今日完成任务状况以及遇到的问题。
完成任务状况
- 杜世康:使用正则表达式对于弹幕文本中的数字,字母,符号,非法字符等过滤。
刘丹,李玉莹:实现主播管理功能
正则表达式
- 曹莹雯,尹楠: 调用NLPIR/ICTCLAS分词系统的Java API尝试对弹幕进行分词
王静雅 :管理员管理的实现
blog
遇到的问题
- 简单的正则不能过滤色情,不文明用语等。如“卧槽”、“SB”、“草泥马”等。

1.2 明天任务安排
截至目前已爬取弹幕11万余条数据,接下来的重点是对于弹幕文本的分析及及结果可视化table
- 杜世康:垃圾弹幕的过滤处理
- 刘丹:NLPIR/ICTCLAS分词系统对于弹幕文本的处理
- 李玉莹:NLPIR/ICTCLAS分词系统对于弹幕文本的处理
- 曹莹雯:NLPIR/ICTCLAS分词系统对于弹幕文本的处理
- 尹楠: NLPIR/ICTCLAS分词系统对于弹幕文本的处理
- 王静雅:NLPIR/ICTCLAS分词系统对于弹幕文本的处理,并撰写明日Alpha冲刺博文
1.3 成员贡献时间
弹幕文本内容的过滤 |
杜世康 |
20% |
4h |
实现主播管理功能 |
刘丹 |
15% |
2h |
实现主播管理功能 |
李玉莹 |
15% |
2h |
NLPIR/ICTCLAS分词系统进行分词 |
曹莹雯 |
15% |
2h |
NLPIR/ICTCLAS分词系统进行分词 |
尹楠 |
15% |
2h |
管理员管理的实现 |
王静雅 |
20% |
2h |
1.4 站立会议照片
