该轮到我祭出我当年研究生期间在实验室里参与或旁观的各类有用或者有趣的课题了:
1. 创建机器翻译的语料库。
这是我研究生期间的核心课题,我先来介绍下背景。
你们其实都用过谷歌翻译、百度翻译,虽然确实槽点不少,但不妨碍机器翻译相较过去已经达到基本可用的程度了。
我大概说下机器翻译的原理。
在几十年前,计算机学家们的思路是,既然是人工智能的范畴,就让计算机懂得语法规则、知道词语含义,跟小孩子上学时学习的语言课程同样去作训练,就应该能够了。
但结果是,基于语义和语法规则的机器翻译效果糟糕得一塌糊涂。
究其缘由,仍是每一个词语的含义实在太多、每句话的语境不一样意思也会不一样,更别说不一样语言中要表达清楚同一个意思的方式也彻底不一样。
好比下图这个,你以为英语国家的人能看懂吗:
其实,当时也有另外一派,叫作统计派。他们认为,就跟当年打败国际象棋世界冠军的“深蓝(深蓝(美国国际象棋电脑))”同样,应当用统计的方式去作。你们知道,“深蓝”并无领会象棋的下法,而只是熟悉几百万的棋局,懂得怎样走从几率上看起来是最正确的。
机器翻译也是这样,彻底能够输入人工翻译的大量语料,而后作出统计模型,让计算机尽量地熟悉别人是怎么翻译的,从而耳濡目染,也能“伪装”能够翻译了。
但那个年代并无条件收集大量语料信息。后来不少年后,谷歌出现了,随之出现的还有它的超大数据规模和超强的计算能力,因而谷歌的统计机器翻译系统也就是全球正确率最高的系统之一了。而目前你所用过的、见到的机器翻译工具,全都是用的统计方法。
故事大概就是这样。目前学术界的机器翻译方法中,统计机器翻译基本是垄断的地位。而效果的好坏,则基本就看语料库的规模。(想了解更多,推荐阅读 数学之美 (豆瓣) 的第2章“‘天然语言处理 — 从规则到统计”及第3章“统计语言模型”)
因此你知道了,个人任务就是跟同窗作一个爬虫和简易的分析系统,从而创建一个大规模的语料库。
网上双语的资源仍是挺多的,大都像这种:
咱们的爬取步骤大概是:
1. 对当前网页进行简易判断,若是有双语嫌疑,则收录整理出来双语的正文;若是没有,弃用;
2. 将正文内容进行详细判断,肯定是双语文本,则进行段落对齐和句子对齐,整理到语料库;若是没有,弃用;
3. 对当前网页的全部连接网页,重复步骤 1
有详细介绍的咱们申请的专利在这里:http://www.soopat.com/Patent/201210442487
其实咱们当时的双语判断算法和对齐算法这些都不是难点,难点在机器配置、爬虫设计和服务器维护上。咱们几乎每天流窜在机房(配置机器、接线、装机)、实验室(编写、运行代码)、网络中心(跪求带宽)、学校物业(空调他妈又坏了)这几个地方,老是无法消停。
最痛苦的是,假期里回家远程访问下爬虫,发现 down 机了... 整个假期的宝贵时间就浪费了。
这是咱们当时在又闷又热又吵的机房的照片:
好在最后咱们终于爬到了要求的语料规模,而且经过了国家项目的验收。如今这些包括中英俄日的庞大语料正在百度翻译中起到重要的做用,若是你用过百度翻译,不妨给我点个感谢 ^_^
若是你对机器翻译感兴趣,也能够本身爬点双语语料,作个翻译器玩玩。这是一个极其简易的搭建教程:机器翻译系统的搭建。能够用它介绍的 1500 句对,也能够本身多爬一些。搭建好以后,你输入一句话,看到机器像模像样地回一句半生不熟的翻译,仍是有可能会被萌到的。
固然,要是你但愿像咱们同样搭建千万级甚至亿级的语料库,而且作一个翻译器,那你须要有特别强大计算能力和存储能力的服务器、很是宽的带宽,以及强大的耐心和毅力...
2. 社会计算方面的统计和预测
不少朋友已经提到了能够经过爬虫获得的数据作一些社会计算的分析。咱们实验室爬取了大规模的新浪微博内容数据(多是非商用机构中最多的),并针对这些数据作了不少有趣的尝试。
2.1 情绪地图
@Emily L 提到了著名的根据情绪预测股市的论文:http://battleofthequants.net/wp-content/uploads/2013/03/2010-10-15_JOCS_Twitter_Mood.pdf 。其实咱们也仿照作了国内的,不过没有预测,只是监测目前微博上你们的情绪,也是极有趣的。
咱们把情绪类型分为“喜悦”“愤怒”“悲伤”“恐惧”“惊奇”,而且对能体现情绪的词语进行权重的标记,从而给天天每一个省份都计算出一个情绪指数。
界面大概是这样:
能够直观看到全国各省份的情绪。不过实际上我感受省份的区别不明显,最明显的是天天全国情绪指数的变更。
好比春节是 2 月 18 日,那天的情绪指数是 41.27,前一天是 33.04,后一天则是 39.66。跟除夕夜都在吐槽和抱怨春晚,而大年初一则都在拜年情绪高涨,初二有所回落这样的情况预估是一致的。
好比今年 1 月 2 日,上海踩踏事故开始登上各大媒体头条,成了热点话题,整个微博的情绪指数就骤降到 33.99 。
再好比 5 月份情绪指数最高的是 5·20,由于今年开始流行示爱和表白;其次就是五一假期那几天。一样跟现实情况的预估是一致的。
访问地址:http://123.126.42.100:5929/flexweb/index.html
2.2 饮食地图
咱们抽取出全部美食相关词语,而后基于你们提到的美食次数,作了这么一份饮食地图。你能够查看不一样省份、不一样性别的用户、不一样的时间段对不一样类别食物的关注程度。
好比你能够看到广东总体的美食关注:
还能够把男的排除掉,只看女的:
还能够具体到,看广东女性天天早上会提到什么喝的:
访问地址:微博用户饮食习惯分析
2.3 票房预测
这是咱们实验室最大胆的尝试,但愿利用微博上你们表现出来的,对某部电影的期待值和关注度,来预测其票房。
细节就不介绍了,目前对某些电影的预测比较准,某些则差不少。由于显然,不少电影是你们不用说也会默默买票,而不少电影是你们乐于讨论但不肯出钱到电影院去看的。
界面是这样的:
访问地址:电影票房预测-SCIR
最后贴上咱们实验室的官方网站:哈尔滨工业大学社会计算与信息检索研究中心
3. 写在后面
如今国内的社交平台(微博、豆瓣、知乎)已经积累了不少信息,在上面可分析的事情太多啦。大到政府部门须要的舆情监控,小到能够看看喜欢的姑娘最近情绪如何。
其中有些会特别有价值,好比一些重要的预测(股市预测、票房预测),真的作成了的话商业价值根本不可估量;还有些会特别有趣,好比看看 5·20 的时候你们最爱说的情话是什么,看看我跟李开复之间最近的关系链是什么。
说到这,我忽然很想作个知乎的分析。
在内容方面,好比看看全知乎的文字里最常出现的人名究竟是 @张佳玮仍是 @梁边妖;好比看看政治或者历史话题下,以表达情绪的词做为依据,你们的正能量多仍是负能量多;好比看看当你们提到哪些东西时,情绪会最激动(中医?老罗?穆斯林?)。
在关系方面,好比看看个人朋友、传说中认识全部知乎女 V 的 @丁澤宇 到底还有哪一个女 V 没有关注;好比看看知乎有哪些社交达人,虽然没多少赞但关系链却在大 V 们中间;好比看看有没有关注了我同时还被 @朱炫 关注的,这样我能够托他给我介绍大师兄。html