常据说,如今的代码,就和唐朝的诗同样重要。
可对咱们来讲,写几行代码没什么,可是,要让咱们真正地去写一首唐诗,那可就头大了。。既然如此,为什么不干脆用代码写一首唐诗?html
GitHub代码:GitHub - theodore3131/TangshiGeneratorpython
#使用urllib3的内置函数构建爬虫的安全验证,来应对网站的反爬虫机制 http = urllib3.PoolManager( cert_reqs='CERT_REQUIRED', ca_certs=certifi.where()) #爬虫的目标网站 r = http.request('GET', url) #爬虫获取的html数据 soup = BeautifulSoup(r.data, 'html.parser') content = soup.find('div', class_="contson")
p1 = r"[\u4e00-\u9fa5]{5,7}[\u3002|\uff0c]" #[汉字]{重复5-7次}[中文句号|中文逗号] pattern1 = re.compile(p1) #编译正则表达式 result = pattern1.findall(poemfile) #搜索匹配的字符串,获得匹配列表
#使用jieba中文分词库的textRank算法来找出各个词性的高频词 for x in jieba.analyse.textrank(content, topK=600, allowPOS=('n', 'nr', 'ns', 'nt', 'nz', 'm')):
唐诗生成git
使用pinyin库
pip install pinyin
verse = pinyin.get("天", format="strip") #输出:tian
对于韵脚,原本是想找出全部的韵脚并作成字典形式存储起来,但韵脚总共有20多个,
后来发现其实20多个韵脚都是以元音字母开始的,咱们能够基于这个规则来判断:github
rhythm = "" rhythmList = ["a", "e", "i", "o", "u"] verse = pinyin.get(nounlist[i1][1], format="strip") #韵脚在每一个pinyin倒叙最后一个元音字母处截止 for p in range(len(verse)-1, -1, -1): if verse[p] in rhythmList: ind = p rhythm = verse[ind:len(verse)]
目前是最初级的五言律诗,且为名动名句式正则表达式
rhythm = "" rhythmList = ["a", "e", "i", "o", "u"] while num < 4: #生成随机数 i = random.randint(1, len(nounlist)-1) i1 = random.randint(1, len(nounlist)-1) j = random.randint(1, len(verblist)-1) #记录韵脚 ind = 0 ind1 = 0 if (num == 1): rhythm = "" verse = pinyin.get(nounlist[i1][1], format="strip") #韵脚在每一个pinyin倒叙最后一个元音字母处截止 for p in range(len(verse)-1, -1, -1): if verse[p] in rhythmList: ind = p rhythm = verse[ind:len(verse)] #确保2,4句的韵脚相同,保证押韵 if (num == 3): ind1 = 0 verse1 = pinyin.get(nounlist[i1][1], format="strip") for p in range(len(verse1)-1, -1, -1): if verse1[p] in rhythmList: ind1 = p while verse1[ind1: len(verse1)] != rhythm: i1 = random.randint(1, len(nounlist)-1) verse1 = pinyin.get(nounlist[i1][1], format="strip") for p in range(len(verse1)-1, -1, -1): if verse1[p] in rhythmList: ind1 = p #随机排列组合 print(nounlist[i]+verblist[j][1]+nounlist[i1]) num += 1
其实思路很简单,既然咱们有了语料库,那么,咱们每次在排列组合词的时候,只需保证生成每句时,第一个名词的第一个字,是按序给定四字成语中的便可算法
for x in range(len(nounlist)): if nounlist[x][0] == str[num]: i = x
来看一下结果:shell
四言诗:segmentfault
所思浮云
关山车马
高楼流水
闲人肠断
五言律诗:安全
西风时细雨
山川钓建章
龙门看萧索
几年乡斜阳
藏头诗:dom
落花流水
落晖首南宫
花枝成公子
流水名朝廷
水声胜白石
参考:
https://segmentfault.com/a/11...
固然,如今生成的唐诗仍是比较低级的,属于基础的古诗文词语排列组合。接下来考虑优化模版,提取五言和七言经常使用句式做为模版。另外考虑使用机器学习的方法,写RNN来让计算机自动生成充满韵味的诗