2016年,我这个IT屌丝终于拥有了爱情的结晶——老婆怀孕了。随着老婆肚子的一每天变大,一个很是艰巨的任务落在了个人头上,那就是——取名字。由于曾今跟老婆吹牛,本身饱读诗书,文学功底深厚(其实就是看看网络小说),老婆把这任务分派下来以后,我彷佛还只能欣然接受。再加上即将成为爸爸的喜悦,让我痛快的拍下胸脯说:没问题,保证取一个好名字。数据库
接到这个任务后,断然不敢敷衍了事,做为IT码农的话,开始拿出了我超强的执行力。首先,我在脑海中一遍一遍的搜刮,各类诗词,散文,小说文学集,古今中外名人,甚至网络小说的主角配角名字。。。小程序
然而,尴尬的是,脑容量有限,个人脑海中并无留下太多可用的资料。做为一个有创新精神IT屌丝,是否是能用些不同的方案来解决这个难题呢?想到这儿,个人脑海中忽然浮现出一个词:大数据。服务器
心动不如行动,做为一名有执行力的IT屌丝,我果断开启数据爬取之旅。汉字做为中国文学的基石,天然是我首先想到必选资料。字典类的网站,随意百度一下,就能找到一大堆,我挑选了几个看起来较为专业的网站做为个人数据来源(具体是哪些网站,就不透露了)。微信
通过一番努力以后,最终把7900个简体汉字存到了自家的数据库,数据表中包含了它的拼音,笔画,基本释义这三个基本栏位。数据本地化了,是否是大功告成,能够开始取名了? 不,我感受仍是少了点什么,让我想一想。。。网络
你应该也想到了,是的,这汉字的信息太粗了,没有多少使用价值,可是那又还缺了哪些信息呢?大数据
因而,我又开始了新一轮的数据爬取,这一次,能参考的网站相对少了不少,由于不少网站并无我想要的这些信息。不过,这一步总体还算顺利,只是考虑到怕整崩溃了人家的服务器,只好在云服务器上挂着爬虫程序,高间隔的爬取。一个晚上以后,总量20800的中国汉字库就正式产生了。网站
同一个汉字,出如今不一样的词语中,每每会有不同的含义,所以,词语的数据也很是重要。相对字典来说,词典相关的网站少了不少,我最终爬取了353000笔数据。cdn
词组的数据内容主要包含:开发
成语是中国汉字语言词汇中定型的词,使用普遍,是中国传统文化的一大特点,读起来朗朗上口,并且每每还具备深意。所以,成语和歇后语不容错过。通过排重等简单处理后,总共获得了2W+的数据。文档
成语的数据内容主要包含:
走到这一步,一切十分顺利,接下来还有哪些须要用到呢?
对的,就是它:诗词
说到诗词,你们可能第一反应就是唐诗三百首;你们这么想,是可以理解的,由于唐诗的确是中华文化宝库中的一颗明珠,对中国乃至世界文化,都产生了深远的影响。可是,中国的诗词,远不止唐诗,并且数量,也远远不止三百首,如下我按照朝代大体列了一下:
据不彻底收集,我这边居然爬取到了8000+的诗词文章,的确有点出乎意料的多。
这数据应该是你们没有想到的吧!
爬取这些数据,主要是为了解决重名的问题。重名是一个很尴尬的事情,好比如今不少人叫子涵,紫涵,紫萱,子轩之类的,上课的时候老师一叫名字,可能好几我的站起来。所以我收集了近年来特别高频使用的名字,以便后续规避使用。
除了这种状况,另外一种重名也容易带来尴尬:重名古代名人。
与古代名人重名,容易招致身边朋友的调笑,尤为是重名的古人具备负面形象的时候。好比我有个朋友叫:赵高,长期以来他都受到名字的困扰。
古代名人的收集相对麻烦,由于不多有这类的名字收藏整理。好在经过某度的各类榜单,以及其余各类古代名人录,现当代各个领域的精英人物榜,总共收集到了大概5W的各种名人。
上面介绍的数据,其实只是我收集的资料的一部分。其余的我也再也不赘述,由于收集数据是一个单调而耗时的工做,没有什么技术含量可言。
通过大概两个月的陆陆续续的收集,总算是把这些想要的数据所有收集并整理好。是否是能够大干一场了?
是的,我以为我能够开始大干一场了。
数据逐渐到手,准备开干的时候,一个急需解决的问题摆在个人面前:怎么样才算是一个好名字?
这个问题不明确下来,就比如开发人员没有需求文档,下一步彻底就就无法开展了。不过如今可没有需求人员协助我,因此只好本身动手,丰衣足食了。静下心来,仔细琢磨琢磨,彷佛能够从如下方面着手:
上面有提到几个能够着手的点,可是具体的规则,还须要细化理解,而后逐个攻破。
以字形为例,咱们能够引伸出相关的知识,好比偏旁部首,笔画数量,是左右结构,仍是上下结构,汉字又如何拆解。
进一步来分析,笔画的多少,决定汉字的简易,名字笔画太多,会给小孩形成必定的书写障碍;笔画太少,又会让名字看起来显得单薄。一样的道理,汉字的结构与拼音,在不一样的组合下,会有不一样的效果。所以,如何合理的组合汉字,造成最优的方案,最终再把它们规则化,这是一个棘手的问题。为了解决这个问题,头发又掉了一地。
这样一层层的规则拆解下去,取名的总体规则彷佛变得愈来愈复杂了。
固然,字音与字形相关的知识,实际上是相对简单的;更有难度的是:名字的含义,以及八字喜用神推算,三才五格评估,生肖喜爱等比较笼统或者玄学的东西。
这样一步步走来,到这儿终于有了放弃的想法。网上一搜索,各类算命大师,取名大师,看起来都十分权威,不只各类承诺,并且每每折扣力度惊人,原价1888,折后价只要188,甚至更低。若是真如他们所说,花个几十百来块,直接解决问题岂不是更好?抱着这个心态,我常识性的咨询了几家,结果令我十分失望。
这儿暂且不论这些大师的总体水准,可是我这个半吊子学徒,略微一试探,也探出了好些冒充大师的人。
喜用神推算是最大的难点,也是大部分华人取名专业人士最为看重的一点。我花了不少的时间去理解这些名词的含义,各类时间的推算,以及喜用神与名字之间的关联。
过程甚至复杂,可是单纯从结果来看,又十分的简单。为何说简单呢,由于归根到底,其实都是一个数学问题。
举例来讲,咱们肯定喜用神每每是经过真太阳时间,而真太阳时间与北京时间的差别,彻底能够经过出生地的的经度进行转化,具体公式你们能够在网上搜索一下。
另一个例子,咱们肯定喜用神时,会经过四柱八字法来排,它们分别是年干年支,月干月支,日干日支,时干时支。粗看一下,如何去排彻底没有头绪,可是若是从数学的角度来想一想,就没那么复杂了。
天干:甲、乙、丙、丁、戊、己、庚、辛、壬、癸
地支:子、丑、寅、卯、辰、巳、午、未、申、酉、戌、亥
四柱八字若是使用穷举法,那就是10的4次方再乘以12的4次方,总计2.0736亿种结果。这样看来,彷佛也就没有那么神秘了。
理解了上面的喜用神推算,三才五格彷佛就变得更加的简单了。
三才五格的计算,主要是经过笔画的组合,来定义名字的吉凶。注意:笔画通常是指繁体字的笔画,而不是简体字。
同理上面的推断:五格有九九八十一种情形,三才有125种吉凶。国人大部分姓名都是3个字,而每一个字的笔画基本都是不会超过36,这样咱们来算一下: 36 * 36 * 36 = 46656
这样看来,三才五格确实不复杂,并且笔画这个东西,你们也都熟悉,很容易就能理解。市面上大部分的姓名打分,测评软件基本上都是基于这个来实现的;因此你们对于这类软件,看看就行,不要当真。
十二生肖,包括鼠、牛、虎、兔、龙、蛇、马、羊、猴、鸡、狗、猪,它们是十二地支的形象化表明,即子(鼠)、丑(牛)、寅(虎)、卯(兔)、辰(龙)、巳(蛇)、午(马)、未(羊)、申(猴)、酉(鸡)、戌(狗)、亥(猪)。
生肖既然对应上了了具体的动物,那天然就赋予了它们各自的喜爱与忌讳;并且它们与十二地支一一对应,天然也就拥有了各自的属性。这样一来,你们取名之时,每每会考虑这些因素。
好比:属鸡的宝宝,每每不取带有“犬”、“犭”、“戌”的字,由于你们都知道鸡犬不宁这个成语,鸡和狗难以相处。这些用法,都是比较直白易懂的,规则整理上,也是简单的经过字形的拆解就能达成目的。
收集整理这些资料,差很少花费了我将近半年的业务时间。虽然看起来没有太大的产出,可是实际上,却给我带来了很大的收获。名字虽然是简简单单的几个字,但它也是咱们中华文化的一个缩影,是父母对下一辈的一个期许,更是咱们上一辈对下一辈的满满的爱意。
正果不是最终的名字,而是这一路对于中国人对于取名文化的一个理解。
看到这儿,你们或许以为我是来推销APP或者小程序的,其实并非的。当时确实有弄成APP以及小程序的想法,不事后面工做繁忙,自家小孩的名字也已经取好了,因此也就没有太多的动力继续研究了。
如今二胎又在准备了,因此翻出来总结一下。
这两年来,身边有亲友陆陆续续给委托我帮忙取名,这也成了我业余的一个小爱好。因此,诸位掘友若是有取名字需求,并且又信任个人,能够找我帮忙,放心,绝对免费!
若是对个人数据感兴趣的,也能够微信私聊,不过考虑到版权问题,我并不太公布出来。
下面是个人微信二维码,若是须要验证,请填:掘友取名