NLP 面试问题[1]

1 关于Transformer，面试官们都怎么问？
2 关于ELMO，面试官们都怎么问？
3 关于BERT，面试官们都怎么问？
4 关于GPT、XLNET的相关知识？
5 关于FastText
6 关于XLNet
7 关于Transformer-XL
8 其余内容html

1 关于Transformer，面试官们都怎么问？

1.Transformer的结构是什么样的？
2.Transformer Decoder端的输入具体是什么？
3.Transformer中一直强调的self-attention是什么？self-attention的计算过程？为何它能发挥如此大的做用？self-attention为何要使用Q、K、V，仅仅使用Q、V/K、V或者V为何不行？
4.Transformer为何须要进行Multi-head Attention？这样作有什么好处？Multi-head Attention的计算过程？各方论文的观点是什么？
5.Transformer相比于RNN/LSTM，有什么优点？为何？
6.Transformer是如何训练的？测试阶段如何进行测试呢？
7.Transformer中的Add & Norm模块，具体是怎么作的？
8.为何说Transformer能够代替seq2seq？
9.Transformer中句子的encoder表示是什么？如何加入词序信息的？
10.Transformer如何并行化的？
11.self-attention公式中的归一化有什么做用？
12.transformer 为何使用 layer normalization，而不是其余的归一化方法？git

参考博客：
【1】关于Transformer，面试官们都怎么问？_fengdu78的博客-CSDN博客
【2】Adherer：关于Transformer的若干问题整理记录
【3】张俊林：从Word Embedding到Bert模型—天然语言处理中的预训练技术发展史
【4】transformer 为何使用 layer normalization，而不是其余的归一化方法？github

2 关于ELMO，面试官们都怎么问？

1.ELMo的基本原理是什么？ ELMO采用了典型的两阶段过程，第一个阶段是利用语言模型进行预训练；第二个阶段是在作下游任务时，从预训练网络中提取对应单词的网络各层的Word Embedding做为新特征补充到下游任务中。
2.ELMo的训练过程是什么样的？损失函数是什么？
3.ELMo训练好了以后如何使用？
4.ELMo的优势是什么？ELMo为何有效？
5.ELMo为何可以达到区分多义词的效果？
6.ELMo把三种不一样的向量叠加的意义是什么？这样作能达到什么样的效果？面试

参考博客：算法

【1】zhuanlan.zhihu.com/p/139840113
【2】zhuanlan.zhihu.com/p/82602015
【3】zhuanlan.zhihu.com/p/49271699
【4】zhuanlan.zhihu.com/p/46833276markdown

3 关于BERT，面试官们都怎么问？

一、不考虑多头的缘由，self-attention中词向量不乘QKV参数矩阵，会有什么问题？
二、为何BERT选择mask掉15%这个比例的词，能够是其余的比例吗？
三、使用BERT预训练模型为何最多只能输入512个词，最多只能两个句子合成？
四、为何BERT在第一句前会加一个[CLS]标志?
五、Self-Attention 的时间复杂度是怎么计算的？
六、Transformer在哪里作了权重共享，为何能够作权重共享？
七、BERT非线性的来源在哪里？
八、BERT的三个Embedding直接相加会对语义有影响吗？
九、Transformer的点积模型作缩放的缘由是什么？
十、在BERT应用中，如何解决长文本问题？网络

参考博客：
【1】zhuanlan.zhihu.com/p/132554155
【2】zhuanlan.zhihu.com/p/46833276
【3】zhuanlan.zhihu.com/p/76714382机器学习

4 关于GPT、XLNET的相关知识？

【1】The Illustrated GPT-2 (Visualizing Transformer Language Models)
【2】图解GPT2 [翻译：The Illustrated GPT-2 (Visualizing Transformer Language Models)]
【3】语境嵌入研究综述
【4】OpenAI GPT2原理解读ide

5 关于FastText

使用词embedding而非词自己做为特征，这是fastText效果好的一个缘由；另外一个缘由就是字符级n-gram特征的引入对分类效果会有一些提高。函数

【1】fastText原理及实践

6 关于XLNet

使用词embedding而非词自己做为特征，这是fastText效果好的一个缘由；另外一个缘由就是字符级n-gram特征的引入对分类效果会有一些提高。

【1】fastText原理及实践

6 关于Transformer-XL

Transformer-XL（extra long）是为了进一步提高Transformer建模长期依赖的能力。它的核心算法包含两部分：片断递归机制（segment-level recurrence）和相对位置编码机制(relative positional encoding)。
Transformer-XL带来的提高包括：
1. 捕获长期依赖的能力；
2. 解决了上下文碎片问题（context segmentation problem）；
3. 提高模型的预测速度和准确率。

【1】详解Transformer-XL
【2】www.cnblogs.com/pinard/p/70…

6 其余内容

1、AI算法基础
一、样本不平衡的解决方法？
二、交叉熵函数系列问题？与最大似然函数的关系和区别？
三、HMM、MEMM vs CRF 对比？
四、SVM和LR的区别与联系？
五、crf的损失函数是什么？ lstm+crf怎么理解？
六、GBDT vs Xgboost
七、评估指标f1和auc的区别是哪些?
八、sigmoid用做激活函数时，分类为何要用交叉熵损失，而不用均方损失？
九、神经网络中的激活函数的对比？

2、NLP高频问题
一、word2vec和tf-idf 类似度计算时的区别？
二、word2vec和NNLM对比有什么区别？（word2vec vs NNLM）
三、 word2vec负采样有什么做用？
四、word2vec和fastText对比有什么区别？（word2vec vs fastText）
五、glove和word2vec、 LSA对比有什么区别？（word2vec vs glove vs LSA）
六、 elmo、GPT、bert三者之间有什么区别？（elmo vs GPT vs bert）
七、LSTM和GRU的区别？

3、其余算法问题
一、怎么进行单个样本的学习？
二、决策树 bagging boosting adaboost 区别？RF的特征随机目的是什么？
三、transformer各部分怎么用？Q K V怎么计算；Attention怎么用？
四、HMM 假设是什么？CRF解决了什么问题？CRF作过特征工程吗？HMM中的矩阵意义？
五、说以一下空洞卷积？膨胀卷积怎么理解？什么是Piece-CNN？
六、怎么解决beam-search局部最优问题？global embedding 怎么作？
七、数学题：什么是半正定矩阵？机器学习中有什么应用？
八、卷积的物理意义是什么？傅里叶变换懂吗？
九、说一下Bert？
十、推导word2vec？
十一、怎么理解传统的统计语言模型？如今的神经网络语言模型有什么不一样？
十二、神经网络优化的难点是什么？这个问题要展开来谈。
1三、attention你知道哪些？
1四、自动文章摘要抽取时，怎么对一篇文章进行分割？（从序列标注、无监督等角度思考）
1五、在作NER任务时，lstm后面能够不用加CRF吗？
1六、经过画图描述TextRank？
1七、LDA和pLSA有什么区别？
1八、Transformer在实际应用中都会有哪些作法？
1九、讲出过拟合的解决方案？
20、说一下transforemr、LSTM、CNN间的区别？从多个角度进行讲解？
2一、梯度消失的缘由和解决办法有哪些？
2二、数学题：贝叶斯计算几率？
2三、数学题：25只兔子赛跑问题，共5个赛道，最少几回比赛能够选出前5名？
2四、数学题：100盏灯问题？

【1】NLP/AI面试全记录（持续更新，最全预训练总结）
【2】视频：HMM/CRF by李宏毅