深度学习工程师笔记 01 深度网络和深度学习

1 深度学习概论数据库

1.1 神经网络的分类及应用领域

广告、用户信息等,使用的是标准神经网络 NN网络

图像领域,图像数据经常使用的是卷积神经网络 CNN数据结构

音频、中英文翻译为序列数据,一维序列数据经常使用的是循环神经网络 RNN 。注:音频是随时间播放的,属于一维时间序列,英语、汉语中的字母/单词/字都是逐个出现的,也是序列数据学习

复杂的图片、雷达信号,经常使用混合神经网络结构spa

上图是标准的神经网络.net

卷积神经网络Convolutional NN 翻译

循环神经网络 Recurrent NN3d

1.2 监督学习supervised learning中的数据结构分类

数据结构分为结构化数据 Structured Data 和非结构化数据 Unstructured Data 两种。blog

结构化数据也称做行数据,可由二维表结构来逻辑表达和实现的数据,对于表结构中的每一列(实际上也是数据的特征)都有清晰的定义。图片

非结构化数据是指不方便用二维表结构表达的数据,例如音频中的音频、图像中的像素值、文本中的单词,这些数据结构不规则或不完成,

非结构化数据是不方便用数据库二维逻辑表来表现的数据,它们的特色是数据结构不规则或不完整,用二维表来表达这些内容反而会使数据存储空间利用率低。

参考:结构化数据 和 非结构化数据

 2 神经网络基础

2.1 一张图片的矩阵向量

概念:二分分类 Binary Classification:

“ 是 ” 和 “ 非 ” 的关系

如判断一张图片是否是猫:是 VS 不是

将图片转换成矩阵向量

下图中猫是输入的特征 x ,其标签为 y 。

1 - RGB 图片

2 - 矩阵向量

从上图看,矩阵的向量shape值为

img.shape = (64, 64, 3 )

将该特征建立为一维向量,每种颜色的像素值将会被展开并重塑(the pixel intensity values will be “unroll” or “reshape” for each color ),以下图所示

此时的 x 可表示为 nx = 64 * 64 * 3 = 12288

此时 x 的数学表达式 x ∈ \mathbb {R}  ,y ∈ (0,1) ;可表示为 ( x, y )
备注:\mathbb {R} 表示实数域,对任意一个正整数n,实数的n元组的全体构成了{\displaystyle \mathbb {R} }\mathbb {R} 上的一个n维向量空间,用\mathbb {R} ^{n}来表示。这属于
欧几里得空间【欧几里空间维基百科】中的概念

 为了数学方便,之后文件中记为 R, 在吴恩达的文件中,写做方式以下:

2.2 多张图片的表达

 当由多张图时,其实也意味着有多个训练样本,假若有 m 个样本。

m training example { ( x1,y1),(x2,y2),...(xm, ym) ),其中xi为一维列向量,i 为1,2... m。

此时 x 为 64*64*3 行、m 列。

相关文章
相关标签/搜索