数据通讯的步骤:
层次 | 功能 |
---|---|
应用层 | 用户的应用程序和网络之间的接口 |
表示层 | 协商数据交换格式,相当公司中简报老板、替老板写信的助理 |
会话层 | 允许用户使用简单易记的名称建立连接,相当于公司中收寄信、写信封与拆信封的秘书 |
传输层 | 提供终端到终端的可靠连接,相当于公司中跑邮局的送信职员 |
网络层 | 使用权数据路由经过大型网络,相当于邮局中的排序工人 |
数据链路层 | 决定访问网络介质的方式。在此层将数据分帧,并处理流控制。本层指定拓扑结构并提供硬件寻址,相当于邮局中的装拆箱工人。 |
物理层 | 将数据转换为可通过物理介质传送的电子信号 相当于邮局中的搬运工人。 |
层次 | 功能 |
---|---|
应用层 | 应用程序间沟通 |
传输层 | 主要是提供应用程序间的通信 |
网络层 | 主要定义了IP地址格式,从而能够使得不同应用类型的数据在Internet上通畅地传输 |
网络接口层 | 负责接收IP数据包并通过网络发送之,或者从网络上接收物理帧,抽出IP数据报,交给IP层 |
编程语言 | 做爬虫特点 |
---|---|
PHP | 对多线程、异步支持不太好 |
Java | 代码量大,代码笨重 |
C/C++ | 代码量大,难以编写 |
Python | 支持模块多、代码简洁、开发效率高(scrapy框架) |
爬虫分类 | 特点 |
---|---|
通用网络爬虫 | 将互联网上的网页下载到本地数据库,形成一个备份 |
聚焦网络爬虫 | 根据既定的目标有选择地抓取某一特定主题内容 |
增量式网络爬虫 | 对下载网页采取增量式的更新和只爬行新产生的或者已经发生变化的网页爬虫 |
深层网络爬虫 | 指获取那些大部分内容不能通过静态连接获取、隐藏在搜索表单后的,只有用户提交一些关键词才能获取的web网页爬虫 列如:用户登录注册才能访问的网页 |
开始学爬虫了,Come on!