昨天早上,我习惯性的打开博客园,看一看别人的写的博客。忽然想起,本身好像没有写过什么博客,因此就心血来潮,把我如今作得事情写出来,html
这也是对我目前的学习的一种总结。望大神指点。。。。ajax
对于一间学校的新闻,主要有两种值得去捉取的Url,一种是List页面的Url,一种是Detail页面的Url,List页和Detail页面是我对以下的两种Url的简称。数据库
【List页面】List页面类型:http://news2.sysu.edu.cn/news01/index.htmjson
【Detail页面】Detail页面类型:http://news2.sysu.edu.cn/news01/140075.htm学习
在详细介绍学校的Url以前,必需要懂得三个名词,分别是静态Url,伪静态Url,和动态Url网站
根据某个网站的解释:http://www.admin5.net/thread-2214256-1-1.html编码
一个动态的网址是一个网页解决这一结果从搜索的数据库驱动的网站或URL中的一个网站,运行一个脚本。相比之下,以静态的URL ,其中的内容网页上spa
保持不变,除非改变硬编码到HTML格式的,动态的URL产生的具体问题给某个站点的数据库。动态页基本上只有一个模板,其中,以展现成果数据库查询。.net
而不是不断变化的信息,在HTML源代码中,数据的改变而改变在数据库中。orm
伪静态Url就是把动态Url经转化而成的静态Url。
基本大部分学校的List页面和Deteal页面都会使用伪静态的Url,也会存在少部分使用动态Url的学校,还有小部分的使用ajax加json或者xml来加载页面的学校。
因此先说说List页面的伪静态Url的状况。
List页面的伪静态Url:上面提到,伪静态Url是由动态Url转化而来的,其本质仍是动态Url,因此其里面是包含这查询字符串的。因此这个查询字符串就是这个Detail
页面的特征量,通常来讲这个特征量由两部分组成,第一个是栏目,第二个是页数。不过仅仅是通常来讲是这样,有小部分比较奇葩的大学却在页数中作文章。通常会分红
3种状况。
状况1:第一页和之后的的List页面的Url的规律不同,首页【http://news.gcu.edu.cn/news/xinwen/xinwen.html】,
非首页【http://news.gcu.edu.cn/news/xinwen/xinwen_2.html】,首页的Url竟然不是http://news.gcu.edu.cn/news/xinwen/xinwen_1.html,这种状况是最
常发生的,我也不知道为何,大牛们能够告诉我这是出于什么目的????
状况2:List的是按时间来展现的http://www.gdyzy.edu.cn/DocLib2/Forms/AllPages.aspx?Paged=TRUE&p__x65e5__x671f_=20140302%2016%3a00%3a00&p_ID=1615&View=%7b3C7F240C-0A23-4972-9796-B26C42EF4948%7d&PageFirstRow=101
其中标红的20140302%2016%3a00%3a00解码以后是20140302 16:00:00,这个Url意思是查询在20140302 16:00:00以前发布的前100条记录,这些记录明显是按时间排序的。
状况3:List页面是以倒叙的方式展现的,表明为广外,首页Url【http://new1.gdufs.edu.cn/xxyw.htm】,第二页Ulr【http://new1.gdufs.edu.cn/xxyw/1152.htm】,
第三页Url【http://new1.gdufs.edu.cn/xxyw/1151.htm】,原理为按发布时间排序,最先发布的前20条记录为第一页,因此就会出现跟普通的List页面不同的状况。
List页面的使用静态Ur:通常都是使用Post的方式的,而且是使用ajax来加载数据的。例子:http://www.gdrtvu.edu.cn/cms/wwwgdrtvu/xuexiaoxinwen/xuexiaoyaowen/index.xml Post的数据temp=0.664261247497052&&&&&page=5&size=15。
List页面使用动态Url:例子http://www.gtxy.cn/xyxwnew.asp?cid=24&page=2,这种Url对于我来讲是最简单,也是作容易实现捉取的动做的。
时间不早了,学生党须要吃饭勒,必须吐槽一下学校的饭堂,能不能卫生一点啊!!!有空继续。。。