官方热线:0755-29496604

我们正如您所想

与我们取得联系吧!期待与您携手共赢

始终坚持一等一的项目品质战略方针
项目合作 QQ咨询在线客服

联系我们

建站资讯

优化知识

项目动态

网页设计

公司新闻

网站建设上线页面抓取过程分析

发布时间:2021-03-04 发布作者:深圳优美网络

url,即统一资源定位符,通过对url的分析,我们可以更好地理解页面抓取过程。下面深圳网站建设优美网络小编就来和大家分享下网站在优化过程中是如何抓取页面信息的。


一、url是什么意思?

URL,英文全称为“uniform resource locator”,中文译为“统一资源定位符”。

在网站优化中要求每一个页面有且仅有一个唯一的统一资源定位符(URL),但往往很多网站同一页面对应了很多个URL,如果都被搜索引擎收录且未做URL转向,就会产生权重不集中的情况,通常称为URL不规范。


二、url的组成

统一资源定位符(URL),由三部分组成:协议方案、主机名和资源名。

例如:

https:// www.***.gov.cn /xxgk2020

其中https为协议方案,www.***.gov.cn 为主机名 ,xxgk2020为资源,不过这个资源不太明显,一般资源后缀为.html,当然还可以是.pdf、.php、.word等格式。


三、页面抓取过程简述

无论是我们平时用的互联网浏览器,还是网络爬虫,虽然是两种不同的客户端,但获取页面的方式却是相同的。页面抓取过程如下:

① 连接DNS域名系统服务器

客户端都会先连接到DNS域名服务器上,DNS服务器将主机名( www.***.gov.cn )转换为IP地址,并反馈给客户端。

PS:本来我们通过111.152 . 151.45 的地址来访问某网站,为了方便记忆和使用,才利用DNS域名系统转换为了 www.***.gov.cn 。这也就是DNS域名系统的作用。

② 连接IP地址服务器

该IP服务器下可能会有很多程序(网站),可以通过端口号来做区分,同时每个程序(网站)都会监听端口是否有新的连接请求,HTTP网站默认为80,HTTPS网站默认为443。

不过通常情况下,端口号80和443是默认不出现的。

举例来讲:

https://www.***.gov.cn:443/ = https://www.***.gov.cn/

http://www.***.gov.cn:80/ = http://www.***.gov.cn/

③ 建立连接并发送页面请求

客户端与服务器建立连接后,会发送页面请求,通常为get,也可以是post。

获取HTTPS协议下的页面xxgk2020 返回给客户端。之后如需继续获取更多页面,则发送其他请求,否则将关闭该连接。

PS:通常情况下 ,/23098.html 可能会更清晰。也就是发送 https://www.***.gov.cn/ 下的 seo文件夹下的 23098.html 的页面请求。


以上内容由深圳网站建设,深圳网站设计,深圳网站建设公司,深圳做网站公司,深圳网页设计,深圳网页制作,深圳营销型网站建设,优美网站(https://www.uemei.com)整理编辑。

2021-03-03对于新成立的公司该不该建设企业网站呢?

2021-03-02响应式网站对于企业在新一年推广有哪些优势

NEXT探索我们的工作内容

优美网络自2008年以来公司业务范围包括深圳罗湖区、福田区、南山区、龙华新区、龙岗区、宝安区、大鹏新区、盐田区、光明新区、坪山新区、广州、佛山、惠州、中山、珠海、东莞及全国各地提供建站服务。
COPYRIGHT 2008-2021 版权所有 深圳优美创新网络科技有限公司 粤ICP备14056908号

深圳网站建设,我们很认真!深圳优美创新网络科技有限公司是一家以策略、创意、设计、技术、服务为核心的互联网公司。拥有国内优秀的网站建设、 网页设计、H5网站设计、APP设计与开发团队。我们针对有品牌意识的客户,为其提供系统的基于互联网的品牌行销策略、品牌网站建设、营销型网站设计、营销型H5网站设计和创意执行、深度追踪及运营服务。