首页 >> 大全

python渲染html页面_网页网页,结构为树,渲染为王!

2023-11-23 大全 21 作者:考证青年

接上一次分享:爬虫看网页,先看网页结构树

每个浏览器都有其自身复杂的内部数据结构,凭借它来渲染网页。DOM表示法具有跨平台、语言无关性等特点,并且被大多数浏览器所支持。

想要在 中查看网页的树表示法,可以右键单击你感兴趣的元素,然后选择 .如果该功能被禁用,你仍然可以通过单击 菜单并选择 Tools| Tools来访问它,如图所示

u=149522145,1840138697&fm=173&app=25&f=JPEG?w=298&h=277&s=4492E833414E4CE80AEC68D30300C030

三秋道果说爬虫

此时,你可以看到一些看起来和HTML表示非常相似但又不完全相同的东西。它就是HTML代码的树表示法。如果不管原始HTML文档是如何使用空格和换行符的话,它看起来几乎就是一样的。你可以单击每个元素,检查或调整属性等,同时可以在屏幕上观察这些变动有何影响。比如,当你双击某个文本,修改它,并按下回车键时,屏幕上的文本将会更新为这个新值。在右侧的 标签下,可以看到这个树表示法的属性,并且在底部可以看到一个类似面包屑的结构,它显示出了当前选择的元素在HTML元素层次结构中的确切位置,如图所示。

u=1061057676,3446557560&fm=173&app=25&f=JPEG?w=639&h=377&s=4458E83A119F55C81A4528CB0300C0B1

三秋道果说爬虫

需要注意的一个重要事情是,HTML只是文本,而树表示法是浏览器内存里的对象,你可以通过编程的方式查看并操纵它,比如在中使用 Tools

你看到的网页是渲染以后的!

HTML文本表示和树表示并不包含任何像我们通常在屏幕上看到的那种漂亮视图。这实际上是HTML成功的原因之一。它应该是一个由人类阅读的文档,并且可以指定页面中的内容,而不是用于在屏幕中渲染的方式。这意味着选择HTML文档并使其更加好看是浏览器的责任,不管它是诸如 的全功能浏览器、移动设备浏览器,甚至是诸如Lyx的纯文本浏览器。

也就是说,网络的发展促使Web开发者和用户对网页渲染的控制产生了巨大需求。CSS的创建就是为了对HTML元素如何渲染给予提示。不过,对于抓取而言,我们并不需要任何和CSS相关的东西。

_网页的渲染过程_网页渲染原理

那么,树表示法是如何映射到我们在屏幕上所看到的东西呢?答案就是框模型。正如DOM树元素可以包含其他元素或文本一样,默认情况下,当在屏幕上渲染时,每个元素的框表示同样也都包含其嵌入元素的框表示。从这种意义上说,我们在屏幕上所看到的是原始HTML文档的二维表示——树结构也以一种隐藏的方式作为该表示的一部分。比如,在下图中,我们可以看到3个DOM元素(一个和两个嵌入元素

)是如何在浏览器和DOM中呈现的。

u=3677736882,1151637000&fm=173&app=25&f=JPEG?w=639&h=260&s=66C0DA129D60700B58C50DDC030080B2

三秋道果说爬虫

本文有三秋道果分享,如有不当请联系三秋道果,不吝指出,谢谢

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了