栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python版的迷你程序——获取给定网页上的所有链接

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python版的迷你程序——获取给定网页上的所有链接

        感觉这个试过以后,那些个严禁复制网页内容的就不再是个烦恼了。每个网页右键会出现一个查看网页源代码的选项,看看都有些什么,这对于理解下面的代码是有用处的。

        注意看类似这些行 https://tvm.apache.org/community>Community。代码里的find字符"a"和get的"href"方法主要作用就在这里。


        直接上代码吧:

import requests as rq
from bs4 import BeautifulSoup

url = input("Enter link: ")
if ("https" or "http") in url:
    data = rq.get(url)
else:
    data = rq.get("https://" + url)

soup = BeautifulSoup(data.text, "html.parser")

saved = open("mylinks.txt", 'w')
for link in soup.find_all("a"):
    print(link.get("href"))
    saved.writelines(link.get("href"))
    saved.writelines("n")

运行示意和输出的文件 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/487392.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号