Python 3 实现在线xml sitemap索引文件提取URL到指定文件
xsobi 2025-01-08 18:17 1 浏览
毫无疑问,在SEO分析网站结构和开放搜索引擎端抓取页面数时,对sitemap文件的分析是最好的入手点。
通常规模不是太小的网站URL数量都会超过5万条,而搜索引擎要求单个sitemap文件的数量不能超过5万条,那么在此场景下sitemap索引文件便是好的解决方法,其用来存放单个sitemap文件的URL地址,在此基础上单个sitemap文件理论上可以囊括5万*5万=25亿,对网站来讲已经足够。
这里将会为大家提供Python 3实现的针对特定目标sitemap索引文件URL,提取其子sitemap文件,并提取子sitemap文件中的URL,记录对应的数量,并将提取的URL存放到本地的方法代码。
代码块有参考CSDN博主Yozz的部分代码,根据自己的使用场景进行了改良,具体代码如下:
# 功能介绍,通过在线访问网站sitemap-index文件链接,抓取其中的sitemap子文件,进一步抓取子文件提取其中的URL链接存放到电脑指定文件。
# 可用于特定场景下的小量级网站URL提取,手动提交 - 国内SEO
# 可用于对特定网站sitemap文件分析其核心页面数量和分布
# 可用于抓取目标分析网站的搜索引擎投放页面链接
# 杰西seo提供
import xml.dom.minidom as xmldom
import urllib.request
import xml
# 定义目标网站sitemap index文件的链接地址
index_url = "目标网站sitemap索引文件URL地址"
sitemap_path = 'sitemap子文件URL存放文件路径'
url_path = '抓取所有URL存放文件路径'
#访问sitemap index文件提取子sitemap URL,并且写入sitemap_url文件
http = urllib.request.Request(index_url)
http_run = urllib.request.urlopen(http)
dom = xml.dom.minidom.parse(http_run)
return_xml = dom.documentElement.getElementsByTagName('sitemap')
open(sitemap_path, 'w').close()
c1 = 0
for sitemap_xml in return_xml:
sitemap_url_loc = sitemap_xml.getElementsByTagName("loc")[0]
sitemap_url = sitemap_url_loc.firstChild.data
#print(a_url)
file = open(sitemap_path, 'a', encoding="utf-8")
file.write(sitemap_url+'\n')
file.close()
c1 += 1
continue
# 用于记录sitemap子文件的数量
print(f'共有{c1}个sitemap文件')
# 循环遍历访问[sitemap子文件URL存放文件]中的sitemap子文件URL链接
# c2用于记录所有sitemap文件中URL的数量
c2 = 0
for i in open(sitemap_path):
sitemap_url = i.strip()
if len(sitemap_url) == 0:
pass
else:
#访问单个子sitemap文件URL
http = urllib.request.Request(sitemap_url)
http_run = urllib.request.urlopen(http)
dom = xml.dom.minidom.parse(http_run)
return_xml = dom.documentElement.getElementsByTagName('url')
#open(url_path, 'w').close()
#c3 用于记录 单个sitemap子文件中的URL数量
c3 = 0
#循环遍历提取单个子sitemap文件中的URL
for url_xml in return_xml:
url_loc = url_xml.getElementsByTagName("loc")[0]
url = url_loc.firstChild.data
#print(a_url)
file = open(url_path, 'a', encoding="utf-8")
file.write(url + '\n')
file.close()
c2 += 1
c3 += 1
continue
#输出单个sitemap子文件中的URL数量
print(f'{sitemap_url}共有{c3}条URL')
# 输出所有sitemap文件中totalURL数量
print(f'总共有{c2}条URL')
关注杰西SEO获取更多SEO实操技巧
相关推荐
- 全网最详细解决Windows下Mysql数据库安装后忘记初始root 密码方法
-
一、准备重置root的初始化密码Win+R键启动命令输入窗口;输入cmd打开命令执行窗口;##界面如下##输入命令:netstopmysqld#此操作会停止当前运行的...
- Spring Boot数据库密码加密的配置方法
-
前言由于系统安全的考虑,配置文件中不能出现明文密码的问题,本文就给大家详细介绍下springboot配置数据库密码加密的方法,下面话不多说了,来一起看看详细的介绍吧...
- Mysql 8.4数据库安装、新建用户和数据库、表单
-
1、下载MySQL数据库yuminstall-ywgetperlnet-toolslibtirpc#安装wget和perl、net-tools、libtirpcwgethtt...
- mysql5.7安装教程
-
首先下载mysql的rpm包wgethttps://mirrors.ustc.edu.cn/mysql-ftp/Downloads/MySQL-5.7/mysql-community-client...
- MySQL管理授权和数据库的备份和还原详解
-
一般管理用户和授权由DBA去执行,DBA为数据库管理员一、管理用户1.添加用户...
- 数据库迁移有什么技巧?|分享强大的database迁移和同步工具
-
概述DBConvertStudio是一款强大的跨数据库迁移和同步软件,可在不同数据库格式之间转换数据库结构和数据。它将成熟、稳定、久经考验的DBConvert和DBSync核心与改进的现代...
- Mysql解压版安装过程
-
Mysql是目前软件开发中使用最多的关系型数据库,具体安装步骤如下:第一步:Mysql官网下载最新版(mysql解压版(mysql-5.7.17-winx64)),Mysql官方下载地址为:https...
- MySQL5.7升级到8.0过程详解
-
前言:不知不觉,MySQL8.0已经有好多个GA小版本了。目前互联网上也有很多关于MySQL8.0的内容了,MySQL8.0版本基本已到稳定期,相信很多小伙伴已经在接触8.0了。本篇文章主要介绍从5....
- 10种常见的MySQL错误,你可中招?
-
【51CTO.com快译】如果未能对MySQL8进行恰当的配置,您非但可能遇到无法顺利访问、或调用MySQL的窘境,而且还可能给真实的应用生产环境带来巨大的影响。本文列举了十种MySQL...
- 忘记MySQL密码怎么办?一招教你搞定
-
在安装完MySQL或者是在使用MySQL时,最尴尬的就是忘记密码了,墨菲定律也告诉我们,如果一件事有可能出错,那么它一定会出错。那如果我们不小心忘记了MySQL的密码,该如何处理呢?别着急...
- Windows 安装解压版本的 MySql
-
1、下载解压版本的MySql到https://downloads.mysql.com/archives/community/网站,根据自己需要安装的版本进行选择下载,这里下载不要选择MSII...
- 爆破SSH/MySQL账户竟如此简单
-
友情提示:初入安全,小白一个,本文重在学习与经验分享!背景使用Kali自带的MSF工具对SSH的账号密码进行爆破。1.实验环境本次实验通过MSF,可直接对SSH的账号密码进行爆破。KaliIP:1...
- Mysql8忘记密码/重置密码
-
Mysql8忘记密码/重置密码UBUNTU下Mysql8忘记密码/重置密码步骤如下:先说下大概步骤:修改配置文件,使得用空密码可以进入mysql。然后置当前root用户为空密码。再次修改配置文件,不能...
- wamp查看MySQL密码 MySQL console输入密码闪退 重置mysql密码
-
wampserver的MySQL数据库用户名为root初始密码为空,但是部分同学通过MySQLconsole访问数据库输入密码的时候出现窗口闪退,常见的问题是原来有改过密码或者你的配置文件要求密码不...
- Mysql数据库操作指引(六)——账号密码及权限管理
-
简介:在MySQL数据库中,为了保证数据的安全性,数据管理员需要根据需要创建账户,并为每个账户赋予不同的权限,以满足不同用户的需求。...
- 一周热门
- 最近发表
- 标签列表
-
- grid 设置 (58)
- 移位运算 (48)
- not specified (45)
- patch补丁 (31)
- 导航栏 (58)
- context xml (46)
- scroll (43)
- dedecms模版 (53)
- c 视频教程下载 (33)
- listview排序 (33)
- firebug 使用 (31)
- characterencodingfilter (33)
- getmonth (34)
- hibernate教程 (31)
- label换行 (33)
- curlpost (31)
- android studio 3 0 (34)
- android应用开发 (31)
- html转js (35)
- 索引的作用 (33)
- checkedlistbox (34)
- localhost 8080 (32)
- 多态 (32)
- xmlhttp (35)
- mysql更改密码 (34)