Создаём sitemap.xml используя WGET

Запускаем команду WGET ,указывая адрес сайта и файл логирования:

wget --recursive --level=0 --no-parent --no-verbose --spider http://blog.nimda.pro/ --append-output=sitemap.txt
Дальше отфильтруем файл по слову "URL"

cat sitemap.txt | grep URL >> temp.txt

Затем в цикле заменим " [" на "</loc></url> ["

cat temp.txt | while read line
do
echo $line | sed 's#\ \[#<\/loc><\/url>\ \[#g' >> temp1.txt
done

После извлечём третий столбец:

cat temp1.txt | awk '{print $3}' >> temp2.txt

В начало нашего конечного файла вставим две строчки:
echo "<?xml version=\"1.0\" encoding=\"UTF-8\"?>" > /var/www/html/blog.nimda.pro/sitemap.xml
echo "<urlset xmlns=\"http://www.sitemaps.org/schemas/sitemap/0.9\">" >> /var/www/html/blog.nimda.pro/sitemap.xml

Теперь осталось дописать в наш файл ссылки, заменив "URL:http" на "<url><loc>http"

cat temp2.txt | while read line
do
echo $line | sed 's#URL:http#<url><loc>http#g' >> /var/www/html/blog.nimda.pro/sitemap.xml
done

Удаляем временные файлы:

rm sitemap.txt temp.txt temp1.txt temp2.txt

Готово!

Наш файл выглядит так:

cat sitemap.xml

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url><loc>http://blog.nimda.pro/</loc></url>
<url><loc>http://blog.nimda.pro/robots.txt</loc></url>
<url><loc>http://blog.nimda.pro/2016/03/bash.html</loc></url>
<url><loc>http://blog.nimda.pro/2014/09/rsync-error-error-in-rsync-protocol.html</loc></url>
<url><loc>http://blog.nimda.pro/2014/08/redhat-7.html</loc></url>

и т.д.