close

Вход

Забыли?

вход по аккаунту

?

скрипт парсера доменов

код для вставки
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
#@author: snoa
from xml.etree import ElementTree
import re
import logging
import urllib2
log = logging.getLogger(__name__)
url = "http://dnhunter.ru/?filter_pr=yes&filter_ru=yes&order=vesi_n&page=1&rss=yes&what=pending"
tic = re.compile(u"индекс цитирования:<a href=\".*?\" target=\"_blank\">(\d+)</a>")
log.debug("read url")
tree = ElementTree.parse( urllib2.urlopen(url) )
log.debug("parse")
with open("domains.txt","wt") as fout:
for item in tree.findall("*/item"):
domname = item.find('title').text.split(" ")[0]
domname = domname.lower().strip()
desc = item.find('description').text
egg = tic.search(desc)
if egg:
tic_val = int(egg.group(1))
if tic_val>0:
fout.write(domname + "\n")
log.debug("%s:%i", domname, tic_val)
Автор
Webchester
Документ
Категория
Без категории
Просмотров
44
Размер файла
1 Кб
Теги
скрипт, парсера, доменов
1/--страниц
Пожаловаться на содержимое документа