ANALÝZA XML V PYTHONU

Tento článek se zaměřuje na to, jak lze analyzovat daný soubor XML a extrahovat z něj některá užitečná data strukturovaným způsobem. XML: XML je zkratka pro eXtensible Markup Language. Byl navržen pro ukládání a přenos dat. Byl navržen tak, aby byl čitelný jak pro člověka, tak pro stroj. Proto cíle návrhu XML kladou důraz na jednoduchost, obecnost a použitelnost na internetu. Soubor XML, který má být analyzován v tomto tutoriálu, je ve skutečnosti kanál RSS. RSS: RSS (Rich Site Summary často nazývané Really Simple Syndication) využívá rodinu standardních formátů webových zdrojů k publikování často aktualizovaných informací, jako jsou příspěvky na blogu, novinové titulky audio video. RSS je prostý text ve formátu XML.

Samotný formát RSS je relativně snadno čitelný jak pro automatizované procesy, tak pro lidi.
RSS zpracovaný v tomto tutoriálu je RSS kanál s hlavními zprávami z oblíbeného zpravodajského webu. Můžete to zkontrolovat zde . Naším cílem je zpracovat tento RSS zdroj (nebo XML soubor) a uložit jej v nějakém jiném formátu pro budoucí použití.

Použitý modul Python: Tento článek se zaměří na použití vestavěných xml modul v pythonu pro analýzu XML a hlavní důraz bude kladen na ElementTree XML API tohoto modulu. Implementace: Python

#Python code to illustrate parsing of XML files # importing the required modules import csv import requests import xml.etree.ElementTree as ET def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content) def parseXML(xmlfile): # create element tree object tree = ET.parse(xmlfile) # get root element root = tree.getroot() # create empty list for news items newsitems = [] # iterate news items for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news) # return news items list return newsitems def savetoCSV(newsitems filename): # specifying the fields for csv file fields = ['guid' 'title' 'pubDate' 'description' 'link' 'media'] # writing to csv file with open(filename 'w') as csvfile: # creating a csv dict writer object writer = csv.DictWriter(csvfile fieldnames = fields) # writing headers (field names) writer.writeheader() # writing data rows writer.writerows(newsitems) def main(): # load rss from web to update existing xml file loadRSS() # parse xml file newsitems = parseXML('topnewsfeed.xml') # store news items in a csv file savetoCSV(newsitems 'topnews.csv') if __name__ == '__main__': # calling main function main()

Above code will:

Načtěte zdroj RSS ze zadané adresy URL a uložte jej jako soubor XML.
Analyzujte soubor XML a uložte zprávy jako seznam slovníků, kde každý slovník představuje jednu novinku.
Uložte novinky do souboru CSV.

Pokusme se porozumět kódu po částech:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnewsfeed.xml

parseXML()

xml.etree.ElementTree

ElementTree

Živel

ElementTree

Živel

parseXML()

tree = ET.parse(xmlfile)

ElementTree

xmlfile.

root = tree.getroot()

zakořeněný()

strom

Živel

for item in root.findall('./channel/item'):

položka

./kanál/položka

XPath

položka

kanál

vykořenit

zde

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

položka

zprávy

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

dítě.attrib

url

média:obsah

news[child.tag] = child.text.encode('utf8')

child.tag

dítě.text

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

newssitems

uložit do CSV()

Takže nyní vypadají naše formátovaná data:

Jak můžete vidět, data hierarchického souboru XML byla převedena do jednoduchého souboru CSV, takže všechny zprávy jsou uloženy ve formě tabulky. To usnadňuje také rozšíření databáze. Také je možné použít data podobná JSON přímo v jejich aplikacích! Toto je nejlepší alternativa pro extrakci dat z webových stránek, které neposkytují veřejné API, ale poskytují některé kanály RSS. Všechny kódy a soubory použité ve výše uvedeném článku lze nalézt zde . co dál?

Můžete se podívat na více RSS kanálů zpravodajského webu použitého ve výše uvedeném příkladu. Můžete se pokusit vytvořit rozšířenou verzi výše uvedeného příkladu analýzou jiných rss kanálů.
Jste fanouškem kriketu? Pak tento rss feed vás musí zajímat! Tento soubor XML můžete analyzovat, abyste shromáždili informace o živých kriketových zápasech a použili jej k vytvoření oznámení na ploše!

Kvíz z HTML a XML Vytvořit kvíz

TechCodeview

Analýza XML v Pythonu