Semalt: HTML Vodič za struganje - Top savjeti

Web sadržaj uglavnom je u strukturiranom ili HTML obliku. Svaka stranica organizirana je na svoj jedinstveni način, ovisno o vrsti sadržaja u njoj. Ako netko želi izvući podatke na internetu, svaka osoba želi te podatke dobiti na strukturiran i dobro organiziran način. Na taj ćete način uštedjeti vrijeme potrebno za pregled, analizu i organiziranje dokumenta prije dijeljenja. Međutim, dobivanje strukturiranog formata nije jednostavno s obzirom da većina web stranica ne nudi tu opciju kako bi spriječili ljude da vade veliku količinu podataka. Neke web lokacije, međutim, pružaju API-je koji ljudima pružaju mogućnost vađenja informacija u brzom i jednostavnom procesu.

U takvim događajima nećete imati drugog izbora nego koristiti softversko programiranje poznato kao struganje. To je pristup koji koristi računalni program koji pomaže korisnicima da prikupe informacije u korisnom formatu i čuva strukturu podataka.

Lxml i zahtjev

Ovo je široka knjižnica struganja koja pomaže u brzoj analizi i procjeni XML-a i HTML-a i pomaže u uštedi vremena. Također je korisno za rješavanje zabrljanih oznaka u procesu analize. U ovom postupku koristite Lxml zahtjeve a ne ugrađeni urllib2 jer je brži, robusniji i lako dostupan. Instalirati ga je jednostavno pomoću pip install Lxml i pip zahtjeva za instalaciju.

Za struganje HTML slijedite ove korake

Započnite s uvozom - ovdje uvezete HTML iz Lxml-a, a zatim zahtjev za uvoz. Upotrijebite zahtjev, a zatim pratite web stranicu koja sadrži podatke koje želite izdvojiti, analizirati ih pomoću HTML modula i zatim spremiti raščlanjene podatke u stablo.

Morat ćete koristiti sadržaj stranice, a ne tekst jer HTML očekuje da će unos dobiti u bajtovima. Stablo u koje ste pohranili analizirane podatke sadrzi HTML dokument u strukturi stabla. Možete pregledati strukturu stabla u različitim pristupima, XPath i CSSelect.

XPath vam pomaže da preuzmete informacije ili ih dobijete u strukturiranom obliku kao što su HTML ili XML. Postoje različiti načini na koje možete dobiti XPath elemente. Tu spadaju Firebug za Firefox ili Chrome Inspector. Kada koristite Chrome, uvid u podatke je jednostavan, jer trebate samo "desnim klikom" kliknuti element koji zahtijeva pregled, odabrati "Ispitati element", istaknuti kôd i zatim desnim klikom i odaberite kopirati XPath. Ovaj će vam postupak pomoći da znate koji se elementi nalaze na vašoj stranici i odatle je lako stvoriti pravi XPath upit i pravilno primijeniti Lxml XPath.

Kroz ove korake osiguravate da ste izbrisali sve podatke koje ste željeli izdvojiti s određenog weba pomoću Lxml i Zahtjeva. Informacije će biti pohranjene u memoriji s dva popisa, a sada je spremna za razvrstavanje. Možete ga analizirati pomoću programskog jezika poput Pythona ili ga spremiti i podijeliti. Također, možda ćete htjeti preraditi ili urediti neke dijelove podataka prije nego što ih podijelite.