Back to Question Center
0

Web struganje s Semalt Expertom

1 answers:

Web struganje, također poznato kao sakupljanje weba, izvuci podatke s web stranica. Web softver za žetvu može izravno pristupiti webu pomoću HTTP-a ili web preglednika. Iako postupak može biti ručno implementiran od strane korisnika softvera, tehnika obično uključuje automatizirani proces implementiran pomoću web pretraživača ili bot.

Web struganje je proces u kojem se strukturirani podaci kopiraju s interneta u lokalnu bazu podataka za pregled i pronalaženje. To uključuje dohvaćanje web stranice i vađenje njegovog sadržaja. Sadržaj stranice može se analizirati, pretraživati, restrukturirati i kopirati podatke u lokalni uređaj za pohranu.

Web stranice su uglavnom izrađene od tekstualnih označnih jezika kao što su XHTML i HTML, od kojih oba sadrže većinu korisnih podataka u obliku teksta. Međutim, mnoge od tih web stranica dizajnirane su za krajnje korisnike, a ne za automatsku upotrebu. Zbog toga je stvoren softver za struganje.

Postoje mnoge tehnike koje se mogu koristiti za učinkovito struganje weba. Neki od njih su razrađeni u nastavku:

1. Ljudska kopija i lijepljenje

S vremena na vrijeme čak i najbolji alat za struganje interneta ne može zamijeniti točnost i učinkovitost ljudskog priručnika copy-and-paste..To se uglavnom odnosi na situacije kada web stranice postavljaju prepreke kako bi se spriječilo automatiziranje strojeva.

2. Usklađivanje tekstualnog obrasca

Ovo je prilično jednostavan, ali moćan pristup koji se koristi za izdvajanje podataka s web stranica. Može se temeljiti na UNIX grep naredbi ili samo običnom izrazu objekta određenog programskog jezika, na primjer, Python ili Perl.

3. HTTP programiranje

HTTP programiranje može se koristiti za statične i dinamičke web stranice. Podaci se ekstrahiraju putem postavljanja HTTP zahtjeva na udaljeni web poslužitelj pri korištenju socket programiranja.

4. HTML parsiranje

Mnoge web stranice obično imaju veliku zbirku stranica dinamički stvorenih iz temeljnog izvora strukture kao što je baza podataka. Ovdje se podaci koji pripadaju sličnoj kategoriji kodiraju na slične stranice. U HTML parsiranju, program općenito otkriva takav predložak u određenom izvoru informacija, dohvaća njegov sadržaj i prevodi ga u affiliate oblik, nazvan kao omot.

5. DOM parsiranje

U ovoj tehnici, program se ugrađuje u punopravni web preglednik kao što je Mozilla Firefox ili Internet Explorer za preuzimanje dinamičkog sadržaja generiran skriptom na strani klijenta. Ti preglednici također mogu analizirati web stranice u DOM stablo, ovisno o programima koji mogu izvući dijelove stranica.

Stranice koje namjeravate ostrugati mogu obuhvatiti semantičke oznake i bilješke ili metapodatke koji se mogu koristiti za pronalaženje određenih isječaka podataka. Ako su ove napomene ugrađene na stranice, ova tehnika može se promatrati kao poseban slučaj parsiranja DOM-a. Ove napomene također mogu biti organizirane u sintaktički sloj, a zatim pohranjene i upravljane odvojeno od web stranica. Omogućuje poslužiteljima da dohvaćaju shemu podataka, kao i naredbe s tog sloja, prije nego što uklone stranice.

December 6, 2017
Web struganje s Semalt Expertom
Reply