Back to Question Center
0

Semalt: Kako se nositi s podacima o web-izazovima?

1 answers:

Postalo je uobičajena praksa da tvrtke dobiju podatke za poslovne aplikacije. Tvrtke sada traže brže, bolje i učinkovite tehnike za redovito izdvajanje podataka. Nažalost, struganje web je vrlo tehnički i zahtijeva dosta vremena za svladavanje. Dinamična priroda mreže je glavni razlog za teškoće. Također, vrlo dobar broj web stranica su dinamičke web stranice, a iznimno je teško popraviti - best company for long term care insurance. Izdvajanja u web ekstrakciji proizlaze iz činjenice da je svaka web stranica jedinstvena jer je kodirana drugačije od svih ostalih web stranica. Dakle, gotovo je nemoguće napisati jedan program za struganje podataka koji može izdvojiti podatke s više web stranica. Drugim riječima, potreban vam je tim iskusnih programera za kodiranje vašeg web scraping programa za svako pojedinačno ciljanu web lokaciju. Kodiranje aplikacije za svaku web stranicu nije samo dosadno, ali je i skupo, posebno za organizacije koje povremeno zahtijevaju izdvajanje podataka iz stotina web mjesta. Kao što je, web struganje je već težak zadatak. Teškoća se dodatno zbraja ako je ciljno mjesto dinamično.

Neki postupci koji se koriste za poteškoće u vađenju podataka s dinamičkih web stranica opisani su odmah ispod.

1. Konfiguracija proxyja

Odgovor nekih web stranica ovisi o Zemljopisnoj lokaciji, operativnom sustavu, pregledniku i uređaju koji se koristi za pristup njima. Drugim riječima, na tim web-lokacijama podaci koji će biti dostupni posjetiteljima koji se temelje u Aziji bit će različiti od sadržaja koji je dostupan posjetiteljima iz Amerike. Ova vrsta značajki ne samo da zbunjuje web alate za indeksiranje, već ih čini i lakšim za njih, jer trebaju odrediti točnu inačicu indeksiranja, a ova uputa obično nije u njihovim kodovima.

Razvrstavanje problema obično zahtijeva neki manualni rad kako bi znao koliko inačica određena web stranica ima i također konfigurirati proxyja za prikupljanje podataka iz određene verzije. Osim toga, za web lokacije koje su specifične za lokaciju, vaši podaci za struganje podataka morat će se implementirati na poslužitelju koji se temelji na istoj lokaciji s verzijom ciljane web stranice

2. Automatizacija preglednika

Ovo je prikladno za web stranice s vrlo složenim dinamičkim kodovima. To se postiže prikazivanjem cijelog sadržaja stranice pomoću preglednika. Ova je tehnika poznata kao automatizacija preglednika. Selen se može koristiti za ovaj proces jer ima sposobnost pokretanja preglednika s bilo kojeg programskog jezika.

Selen se zapravo koristi prvenstveno za ispitivanje, ali savršeno radi za vađenje podataka s dinamičkih web stranica. Preglednik je prvi put izradio sadržaj stranice jer se time brine o izazovima obrnutog inženjeringskog JavaScript koda za dohvaćanje sadržaja stranice.

Kada se sadržaj prikaže, on se sprema lokalno, a navedene točke podataka kasnije se izdaju. Jedini problem s ovom metodom je da je sklon brojnim pogreškama.

3. Rješavanje zahtjeva za poštom

Neke web stranice zapravo zahtijevaju odreņeni korisnički unos prije prikazivanja potrebnih podataka. Na primjer, ako trebate informacije o restoranima na određenom zemljopisnom položaju, neke web stranice mogu zatražiti poštanski broj potrebne lokacije prije nego što imate pristup potrebnom popisu restorana. To je obično teško za alat za indeksiranje jer zahtijeva unos korisnika. Međutim, da biste se brinuli o problemu, zahtjevi za objavom mogu se izrađivati ​​pomoću odgovarajućih parametara za vaš alat za struganje kako bi došli do ciljane stranice.

4. Proizvodnja JSON URL

Neke web stranice zahtijevaju AJAX pozive za učitavanje i osvježavanje njihovog sadržaja. Ove stranice teško se strugati jer okidači JSON datoteke ne mogu lako pratiti. Zato je potrebno ručno testiranje i pregledavanje kako bi se identificirali odgovarajući parametri. Rješenje je proizvodnja traženog JSON URL-a s odgovarajućim parametrima.

Zaključno, dinamičke web stranice su vrlo složene da se strugaju tako da zahtijevaju visoku razinu stručnosti, iskustva i sofisticirane infrastrukture. Međutim, neke web-struganje tvrtke mogu to podnijeti tako da vam svibanj morati zaposliti treće strane podataka struganje tvrtka.

December 22, 2017