Semalt: veebilehe kraapimine Google Chrome'i laienduse abil

Ekraanikaabits on skript, mis loeb saite ja ammutab veebist kasulikku teavet. Ekraani kraapimine on parim lahendus veebisaitidelt ja veebilehtedelt Microsoft Excelisse reaalsete andmete saamiseks. Google Chrome Extension Scraper on võimas ekraanide kraapimise tööriist, mis töötab nii Windowsi kui ka Mac OS-is.

Miks Google Chrome Extension Scraper?

Google Chrome'i laiendikaabits on jõuline ekraani kraapimistööriist, mis läheb Chrome'i veebipoes tasuta sisse. See kraapimisriist installitakse pistikprogrammina Chrome'i brauserisse. Pistikprogramm võimaldab ajaveebi ajakirjanikel ja turundajatel veebilehtedelt andmeid elemendi parema hiireklõpsuga alla laadida. '' Scrape sarnane '' peaks ekraanil ilmuma, kui teete elemendil paremklõpsu.

Sissejuhatus XPathi

XPath on programmeerimiskeel, mida kasutatakse XML-struktuurides olulise teabe leidmiseks. HTML-fail on suurepärane näide XML-i struktuurist. XPathi kasutatakse tavaliselt sihtesõlmede valimiseks. Sellega seoses kasutatakse veebilehelt kaevandatava teksti määramiseks XPath-e. XPaths aitab tuvastada ka Rootsi parlamendiliikmete parteinimesid ja telefoninumbreid.

Google Chrome'i skreeperi kasutamine 349 Rootsi parlamendiliikme aadressiandmetele juurdepääsuks

Chrome'i kaabitsa abil pole veebilehelt teabe hankimine mitte ainult lihtne, vaid ka fantastiline. Naudite protsessi ja tehnikat ise.

Veebisait loetleb kõik Rootsi liikmed ja nende aadressid. Alustamiseks paremklõpsake mis tahes MP-l ja valige "Scrape sarnane". Ekraanil peaksite nägema järgmist kuva.

Samm-sammuline juhend, kuidas ekraanile kraapida veebilehte

Kui teete hiire parema nupuga hiireklõpsu ühel MP-l ja valite "Kontrolli elementi", luuakse klassi "" grid_6 alfa-oomega otsingutulemite konteineri klist "alla tähestikuline loend. Selle veebilehe kraapimiseks kasutatakse kahte sammu. Esimene samm hõlmab valimist sildid, mis koosnevad MPathi andmetest koos XPathiga. Teine etapp hõlmab andmete konkreetsete osade, nagu partei nimede, nimede ja telefoninumbri, valimist ning andmete järjestamist veergudesse.

Samm 1

Kaevake HTML-i struktuuri sügavamale ja hoidke elemendid puutumata. Suunake sildid, et tuvastada siltide arv, mis vastab teie struktuuri elementidele. Tuvastage viimane sihtmärkidest koosnev silt. Käivitage struktuuril XPath test, klõpsates nupul Scrape.

Teie ekraanil kuvatakse 349 rida sisaldav loend. 349 esindavad Rootsi parlamendiliikmete koguarvu.

2. samm

Jagage esitatud andmed veergudesse. Vaadake kasutataval veebilehel HTML-koodi. Sel juhul on kaevandatavad tükid praegu kollasega esile tõstetud. Sisestage loodud veergude väljale XPaths ja klõpsake pistikprogrammi käivitamiseks nuppu "Kraapima".

Kui teil on põhilisi teadmisi XPathi kohta, pole programmeerimisest aru saamine teie jaoks vaevaline ülesanne. Ülaltoodud juhised aitavad teil kraapida veebilehte. Kui töötate mitme veebilehe kraapimisega, peab teil olema programmeerimisoskus.

mass gmail