Семалт: 3 корака до стругања веб страница ПХП-а

Веб стругање, које се назива и вађење веб података или веб страница, је процес вађења података са веб странице или блога. Те информације се затим користе за постављање метаознака, мета описа, кључних речи и веза до веб локације, побољшавајући њен укупни учинак у резултатима претраживача.

За брисање података користе се две главне технике:

  • Анализа докумената - укључује КСМЛ или ХТМЛ документ који се претвара у ДОМ (Доцумент Објецт Модел) датотеке. ПХП нам пружа сјајно ДОМ проширење.
  • Редовни изрази - то је начин брисања података са веб докумената у облику регуларних израза.

Проблем са грешачким подацима на веб локацији треће стране повезан је са његовим ауторским правима јер немате дозволу за употребу тих података. Али са ПХП-ом можете лако да изгребате податке без проблема повезаних са ауторским правима или слабог квалитета. Као ПХП програмер, можда ће вам требати подаци са различитих веб локација за потребе кодирања. Овде смо објаснили како ефикасно добијати податке са других места, али пре тога треба имати на уму да ћете на крају добити датотеке индек.пхп или сцрапе.јс.

Кораци 1: Креирајте образац за унос УРЛ адресе веб локације:

Пре свега, требало би да креирате образац у индек.пхп кликом на дугме Пошаљи и унесите УРЛ веб локације за брисање података.

<форм метход = "пост" наме = "сцрапе_форм" ид = "сцрап_форм" ацти>

Унесите УРЛ веб локације да бисте избрисали податке

<инпут типе = "инпут" наме = "вебсите_урл" ид = "вебсите_урл">

<инпут типе = "субмит" наме = "субмит" валуе = "Пошаљите">

</форм>

Кораци 2: Креирајте ПХП функцију за добијање података о веб локацији:

Други корак је креирање сцрапес функције ПХП у датотеци сцрапе.пхп јер ће то помоћи у добијању података и коришћењу библиотеке УРЛ-ова. Такође ће вам омогућити да се повежете и комуницирате са различитим серверима и протоколима без икаквих проблема.

функција сцрапеСитеДата ($ вебсите_урл) {

иф (! фунцтион_екистс ('цурл_инит')) {

дие ('цУРЛ није инсталиран. Инсталирајте и покушајте поново.');

}

$ цурл = цурл_инит ();

цурл_сетопт ($ цурл, ЦУРЛОПТ_УРЛ, $ вебсите_урл);

цурл_сетопт ($ цурл, ЦУРЛОПТ_РЕТУРНТРАНСФЕР, тачно);

$ оутпут = цурл_екец ($ цурл);

цурл_цлосе ($ цурл);

вратити $ оутпут;

}

Овде можемо видети да ли је ПХП цУРЛ правилно инсталиран или не. Три главна цУРЛ-а морају се користити у подручју функција, а цурл_инит () ће помоћи у покретању сесија, цурл_екец () ће га извршити, а цурл_цлосе () ће помоћи у затварању везе. Променљиве варијабле, попут ЦУРЛОПТ_УРЛ, користе се за постављање УРЛ-ова веб локације које требамо избрисати. Други ЦУРЛОПТ_РЕТУРНТРАНСФЕР помоћи ће складиштењу исечених страница у променљивом облику, а не у заданом облику, који ће на крају приказати целу веб страницу.

Кораци 3: Огребите специфичне податке са веб локације:

Време је да се позабавите функционалностима ваше ПХП датотеке и прочистите одређени део ваше веб странице. Ако не желите да се сви подаци с одређене УРЛ адресе, уредите помоћу ЦУРЛОПТ_РЕТУРНТРАНСФЕР варијабли и означите одјељке које желите избрисати.

иф (иссет ($ _ ПОСТ ['субмит'])) {

$ хтмл = сцрапеВебситеДата ($ _ ПОСТ ['вебсите_урл']);

$ старт_поинт = стрпос ($ хтмл, 'Најновије поруке');

$ енд_поинт = стрпос ($ хтмл, '', $ старт_поинт);

$ ленгтх = $ енд_поинт- $ старт_поинт;

$ хтмл = субстр ($ хтмл, $ старт_поинт, $ ленгтх);

ецхо $ хтмл;

}

Предлажемо вам да развијете основно знање о ПХП-у и регуларним изразима пре него што употребите било који од ових кодова или гребате одређени блог или веб локацију за личне потребе.