Back to Question Center
0

Semalt: 3 pasos para rastrexar a páxina web de PHP

1 answers:

O rascado web, tamén chamado extracción de datos web ou recolección web, é o proceso de extraer datos dun sitio web ou blog. Esta información úsase entón para establecer etiquetas meta, descricións metais, palabras clave e ligazóns a un sitio, mellorando o seu rendemento xeral nos resultados do motor de busca.

Utilízanse dúas técnicas principais para raspar datos:

  • Análise de documentos - Consiste nun documento XML ou HTML que se converte ao DOM (Document Object Model ) arquivos. PHP ofrécenos unha gran extensión de DOM - high temperature monitor.
  • Expresións regulares - É unha forma de raspar datos dos documentos web en forma de expresións regulares.

O problema cos datos de rascado do sitio web de terceiros está relacionado co seu copyright porque non ten permiso para usar estes datos. Pero con PHP, pode facilmente raspar datos sen problemas relacionados cos dereitos de autor ou baixa calidade. Como programador de PHP, é posible que precise datos de diferentes sitios web para fins de codificación. Aquí explicámoslles como obter os datos doutros sitios de forma eficiente, pero antes diso, debes ter en conta que ao final obterás os ficheiros index.php ou scrape.js.

Pasos1: Crea un formulario para ingresar ao URL do sitio web:

Primeiro de todo, debes crear un formulario en index.php premendo no botón Enviar e ingresando o URL do sitio web para raspar datos.



Ingresa o URL do sitio web para raspar os datos

(44 )



Pasos2: Crear función PHP para obter datos do sitio web:

O segundo paso é crear A función PHP raspa no ficheiro scrape.php xa que axudará a obter datos e utilizará a biblioteca de URL. Tamén lle permitirá conectarse e comunicarse con diferentes servidores e protocolos sen ningún problema..

función scrapeSiteData ($ website_url) {

se (! Function_exists ('curl_init')) {

die ('cURL non está instalado. Instale e ténteo de novo. ');

}

$ curl = curl_init

;

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, verdadeiro);

$ output = curl_exec ($ curl);

curl_close ($ curl);

devolve $ de saída;

}

Aquí, podemos ver se o PHP cURL instalouse correctamente ou non. Tres correntes principais deben usarse na área de funcións e curl_init

axudará a inicializar as sesións, curl_exec

executarase e curl_close

axudará a pechar a conexión. As variables como CURLOPT_URL úsanse para definir os URL do sitio web que precisamos raspar. O segundo CURLOPT_RETURNTRANSFER axudará a almacenar as páxinas raspadas no formulario de variábeis en vez do seu formulario predeterminado, que en definitiva mostrará toda a páxina web.

Pasos3: Localice datos específicos do sitio web:

É hora de xestionar as funcionalidades do seu ficheiro PHP e raspar a sección específica da súa páxina web. Se non queres que todos os datos dun URL específico, tes que editar usar as variables CURLOPT_RETURNTRANSFER e resaltar as seccións que desexas raspar.

se (isset ($ _ POST ['submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Últimos artigos');

$ end_point = strpos ($ html, '', $ start_point);

$ length = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ length);

eco $ html;

}

Recomendámoslle que desenvolva os coñecementos básicos de PHP e as expresións regulares antes de utilizar calquera destes códigos ou raspar un determinado blog ou sitio web para fins persoais.

December 8, 2017