Back to Question Center
0

Scraping web: bos e malos bots - explicación semálica

1 answers:

Os bots representan case o 55 por cento de todo o tráfico web. Isto significa que a maior parte do tráfico do teu sitio web provén dos bots de Internet en vez dos seres humanos. Un bot é a aplicación de software que se encarga de realizar tarefas automatizadas no mundo dixital - castrol edge vs castrol gtx. Os robots adoitan realizar tarefas repetitivas a gran velocidade e son, en gran parte, indesexables polos seres humanos. Son responsábeis de pequenos traballos que normalmente damos por feito, incluíndo a indexación de buscadores, a monitorización de saúde do sitio web, a medición da súa velocidade, a impulso das API e a obtención do contido da web. Os bots tamén se utilizan para automatizar a auditoría de seguridade e escanear os seus sitios para atopar vulnerabilidades, remediándoas ao instante.

Explorando a diferenza entre os bos e os malos bots:

Os robots poden ser divididos en dúas categorías diferentes, bos bots e malos bots. Os bos robots visitan os seus sitios e axudan aos buscadores a rastrexar diferentes páxinas web. Por exemplo, Googlebot rastrexa moitos sitios web nos resultados de Google e axuda a descubrir novas páxinas web en internet. Utiliza algoritmos para avaliar os blogs ou sitios web que se deben rastrexar, cantas veces se debe facer o rastrexo e cantas páxinas foron indexadas ata agora. Os robots malos son responsábeis de realizar tarefas maliciosas, incluídas as web scraping, comment spam e ataques DDoS. Representan máis do 30 por cento de todo o tráfico en internet..Os hackers executan os malos bots e realizan unha variedade de tarefas maliciosas. Eles exploran millóns en miles de millóns de páxinas web e teñen como obxectivo roubar ou raspar contidos ilegalmente. Tamén consumen o ancho de banda e buscan continuamente plugins e software que se poden usar para penetrar nos seus sitios web e bases de datos.

Cal é o dano?

Normalmente, os motores de busca ven o contido rascado como o contido duplicado. É prexudicial para os rankings dos seus buscadores e os rascados capturarán os seus feeds RSS para acceder e publicar de novo o seu contido. Eles gañan moito diñeiro con esta técnica. Desafortunadamente, os motores de busca non implementaron ningún xeito para librarse dos malos bots. Isto significa que se o teu contido se copia e pega regularmente, o ranking do teu sitio queda danado en poucas semanas. Os motores de busca castigan os sitios que conteñen contido duplicado e non poden recoñecer que sitio publicou por primeira vez un anaco de contido.

Non todo o rascado web é malo

Debemos admitir que o rascado non sempre é prexudicial e malicioso. É útil para os propietarios de sitios web cando desexan difundir os datos a cantas persoas sexan posibles. Por exemplo, os sitios do goberno e os portales de viaxes proporcionan datos útiles para o público en xeral. Este tipo de datos xeralmente están dispoñibles sobre as APIs e empréganse rascadores para recoller estes datos. De ningún xeito, é prexudicial para o teu sitio web. Mesmo cando raspes este contido, non danará a reputación do teu negocio en liña.

Outro exemplo de rascado auténtico e lexítimo son sitios de agregación, como portais de reservas de hoteis, sitios de billetes de concertos e tendas de noticias. Os bots que se encargan de distribuír o contido destas páxinas web obtéñense os datos a través das API e raspes segundo as túas instrucións. Pretende impulsar o tráfico e extraer información para webmasters e programadores.

December 14, 2017