A Spidering és a webrobotok meghatározása

Pókok és webrobotok: Mit kell tudni a weboldaladatok védelméről?

A pókok olyan programok (vagy automatizált szkriptek), amelyek "webkamerán" keresztül keresnek adatokat. A pókok a weboldal URL-jein keresztül utazhatnak, és adatokat nyithatnak meg olyan weboldalakról, mint például az e-mail címek. A pókokat a webhelyeken található információk keresőmotorok takarmányozására is használják.

A pókok, akiket "webes robotok" néven is keresnek a weben, és nem mindenek barátok a szándékukban.

Spammerek Spider webhelyek információ gyűjtésére

Google, Yahoo!

és más keresőmotorok nem csak az érdeklődnek a weboldalak feltérképezésében - így csalók és spammerek is.

Pókokat és más automatizált eszközöket használnak a spammerek, hogy megtalálják az e-mail címeket (az interneten ezt a gyakorlatot gyakran nevezik "betakarításnak") a weboldalakon, majd használják őket a spam-listák létrehozására.

A pókok szintén a keresőmotorok által használt eszközök, amelyekkel többet tudnak meg a webhelyéről, de nem hagyják figyelmen kívül a webhelyet, a webhelyen feltérképezésre szánt weboldal (vagy "engedélyek" nélkül) jelentős információbiztonsági kockázatokat jelenthet. A pókok a linkek követésével közlekednek, és nagyon ügyesek az adatbázisokhoz, programfájlokhoz és egyéb információkhoz való kapcsolódáshoz, amelyekhez nem kívánja hozzáférni őket.

A webmesterek megtekinthetik a naplókat, és megtekinthetik, hogy mely pókok és más robotok látogatták meg webhelyüket. Ez az információ segít a webmestereknek tudni, hogy ki indexeli a webhelyét, és milyen gyakran.

Ez az információ hasznos, mivel lehetővé teszi a webmestereknek, hogy finomítsák a SEO-t és frissítsék a robot.txt fájlokat, hogy megakadályozzák bizonyos robotok számára, hogy feltérképezzék webhelyüket a jövőben.

Tippek a weboldal védelméről a nem kívánt Robot Crawlerektől

Van egy meglehetősen egyszerű módja annak, hogy a nem kívánt robotokat eltávolítsd a webhelyedről. Még akkor sem, ha nem törődsz a rosszindulatú pókokkal, amelyek feltérképezték webhelyét (az e-mail cím megzavarása nem védi Önt a legtöbb robotról), akkor továbbra is fontos útmutatókat kell biztosítania a keresőmotoroknak.

Minden webhelynek egy fájlnak kell lennie a robots.txt nevű gyökérkönyvtárban. Ez a fájl lehetővé teszi, hogy útmutatást adjon a webrobotok számára, ahova indexképeket szeretne keresni (hacsak nincs külön megjelölve egy adott oldal metaadatai, amelyek nincsenek indexelve), ha keresőmotorok.

Ahogy meg tudod mondani a keresett robotokat, ahol szeretnéd, hogy böngészhessenek, azt is elmondhatod nekik, hogy hova menjenek és blokkolják a konkrét robotokat az egész webhelyről.

Fontos szem előtt tartani, hogy a robots.txt fájlba épített bútordarab hatalmas értékkel bír majd a keresőmotorok számára, és akár kulcsfontosságú tényező lehet a webhely teljesítményének javításában, de néhány robbanórobot továbbra is figyelmen kívül hagyja az utasításokat. Ezért fontos, hogy minden szoftvered, bővítményed és alkalmazásod mindvégig naprakész legyen.

Kapcsolódó cikkek és információk

Az illegális (spam) célra használt információgyűjtés prevalenciája miatt 2003-ban törvényeket fogadtak el, hogy egyes gyakorlatokat jogellenesvé tegyenek. Ezek a fogyasztóvédelmi törvények a 2003-as CAN-SPAM törvény alá esnek.

Fontos, hogy időt vegyen fel a CAN-SPAM törvényre, ha vállalkozása bármilyen tömeges levelezéssel vagy információgyűjtéssel foglalkozik.

A spamszal kapcsolatos törvényekről és a spammerekkel való foglalkozásról többet tud megtudni, és a következő cikkek olvasásával nem teheti meg, hogy vállalkozói vagyunk: