Skraping er prosessen med å hente ut større mengder informasjon fra et dataregister som er tilgjengelig via en nettside eller webområde. Skraping er som regel en uønsket handling og en form for dataangrep.

Faktaboks

Også kjent som

engelsk: scraping

Dataregistre vil ofte ha en stor forretningsmessig verdi, og det er dermed viktig at ingen får tilgang til å kopiere hele eller deler av registeret. Samtidig må enkeltoppslag være lett tilgjengelig for brukerne for å kunne tilby tjenesten. Utfordringen blir altså å tillate enkeltoppslag, men ikke så mange at noen kan hente ut større deler av registeret.

Eksempler

Typiske eksempler på registre er delelister, produktkataloger, værmeldinger, nyheter og statistikk. Brukere vil være begrenset av tid og ressurser som kreves for å gjøre manuelle oppslag, og kan dermed ikke hente ut store mengder informasjon. Prosessen kan imidlertid automatiseres ved hjelp av programvare, og uthenting av all informasjon fra dataregisteret kan utføres i løpet av svært kort tid.

Tiltak

For å forsøke å forhindre skraping kan man begrense hvor mange oppslag det er mulig å gjøre i løpet av en viss tid per bruker eller verifisere at brukeren er et menneske gjennom bruk av CAPTCHA. I tillegg til tekniske sikkerhetsmekanismer vil brukervilkår for tjenesten ofte spesifikt forby bruk av maskinell skraping.

KI og skraping

Opptreningen av språkmodeller krever tilgang til enorme mengder data. For å få tilgang til mest mulig informasjon skrapes flest mulig tilgjengelige nettjenester. Informasjonen blir så tilgjengeliggjort gjennom språkmodellene, ofte uten referanse til opprinnelig kilde.

Søkemotorer og indeksering

En utfordring med tiltak mot skraping er at de ofte også begrenser søkemotorers indeksering av nettsider. Her finnes det imidlertid løsninger som forsøker å tillate søkemotorer, men hindre andre tilsvarende applikasjoner.

Formelt sett kan man si at søkemotorene utfører skraping av nettsider. Informasjonen hentes ut og lagres hos en tredjepart. Det er imidlertid vanlig å omtale dette som indeksering, ettersom det er en ønsket handling.

Dette er imidlertid mer nyansert. Flere søkemotorer presenterer indeksert informasjon som en del av søkeresultatene i stedet for å sende brukeren videre til nettsiden. Dermed taper nettsidene trafikk og reklameinntekter. Selv om informasjonen vises med referanse, vil den for brukeren ofte fremstå som søkemotorens egen informasjon.

Les mer i Store norske leksikon

Kommentarer

Kommentarer til artikkelen blir synlig for alle. Ikke skriv inn sensitive opplysninger, for eksempel helseopplysninger. Fagansvarlig eller redaktør svarer når de kan. Det kan ta tid før du får svar.

Du må være logget inn for å kommentere.

eller registrer deg