Op talloze website kom je ze tegen; kleurrijke velden waar je bijna onleesbare worden moet invoeren om te kunnen registreren op websites of om formulieren in te vullen. Ook op deze site zijn ze te vinden als je wilt reageren op artikelen. Ze zijn belangrijk om spam te voorkomen maar ze doen nog een andere truc.
ReCAPTCHA is een gratis CAPTCHA dienst die helpt bij het digitaliseren van boeken, kranten en oude radio-shows.
Een CAPTCHA is een programma dat kan vertellen of de gebruiker een mens is of een computer. Je komt ze op veel websites tegen – kleurrijke beelden met vervormde teksten aan de onderkant van Web inschrijfformulieren. CAPTCHA’s worden door veel websites ingezet om misbruik te voorkomen van "bots" of geautomatiseerde programma’s meestal geschreven om spam te genereren. Geen computerprogramma kan de vervormde tekst lezen zoals de mens dat kan. Hierdoor kunnen bots niet naar plaatsen navigeren die beschermd zijn door CAPTCHA’s.
Elke dag worden, door mensen over de hele wereld, ongeveer 200 miljoen CAPTCHA’s opgelost. Per geval is dat ongeveer tien seconden, die door mensen hieraan wordt besteed. Individueel is dat niet veel tijd, maar in totaal verbruiken deze kleine puzzels meer dan 150.000 uur werk per dag.
Wat als we op een positieve manier gebruik konden maken van deze menselijke inspanningen?
Dit is precies wat reCAPTCHA doet; het kanaliseren van de inspanningen besteed aan het oplossen van CAPTCHA’s door online boeken te ‘lezen’.
Voor het archiveren van de menselijke kennis en om informatie wereldwijd beter toegankelijk te maken, zijn meerdere projecten die momenteel het digitaliseren van fysieke boeken die werden geschreven vóór het computertijdperk. De boekpagina’s worden gescand en dan omgezet in tekst met behulp van "Optical Character Recognition" (OCR)programma’s. De transformatie naar tekst is belangrijk omdat het scannen van een boek afbeeldingen oplevert die moeilijk op te slaan zijn op kleine apparaten, duur om te downloaden en niet kunnen worden geïndexeerd en doorzocht. Het probleem is dat OCR niet perfect is.
ReCAPTCHA verbetert het proces van digitalisering van boeken door het sturen van woorden in de vorm van CAPTCHA’s, die niet door computers kunnen worden gelezen om het door mensen te laten ontcijferen. Meer specifiek wordt elk woord, dat niet correct kan worden gelezen door OCR, geplaatst als een afbeelding en wordt gebruikt als een CAPTCHA. Dit is mogelijk omdat de meeste OCR-programma’s waarschuwen wanneer een woord niet correct kan worden gelezen.
Maar als een computer zo’n CAPTCHA niet kan lezen, hoe weet het systeem dat het juiste antwoord op de puzzel is gegeven?
Dit werkt als volgt: Elke nieuw woord dat niet correct kan worden gelezen door OCR, wordt aan een gebruiker gestuurd in combinatie met een ander woord waarop het antwoord al bekend is. De gebruiker wordt dan gevraagd om beide woorden in te vullen. Als ze het woord waarvoor het antwoord bekend is, correct invullen, neemt het systeem aan dat ook het antwoord voor het nieuwe woord correct is. Het systeem stuurt vervolgens de nieuwe afbeelding naar een aantal andere mensen om te controleren of het oorspronkelijke antwoord juist was.
In onderstaand filmpje vertelt één van de bedenkers van reCAPTCHA meer over het concept en over duolingo, een gratis taal opleiding gebaseerd op hetzelfde principe.
Over Kouwepolder ICT
Kouwepolder ICT adviseert bedrijven en instellingen over het toepassen van bedrijfsautomatisering binnen hun organisatie. Wilt u meer informatie over Kouwepolder ICT of bedrijfsautomatisering, neem dan contact op via e-mail:info@kouwepolder.nl of telefonisch : +31(0)6 4602 4353




