2000 yılında henüz 22 yaşında bir öğrenci olan Luis von Ahn, Carnegie Mellon Üniversitesi'nde yüksek lisans eğitimi görüyordu. Profesörü Manuel Blum ile bilgisayarların çözemeyeceği ancak insanların kolayca yanıtlayabileceği bir test geliştirmek için kafa kafaya verdiler.

Bu test örneğin bilet karaborsacılarının daha sonra yüksek fiyata satmak üzere yüzlerce konser veya etkinlik biletini otomatik olarak almak için bir program yazmalarını engelleyebilecekti. Yapılan çalışmalar sonuç verdi ve gerekli çözüm bulundu: CAPTCHA.

CAPTCHA esas olarak İnsan ve Bilgisayar Ayrımı Amaçlı Tam Otomatik Genel Turing Testi anlamına geliyor. Sorgulama-yanıt doğrulaması olarak bilinen bu sistem sizden basit bir testi yanıtlamanızı isteyerek bilgisayar değil insan olduğunuzu kanıtlamanızı sağlar.

Boşa giden insan beyni döngüleri

CAPTCHA, botları önlemede işe yarasa da von Ahn'ın kafasını kurcalayan bir düşünce onu oldukça rahatsız etti. Zira profesörü ile birlikte bir anlamda insan beyni döngülerini boşa harcayan bir sistem geliştirmişlerdi. Her bir CAPTCHA testi çözdüğünüzde aslında hayatınızın 10 saniyesini harcıyordunuz.

Dünyanın dört bir yanındaki insanların her gün yaklaşık 200 milyon CAPTCHA çözdükleri gibi bir istatistiksel veri vardı ortada. Yani her bir CAPTCHA yazışınızda, aslında hayatınızın 10 saniyesini harcıyordunuz. Ve bunu 200 milyonla çarptığınızda inanılmaz bir sonuç çıkıyordu ortaya:

"Tüm insanlık her gün bu sinir bozucu CAPTCHA'ları çözerek günde yaklaşık 500.000 saat harcıyor"

Çözüm bulundu: reCAPTCHA

Luis von Ahn, CAPTCHA'yı insanlığa faydalı olacak bir şekilde kullanabilir miyiz diye kafa yormaya başlamıştı. Hedef, bilgisayarların yapamadığı şeyi yapan insan beyninin bu 10 saniyelik hesaplama gücünün boşa gitmemesini sağlamaktı. Ve beklenen cevap bulundu.

Luis von Ahn bu işin üzerine yoğunlaşarak bir "kazan-kazan" senaryosu oluşturmayı başardı. Birçoğunuz bilmiyor olabilirsiniz fakat CAPTCHA çözerken sadece insan olduğunuzu doğrulamakla kalmıyor, aynı zamanda kitapların dijitalleştirilmesine yardımcı oluyorsunuz.

Farkında olmadan kitapları dijitalleştiriyorsunuz

Kütüphane raflarında duran eski kitapların dijital ortama aktarılması için optik karakter tanıma (OCR) teknolojisi kullanılıyor. Ancak taranan dokümanlardaki yazıların yaklaşık %20'lik kısmı mürekkep solması veya sayfa sararması gibi nedenlerden dolayı bilgisayarlar tarafından okunamıyor.

Von Anh’ın evrimleştirilerek reCAPTCHA'ya dönüştürdüğü sistemin ilk projesi, 1851’de kurulan ve 13 milyondan fazla makaleden oluşan New York Times’ın arşivinin dijital ortama aktarılmasıydı. Artık gazetenin arşivindeki tüm yazılar aranabilir durumda.

ReCAPTCHA algoritması nasıl işliyor?

Peki bilgisayarın okuyamadığı kelimeyi, insanların doğru yazıp yazmadığına nasıl karar veriliyor? Burada farklı bir algoritma var. Kullanıcıya ek olarak bilgisayarın cevabını bildiği bir kelime daha veriliyor ve ikisini de yazması isteniyor. 

Eğer sistemin cevabını bildiği kelime doğru yazılırsa kullanıcı insan olarak kabul ediliyor. Aynı zamanda diğer kelimenin de doğru yazıldığı varsayılıyor. Bu süreç 10 farklı kişi üzerinde tekrar edildikten sonra  kelimenin doğru olduğuna kanaat getiriliyor ve bu şekilde dijitalleştirmiş oluyor.

Google satın aldı ve daha da gelişti

reCAPTCHA'nın yükselen değerinin farkına varan Google, projeyi 2009 yılında Google Kitaplar'da kullanılmak üzere açıklanmayan bir miktar karşılığında satın aldı. Arama devi dünyadaki her kitabı dijitalleştirme hedefinin bir parçası olarak onlarca milyon kitabı tarayarak dijital ortama aktamış durumda.

Google bünyesine katılan reCAPTCHA zamanla daha da gelişerek yapay zekanın görsel tanılama sorunlarının çözülmesine katkıda bulunabilecek seviyeye geldi. Artık daha çok görsel seçmeye yönelik testlerle karşılaşıyoruz. Hatta arama devi bunu Street View hizmetindeki trafik işaretlerini tanımlamak için kullanıyor. reCAPTCHA testlerinde sizden trafik işaretlerini veya yaya geçidini seçmenizin istenmesinin nedeni de bu.

Günümüzde reCAPTCHA'yı kullanan sitelerin sayısı son derece yüksek. Facebook, TicketMaster, Twitter, 4chan, CNN.com, StumbleUpon ve Craigslist gibi web siteleri günde 100 milyondan fazla CAPTCHA görüntülüyor. Yani bir günde dijitalleştirilen kelimelerin sayısı oldukça fazla. Yılda yaklaşık iki buçuk milyon kitabın dijital ortama aktarılmasına eşdeğer bu rakama hepimiz farkında olmasak bile katkıda bulunuyoruz.



Editör: TUNAHAN ERTAN