PDF OCR

Taranmış veya metin katmanı olmayan PDF'lerdeki yazıları okuyup üzerinde arama ve kopyalama yapılabilen PDF'e çevirir. Tesseract OCR motorunu kullanır.

Ne işe yarar

Eski tarayıcı çıkışı sözleşmeler, telefonla çekilmiş faturalar, dijital olmayan arşiv belgeleri Ctrl+F ile aranamaz çünkü içinde gerçek metin yoktur, sadece görüntü vardır. Bu araç görüntüyü okuyup arkasına gerçek metin katmanı ekler. Sonuçta belge görsel olarak aynı kalır ama artık aranabilir, kopyalanabilir hale gelir.

Nasıl kullanılır

Taranmış PDF dosyalarını listeye sürükleyin.
Birincil Dil açılır listesinden belge dilini seçin (Türkçe, İngilizce, Almanca, Fransızca veya karışık).
Otomatik Düzleştirme ve Gürültü Temizleme seçeneklerini açık bırakın (taranmış belgeler için önerilir).
Çalıştır butonuna basın.

Her dosya için aynı görünümde ama aranabilir bir PDF üretilir.

Dil seçenekleri

Dil	Ne zaman seçin
Türkçe (tur)	Tek dilli Türkçe belge
İngilizce (eng)	Tek dilli İngilizce belge
Almanca (deu)	Tek dilli Almanca belge
Fransızca (fra)	Tek dilli Fransızca belge
Türkçe + İngilizce	Karışık akademik makaleler, alıntılı belgeler
İngilizce + Almanca	Karışık teknik dokümanlar

Karışık dilli seçenekler doğruluğu artırır ama işlem yaklaşık %30-50 daha uzun sürer.

Seçenekler

Otomatik Düzleştirme: Eğik taranmış sayfaları otomatik dik konuma getirir. Taranmış belgelerde açık bırakın.
Gürültü Temizleme: Toz lekelerini ve küçük kara noktaları temizler. Eski/kötü taramalarda açık bırakın.
Zorla OCR: PDF'te zaten metin varsa onu silip baştan tanıma yapar. Sadece mevcut metin bozuksa veya yanlışsa açın.

Kullanım örnekleri

Taranmış sözleşme arşivini aranabilir yapmak: 50 sözleşme ekleyin, dil olarak Türkçe seçin, varsayılan ayarlarla çalıştırın. Hepsi Ctrl+F ile aranabilir hale gelir.

Akademik makale (Türkçe + İngilizce): Makaleyi ekleyin, dil olarak "Türkçe + İngilizce" seçin, çalıştırın.

Bozuk metin katmanını düzeltmek: PDF aranabilir ama Ctrl+F sonuçları yanlış geliyor. Zorla OCR'yi açın, dili seçin, çalıştırın.

Almanca kullanım kılavuzu: PDF'i ekleyin, Almanca seçin, varsayılan ayarlarla çalıştırın.

Dikkat edilmesi gerekenler

Bu özelliğin çalışması için bilgisayarınızda Tesseract OCR kurulu olmalıdır. Kurulum bağlantısı: https://github.com/UB-Mannheim/tesseract/wiki
Türkçe, Almanca, Fransızca için ek dil paketlerinin de Tesseract'a yüklenmiş olması gerekir.
Şifreli PDF'lerde çalışmaz. Önce PDF Şifreleme ile şifreyi kaldırın.
Çok düşük çözünürlüklü taramalarda (150 DPI altı) tanıma doğruluğu düşer.
Yan yatmış veya çok eğik taramaları otomatik düzeltir ama 90 derece dönük sayfaları düzeltmez.

Lisans

Ücretsiz pakette aylık OCR limiti vardır. Office ve Bundle paketlerinde sınırsızdır.