PDF OCR
Taranmış veya metin katmanı olmayan PDF'lerdeki yazıları okuyup üzerinde arama ve kopyalama yapılabilen PDF'e çevirir. Tesseract OCR motorunu kullanır.
Ne işe yarar
Eski tarayıcı çıkışı sözleşmeler, telefonla çekilmiş faturalar, dijital olmayan arşiv belgeleri Ctrl+F ile aranamaz çünkü içinde gerçek metin yoktur, sadece görüntü vardır. Bu araç görüntüyü okuyup arkasına gerçek metin katmanı ekler. Sonuçta belge görsel olarak aynı kalır ama artık aranabilir, kopyalanabilir hale gelir.
Nasıl kullanılır
- Taranmış PDF dosyalarını listeye sürükleyin.
- Birincil Dil açılır listesinden belge dilini seçin (Türkçe, İngilizce, Almanca, Fransızca veya karışık).
- Otomatik Düzleştirme ve Gürültü Temizleme seçeneklerini açık bırakın (taranmış belgeler için önerilir).
- Çalıştır butonuna basın.
Her dosya için aynı görünümde ama aranabilir bir PDF üretilir.
Dil seçenekleri
| Dil | Ne zaman seçin |
|---|---|
| Türkçe (tur) | Tek dilli Türkçe belge |
| İngilizce (eng) | Tek dilli İngilizce belge |
| Almanca (deu) | Tek dilli Almanca belge |
| Fransızca (fra) | Tek dilli Fransızca belge |
| Türkçe + İngilizce | Karışık akademik makaleler, alıntılı belgeler |
| İngilizce + Almanca | Karışık teknik dokümanlar |
Karışık dilli seçenekler doğruluğu artırır ama işlem yaklaşık %30-50 daha uzun sürer.
Seçenekler
- Otomatik Düzleştirme: Eğik taranmış sayfaları otomatik dik konuma getirir. Taranmış belgelerde açık bırakın.
- Gürültü Temizleme: Toz lekelerini ve küçük kara noktaları temizler. Eski/kötü taramalarda açık bırakın.
- Zorla OCR: PDF'te zaten metin varsa onu silip baştan tanıma yapar. Sadece mevcut metin bozuksa veya yanlışsa açın.
Kullanım örnekleri
Taranmış sözleşme arşivini aranabilir yapmak: 50 sözleşme ekleyin, dil olarak Türkçe seçin, varsayılan ayarlarla çalıştırın. Hepsi Ctrl+F ile aranabilir hale gelir.
Akademik makale (Türkçe + İngilizce): Makaleyi ekleyin, dil olarak "Türkçe + İngilizce" seçin, çalıştırın.
Bozuk metin katmanını düzeltmek: PDF aranabilir ama Ctrl+F sonuçları yanlış geliyor. Zorla OCR'yi açın, dili seçin, çalıştırın.
Almanca kullanım kılavuzu: PDF'i ekleyin, Almanca seçin, varsayılan ayarlarla çalıştırın.
Dikkat edilmesi gerekenler
- Bu özelliğin çalışması için bilgisayarınızda Tesseract OCR kurulu olmalıdır. Kurulum bağlantısı: https://github.com/UB-Mannheim/tesseract/wiki
- Türkçe, Almanca, Fransızca için ek dil paketlerinin de Tesseract'a yüklenmiş olması gerekir.
- Şifreli PDF'lerde çalışmaz. Önce PDF Şifreleme ile şifreyi kaldırın.
- Çok düşük çözünürlüklü taramalarda (150 DPI altı) tanıma doğruluğu düşer.
- Yan yatmış veya çok eğik taramaları otomatik düzeltir ama 90 derece dönük sayfaları düzeltmez.
Lisans
Bu araç Ultimate paketine özeldir. Ücretsiz ve Office paketlerinde görünmez.