Gratis OCR mit dem TIFF-iFilter

Wer seine SharePoint Farm auf Windows Server 2008 R2 aufsetzt bekommt von Microsoft einen TIFF-iFilter für die SharePoint Indizierung gratis mitgeliefert. Dieser ermittelt mittels OCR Texterkennung geschriebene Inhalte in TIFF-Dateien und macht die Inhalte für den Endanwender durchsuchbar. Eigentlich eine tolle Sache, aber wie installiert man das Ganze und wie gut funktioniert es? Um dieser Frage auf den Grund zu gehen, habe ich mich einmal eingehender mit den Möglichkeiten des TIFF-iFilters auseinandergesetzt.

Die Installation ist eigentlich recht einfach zu erledigen.

Installation des Features

 

Der Filter kann im Servermanager als Feature ausgewählt werden und ist nach einem Click auf “Install” einsatzbereit. Es sind bereits alle Registry Keys gesetzt. Auch die Dateitypen sind normalerweise bereits in der Suchadministration registriert. Wenn dem nicht so ist, so kann man diese einfach in der Suchadministration unter dem Punkt “Crawler” –> “Filetypes” die Endungen “.tiff” und “.tif” eingeben. Entsprechende Einträge in der docicon.xml sind in der SharePoint Standardinstallation bereits vorhanden.

Suchadministration unter Crawler -> Filetypes

 

Achtung: Wenn man einen Server mit englischen Binaries betreibt und deutsche Language Packs installiert hat, dann muss man die bevorzugte Sprache für die OCR Erkennung festlegen. Dieses geht nur über Gruppenrichtlinien, die man prima über das Active Directory verteilen kann. Die benötigte Einstellung findet man im Gruppenrichtlinieneditor unter dem Pfad “Computer Configuration” –> “Administrative Templates” –> “Windows Components” –> “Search” –> “OCR”. Dort kann man auf “Select OCR languages from a code page” klicken, “enable” anhaken und die gewünschte Sprache (oder mehrere) auswählen. Zum aktualisieren der Einstellungen bietet sich ein Reboot des Servers an.

Um dem iFilter ein wenig Futter zu geben, habe ich über 1000 TIFFs mit unterschiedlichsten Einstellungen im SharePoint gespeichert, die ich aus PDF Dokumenten konvertiert habe. Es waren sowohl bunte, als auch schwarzweiße, Auflösungen von 150dpi und 300dpi, komprimierte und unkomprimierte TIFFs dabei.

Nach einem Full Crawl sind die Dokumente indiziert und können durchsucht werden.

Starten Sie einen Full Crawl

 

Während des Crawls habe ich den Task Manager im Auge behalten. Der Server ist ein durchschnittlicher 2,5 Ghz Xeon mit 4 Kernen und 8 Gbyte Ram, die Daten liegen auf einem gleich bestückten SQL 2008 mit SP2. Es liefen außer der Standard Webanwendung und den üblichen Infrastruktur Diensten (Profiles, Metadaten) keine weitere Dienste. Über den Daumen gepeilt, hielt sich die Belastung in Grenzen. Der iFilter scheint nur einen Kern leidlich auszulasten. Speicherseitig hat sich so gut wie gar nichts getan.

Die Belastungen halten sich in Grenzen

 

Insgesamt hat die Indizierung von 1.104 Dokumenten mit einem gesamten Volumen von rund 4,90 Gbyte nur ca. 21 Minuten und 18 Sekunden benötigt. Das ist gut doppelt so schnell, wie der Adobe PDF iFilter 9.0 für die gleiche Anzahl PDFs benötigt. Verglichen mit dem iFilter 2.0 von FoxIt, der die gleiche Anzahl Dokumente in ca 4 Minuten abarbeitet, sieht das schon anders aus. Trotzdem finde ich die Geschwindigkeit für eine Texterkennung schon ziemlich zügig und wer es gerne schneller mag, der kann ja zu einem kostenpflichtigen Produkt greifen.

Erfreulich kleine Crawl Zeiten

 

Bleibt noch die Frage, ob es denn auch Funktioniert. Ja, wie der Screenshot beweist. Sogar sehr gut. Die Erkennungsrate war im Grunde genommen von den Einstellungen der TIFF Konvertierung unabhängig, einzig TIFFs mit nur 150 dpi hatten eine schlechte Erkennungsrate. In den 300 dpi aufgelösten Dokumenten habe ich alle Begriffe, die ich getestet habe, gefunden.

Suchergebnisse werden angezeigt

 

Mein Fazit: Der TIFF iFilter ist ein willkommenes Gratis-Addon zur SharePoint Suche. Für Massendaten ist er sicherlich nicht geeignet, aber wenn man lediglich eine überschaubare Menge TIFFs im Index hat und die Crawls gut plant, ist er sicherlich eine gute Lösung. Es bleibt allerdings zu bedenken, dass die TIFFs schon über eine Auflösung von 300 dpi verfügen sollten, um ordentliche Erkennungsraten zu erhalten.

6 Comments

  1. Hallo Andrej,
    waren bei deinem Musterdateien auch welche mit unterschiedlichen Ausrichtungen (hochformat/querformat) und welche die keine eindeutige Ausrichtung hatten?

    Danke
    Joe

    Reply
  2. Was mach eigentlich der Foxit Filter, wenn ein PDF CI & NCI Daten enthält? Das muss ich unbedingt mal überprüfen. Wieder ein Thema für einen Artikel gefunden… 🙂

    Reply
  3. Hinweis: Die nicht gerade berauschende Geschwindigkeit des Adobe PDF-IFilter erklärt sich recht einfach. Das kostenfreie Produkt kann (oder soll?) nur 1 Datei gleichzeitig scannen.
    Das Foxit-Produkt scannt je nach Serverausstattung (Cores matter!) mehrere Dokumente gleichzeitig.

    Reply
    • Ich denke mal “soll” ist schon richtig. 🙂 Der FoxIt Filter ist ja inzwischen einiges günstiger geworden und macht immer Sinn. Ich fand es allerdings erwähnenswert, das sogar eine OCR Erkennung schneller ist, als Adobes Produkt.

      Reply
      • Das ist auf jeden Fall erwähnenswert, zumal es sich bei den TIFF-Inhalten um NCI-Daten handelt, bei denen man meinen könnte dass es lange dauert und ressourcenintensiv ist, diese zu durchsuchen.

        Reply

Kommentar verfassen

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.