{"id":495,"date":"2023-05-31T08:00:00","date_gmt":"2023-05-31T06:00:00","guid":{"rendered":"https:\/\/www.fuhselab.de\/?p=495"},"modified":"2024-09-04T06:26:40","modified_gmt":"2024-09-04T04:26:40","slug":"ocr-mit-tesseract","status":"publish","type":"post","link":"https:\/\/www.fuhselab.de\/index.php\/2023\/05\/31\/ocr-mit-tesseract\/","title":{"rendered":"OCR mit Tesseract"},"content":{"rendered":"\n<p>Wer regelm\u00e4\u00dfger scannt kommt sicher irgendwann auf die Idee ein gescanntes Dokument auch direkt in eine Textverarbeitung zu \u00fcbernehmen und dort weiterzubearbeiten. Genau darum geht es in diesem Artikel&#8230;<\/p>\n\n\n\n<!--more-->\n\n\n\n<p>Wer regelm\u00e4\u00dfger scannt kommt sicher irgendwann auf die Idee ein gescanntes Dokument auch direkt in eine Textverarbeitung zu \u00fcbernehmen und dort weiterzubearbeiten. Genau darum geht es in diesem Artikel. OCR bietet genau diese M\u00f6glichkeit und \u201escannt\u201c den Text nicht als Grafik sondern als echten editierbaren Text. Dieser Artikel beschreibt die Linux-L\u00f6sung per Terminal und dem Programm Tesseract.<\/p>\n\n\n\n<p><strong>Installation von Tesseract<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>sudo apt install tesseract-ocr tesseract-ocr-deu<\/li>\n<\/ul>\n\n\n\n<p><strong>Nutzung von Tesseract (Terminalprogramm)<\/strong><\/p>\n\n\n\n<p>Zuerst wird das Dokument normal als Grafik gescannt (etwa mit SimpleScan) und als jpg-Datei gespeicher (hier im home-Verzeichnis). Tesseract ist ein Kommandozeilenprogramm und wird somit im Terminal gestartet.<\/p>\n\n\n\n<p>Der Befehl lautet: tesseract ocrbild-01.jpg ocrtext-01 Es wird das Programm gestartet und mit Programmname aufgerufen (tesseract). Die Quelldatei wird mit Dateiendung angegeben (ocrbild-01.jpg). Der Name f\u00fcr die Zieldatei kann ohne Dateiendung angegeben werden (ocrtext-01). Tesserect erstellt nun aus der jpg-Grafik eine Textdatei. Erst wenn im Terminal wieder der leere Promt hinter dem Benutzer erscheint ist das Programm und die OCR Umwandlung abgeschlossen.<\/p>\n\n\n\n<p>Nun ist es m\u00f6glich den Inhalt der so erstellten Textdatei (unformatiert) in eine Textverarbeitung wie Writer zu \u00fcbernehmen. Nach meinen bisherigen Experimenten mit Tesseract ist die Trefferquote schon befriedigend bis gut. Eine Anpassung wird aber immer n\u00f6tig sein, denn Tesseract erkennt nicht immer alle Buchstaben und Zeichen. Trotzdem erspart diese OCR Anwendung sehr viel Arbeit, wenn man ein editierbares Dokument braucht und die Vorlage auf einem Scan basiert.<\/p>\n\n\n\n<p>Wem die Terminalanwendung nicht zusagt kann auch die Onlineversion nutzen:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>http:\/\/www.free-ocr.com\/<\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Wer regelm\u00e4\u00dfger scannt kommt sicher irgendwann auf die Idee ein gescanntes Dokument auch direkt in eine Textverarbeitung zu \u00fcbernehmen und dort weiterzubearbeiten. Genau darum geht es in diesem Artikel&#8230;<\/p>\n","protected":false},"author":1,"featured_media":791,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[3],"tags":[21],"class_list":["post-495","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-linux","tag-linux-gruppe-peine"],"_links":{"self":[{"href":"https:\/\/www.fuhselab.de\/index.php\/wp-json\/wp\/v2\/posts\/495","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.fuhselab.de\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.fuhselab.de\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.fuhselab.de\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.fuhselab.de\/index.php\/wp-json\/wp\/v2\/comments?post=495"}],"version-history":[{"count":1,"href":"https:\/\/www.fuhselab.de\/index.php\/wp-json\/wp\/v2\/posts\/495\/revisions"}],"predecessor-version":[{"id":496,"href":"https:\/\/www.fuhselab.de\/index.php\/wp-json\/wp\/v2\/posts\/495\/revisions\/496"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.fuhselab.de\/index.php\/wp-json\/wp\/v2\/media\/791"}],"wp:attachment":[{"href":"https:\/\/www.fuhselab.de\/index.php\/wp-json\/wp\/v2\/media?parent=495"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.fuhselab.de\/index.php\/wp-json\/wp\/v2\/categories?post=495"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.fuhselab.de\/index.php\/wp-json\/wp\/v2\/tags?post=495"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}