Open Source Buddhism Library free Tibetan OCR and Sanskrit OCR service

Step 1: Please type your EMAIL here for download result ( * )

Step 2: Please choose your file for OCR

At the moment we can perform OCR of printed texts in Tibetan and Sanskrit (Devanagari). For tibetan manuscript OCR we have in development new OCR engine.
After upload usually you will receive your file OCR result in few days.
Please upload us the whole book or pages you need in one ZIP or PDF file. (not pages one-by-one in separate files) Thank you:)


(*)Terms of agrement.
1. All work for OCR is free from any charges. For manuscript OCR we may ask you make voluntary donation for OCR development and manual proof-reading.
2. If you send us text not sutable for publishing in library, please confirm that by email on library address gomde@mail.ru
3. In case you don't provide us your email for send your OCR result, we can not help you OCR this texts, sorry.
4. By sending your texts for OCR you give us permission one time per year send you library development news and donation request.
5. Library not pubish or share your e-mail or personal data without your permission.
May all be happy to study and practice Buddha Dharma worldwide!

DEAR FRIENDS. FOR CONVERT (OCR) YOUR BOOK PDF FILES TO UNICODE YOU MAY USE FREE SERVICE OF OPEN SOURCE BUDDHISM LIBRARY

Dear friends.
གྲོགས་པོ་རྣམ་པ། ཨུ་རུ་སུའི་རིས་མེད་ཆོས་ཀྱི་ལྟེ་གནས་ཁང་གི་དྲྭ་ཚིགས་  www.dharmabook.ru ལ་དོ་སྣང་གནང་བ་བཀའ་དྲིན་ཆེ།

In Open Source Buddhism Library you may request convert text from printed books in PDF, PNG or another graphical format in editable text, which you can use for book republishing and editions.

དཔེ་མཛོད་འདིར་ PDF དང་ TIFF དང་ JPEG རྣམ་པ་ལ་ཡོད་པའི་དཔེ་ཆ་རྣམས་པར་སྐྲུན་ཆེད་དུ་བཟོ་བཅོས་བྱེད་ཆོག་པའི་གློག་ཡིག་ལ་བསྒྱུར་རོགས་ཞེས་རེ་སྐུལ་གནང་ཆོག

As example བཀའ་འགྱུར་
OCR result example 
Page from volume 68 of བཀའ་འགྱུར་
Example of pecha input:

{__Page_38.tif"}
པ་བྲན་ལྟར་བཀོལ་བའི་མནངས༔ གང་ལ་དམིགས་པའི་ཟག་རྫས་བླང་༔ གུ་གུལ་ཀ་ར་རྡི་དྲེག་དཀར༔ དམར་ནག་ཅོང་ཞི་མུ་ཟི་ནག༔ སེར་མཐསུར་ཀ་ཤྭ་གན་དྷ་དང་༔ བྱང་བ་
ནག་པོ་ཞིབ་པར་བཏགས༔ གཨག་རུ་ནང་དུ་བླུག་པར་བྱ༔ སྦྲ་ཚིལ་དག་གིས་ཁ་བཅད་ལ༔ མིས་མི་མཐང་བར་ལུས་ལ་བཅང་༔ སྨྲ་བཅད་དུས་སུ་ངན་སྡགས་བཟླ༔ སྔགས་ནི་སྔགས་བྱང་ལྟར་
ཤིས་བྱ༔ དབང་སྡུད་རྣོ་མྱུར་མཚོན་ཆ་འདྲ༔ དེས་ནི་གྲུབ་པའི་རྟགས་སུ་ཤར༔ གང་ཡིན་མིང་སྤེལ་གཞུག་པར་བྱ༔ རྫས་རྣམས་ལྟག་ལྟགཇིར་ཇིར་ཟེར༔ མྱར་དུ་ལས་རྣམས་འགྲུབ་པར་
འགྱུར༔ རྫད་དེ་ཁོ་ཡི་སྤྱི་བོར་བརྡེག༔ ཡང་ན་ཁོང་དུ་བཏང་བར་བྱ༔ ཆ་གཅིག་རང་གི་སྙིང་གར་བཀུ༔ ཞག་གྲངས་ཉེར་ལྔའི་དུས་སུ་ནི༔ གང་དམིགས་བྲན་ལྟར་ཉན་པར་འགྱུར༔ མ་ལྟར་བྱམས་
ལ་སྲིང་ལྟར་གདུང་༔ རྒྱལ་པོ་ཡིན་ཀྱང་དབང་དུ་འདུ༔ འདི་མཉམ་གཉིས་བྲན་དུ་བཀོལ་བའི་མན་ངག་གོ༔ ད་ནི་སྐྱེས་པ་མཉམ་གཉིས་དབང་དུ་མ་འདུས་ན༔ སྲོག་ནས་འཕྲོག་བའི་མན་ངག་བསྟན༔
ཡུངས་ཀར་ཡུངས་ནག་སྐྱེ་ཚེ་དང་༔ གྲི་ཁྲག་སྦྲང་སྨྱོན་ཁྱི་དཀར་སྙིང་ཚི་ལ་དང་༔ བོང་ང་ནག་པོ་རྒྱ་སྐྱེས་དང༔ ཙ་ནྡན་དམར་པོ་ག་བུར་དང་༔ ཆ་མཉམ་སྦྱར་ཏེ་གྱག་རུ་ར་བླུག༔ སྤྲ་ཚིལ་ཁ་བཅད་རང་གི་

This is free of charge and we will happy to help you.

འདི་ནི་རིན་མེད་ཡིན་ལ། ང་ཚོས་དགའ་སྤྲོའི་ངང་རོགས་འདེགས་ཞུ་ཆོག

 

DEAR FRIENDS! PLEASE NOT FORGOT PROVIDE YOUR EMAIL WITH YOUR TEXT UPLOAD

བརྩེ་བའི་གྲོགས་པོ་རྣམ་པ། དཔེ་ཆ་ཡར་བཞག་ཚར་རྗེས་ཁ་བྱང་ GOMDE@MAIL.RU ཐོག་བརྡ་ལན་ཞིག་གནང་རོགས།

We will need your address to send back OCR results. For now we can OCR Tibetan and Sanskrit (Devanagari) printed texts.

ཕྱིར་བསྐུར་སའི་གློག་འཕྲིན་ཁ་བྱང་དགོས། ད་ལྟའི་ཆར་ང་ཚོས་བོད་ཡིག་དང་ལེགས་སྦྱར་པར་མ་བཟོ་བཅོས་ཆོག་པའི་གློག་ཡིག་ལ་བསྒྱུར་ཐུབ་ཀྱི་ཡོད།
This is need some time for that. Usually you will receive your file OCR result in few days.

དེའི་ཆེད་དུ་དུས་ཡུན་ཏོག་ཙམ་འགོར། ནམ་རྒྱུན་ཉི་མ་ཁ་ཤས་ནང་དཔེ་ཆ་བསྒྱུར་ནས་ཕྱིར་སྐུར་གྱི་ཡོད།


Sincerely yours
Alex Stroganov

This OCR service is free for all Buddha Dharma books. At present it is OCR more then million pages for www.tbrc.org and www.dharmabook.ru libraries with support of Trace Foundation www.trace.org and many our friends from Buddhist Sangha all around the world. It is great opportunity to bow respect to our great Teachers, who inspire and guide this library development.

The key features of the OCR system include:

1. At present it is MacOS server version Tibetan, Sanskrit, Sinhala, Kannada, Latin and Cyrilic OCR.

2. Tibetan spell checker and dictionary on 359 000 words and 8.5 mln phrase list.

3. High accuracy For Tibetan books, the current recognition results are 1-3 error per 1000 characters. It is include dictionary and mixed text. On next stages of development it is need same error level on manuscripts and damaged text OCR

4. PHP and HTML based user interface. At present it is MacOS 10.8-10.9 Local version is Cocoa+PHP.

You can take a look on some OCR example

If your material is in grayscale mode and it is big, you can use this program for prepare correct black and white files of your book.

http://www.buddism.ru///ocrlib/Image2TIFF.zip

this is small and useful program for PC. It make TIFF black/white files from grayscale page scan.
It used adaptive binarisation algorithm and also page screw detector. It can convert book in batch.
So you can convert scanned on 400dpi grayscale pages and send as ZIP.

With best regards
Open Source Buddhism Library team
www.dharmabook.ru