www.buddism.ru e-mail:gomde(dog)mail.ru tel 8(499)2618418
Расписание практик
YagpoOCRJan 13, 11:14
Тибетский язык содержит около 6500 базовых слогов составленных из 3500 букв также составленных из 30 графем.
Наиболее вероятными являются 1200 букв. Процесс распознавания начинается с создания базы графем.
Для этого создана кодовая таблица содержащая 4800 букв с твердым соответствием графемы и кода. На основе этой таблицы
разработан шрифт. Это позволяет ввести кодовое пространство содержащие все существующие методы набора тибетского и
осуществлять перекодировку.
Затем шрифт автоматически растрируется и создается эталонная база.
Следующим этапом является предобработка текста. На этом этапе выделяютя контура всех букв на странице методом цепочки.
Затем на основе описания контуров букв выделяются вектора. Так буква описывается набором координат начала и конца вектора.
Занем необхлдима сегментация. Это еще не сделано. В нашей программе сейчас есть только сегментация строк.
На основе сегментации строк необходимо выделить базовую линию. На основе станистики определить масштаб. В соответствии с этим
применять эталон.
Далее этап установления соответствия эталона и оригинала. Для каждлого вектора устанавливается соответствие по 6 признакам
соответствие длинны, угол, расстояние, порядок, относительная длинна, угол с соседними векторами. Суммарная корреляция по
всему эталону принимается за величину соответствия.
На следующем этапе формируется порядок прочтения букв в строке и расставляются гласные.
Затем возможен слоговый и словарный контроль.

Dear Professor.
Tibetan language contain about 6500 base syllables drawn from the 3500 letters also composed of 30 grafemas.
The most offten are the 1200 letters.
The process of OCR starts from the recognition of the establishment of the base graph.
To do this, we set up code table containing 4800 letters matched with a solid scheme and the code. On the basis of the table
designed font Yagpo. This code allows to established the space containing all the existing methods of inputing Tibetan
and conversion.
Then, the font resterised automatically and builded the base.
The next stage is the pretreatment text. At this stage we set contour all the letters on the method of chain.
Then, on the basis of the description provided letters vector units. So the letter describes a set of coordinates of the start and end of the vector.
Next segmentation is need of develop. This has not yet been done. In our program, there is now only segmentation lines.
Based on the segmentation of lines should be allocated baseline. Based on that determine the letter size. In accordance with this
apply comparison.
Next stage of comparison original and model. For every vector set match on 6 parameters
line length, angle, distance, order, the relative length with letter size, angle with neighbouring vectors. Total correlation of
accepted model for the entire amount is correlation rate.
The next phase is formed order reading letters in a row and placed vowels.
Then syllables and vocabulary can control.







Вы можете добавить свой ответ на эту страницу:;?>
Для того чтобы оставить сообщение, пожалуйста напечатайте эту тибетскую букву на русском или английском. Затем напечатайте Ваше сообщение в текстовом поле и нажмите кнопку ОК:)

Аватар:
*
Добавить фото в Ваше сообщение
или файл на эту страницу:
Выбрать файл:
*
*Не забудте напечатать тибетскую букву на русском или английском в поле рядом с картинкой буквы(Please don't forgot type tibetan letter in english in field near the letter)