?

Log in

No account? Create an account

Previous Entry | Next Entry

OCR

Никто из моих френдов-программистов случайно не занимается Optical Character Recognition?

Comments

( 20 comments — Leave a comment )
eliratus
Jul. 16th, 2013 07:25 pm (UTC)
именно character? простой pattern recognition не подойдет?
e_f
Jul. 16th, 2013 07:44 pm (UTC)
Илюха, ты используешь слишком много умных слов :) Давай я тебе опишу проблему: есть текст на дореформенном русском. Примерно вот такой: http://books.google.com/books?id=JcczAQAAIAAJ&printsec=frontcover&source=gbs_ge_summary_r&cad=0#v=onepage&q&f=false

Стандартные OCR программы которые распознают современный русский его не берут. Я хочу узнать реально ли это заказать модификацию программы которая будет распознавать не только современный алфавит но "яти" и т.д., сколько это может стоить и с кем лучше всего на эту тему говорить. Я готовлю заявку на большой грант, и поэтому пытаюсь понять какой бюджет просить
eliratus
Jul. 16th, 2013 09:12 pm (UTC)
Гм... неужели нет готовых OCR программ для ятей и ижиц? Судя по тому, что есть всяческие учебники старословянского языка с отсканированными текстами, должон быть..

Если же вдруг нету... Имея исходники программы, дописать туда распознавание несколько лишних букв, насколько я понимаю, проблема небольшая. Скажем своим бы я аналогичную задачу решил бы бесплатно за день-два.

Если же нет исходников, проблема весьма нетривиальная.

e_f
Jul. 16th, 2013 11:22 pm (UTC)
Понятно, спасибо! И за ссылку комментом ниже тоже спасибо. Сейчас будем проверять как оно работает
lazy_elk
Jul. 16th, 2013 08:15 pm (UTC)
По сабжу не знаю, но как всё интересно у тебя. А Грант проси побольше-побольше (даже Айфон с заглавной буквы слово Грант выделяет. Чует, зараза, что надо просить по-крупному).
e_f
Jul. 16th, 2013 11:25 pm (UTC)
Ты необьективна :) Но в общем да, если можно получать деньги делая то, что интересно, то зачем делать то, что неинтересно? А по этой конкретной теме -- у вас в шушенском коллега твоего мужа с этой книгой провел гораздо больше часов, чем я. Но, думаю, к концу года я его обгоню
lazy_elk
Jul. 17th, 2013 12:09 am (UTC)
Aye-aye, am biased but not ashamed! А просить надо всегда по максимуму. Универ себе процентов 30 заберет, туда-сюда, и ничо не останется, кроме воспоминания и названия.

В под коллегой ты имеешь в виду Стива? А где это вы с ним за архивы дрались пересеклись? ;-)
e_f
Jul. 17th, 2013 02:18 am (UTC)
Заберет, конечно, куда ж я денусь. На то он и универ. У нас, кстати, берут очень немного, поощряют подачу на гранты.

Со Стивом (ну а кто еще это может быть в вашем шушенском?) я еще лично не пересекался, познакомлюсь, если всё будет нормально, осенью. Но мир тесен, прослойка тонка, а людей которые интересуются крепостными очень немного :) Так что мы пока только по мейлу общаемся.
lazy_elk
Jul. 17th, 2013 12:41 pm (UTC)
Шушенское снимает 40% пенок. А так тоже encourage типа. Браун берет столько же. И им пофиг, компьютер-медицина-физика, или бедные антропА-социолухи. Так что Грант получил, раз-другой за хлебом сходил, и фсе. Красивая строчка в сиви осталась.

А что это тебя в век 19 откинуло? Вроде бы ж ты попозднее исследовал?
e_f
Jul. 18th, 2013 12:33 am (UTC)
40% это много. Если я получу, я даже смогу сказать тебе сколько у нас.

19 это не рано. У меня и 17-й есть в pipeline. Ты ведь знаешь академическое деление на лис и ежей. Так вот, по сравнению со мной, большинство лис -- закостенелые ежи :) Мне заниматься одним периодом и одной темой просто скучно. Поэтому из меня хороший историк и не получится. Но так как я политолог, то мне и не слишком надо
lazy_elk
Jul. 18th, 2013 02:14 am (UTC)
Удачи! Буду держать кулаки, шоб всё получилось.

Ух ты, 17 гришь? Интересно!
e_f
Jul. 18th, 2013 02:22 am (UTC)
Псиб! Получится -- хорошо, не получится так тоже не страшно. Tenure мне не на основании грантов давать/не давать будут.

17, грю И даже немного раньше. А после tenure я вообще хочу в преисторию удариться. Ну, что-то политика пещерного человека :)
lazy_elk
Jul. 18th, 2013 02:54 am (UTC)
Преистория, да… знаю я одного товарища (близкого родственника). Его вот тоже от исхода из Африки, до неолита и вплоть до индустриальной революции торкает. Мечется меж эпох, про конфликты рассказывает и этичность. Да, тут есть в чем собачке порыться ;-)
e_f
Jul. 18th, 2013 03:43 am (UTC)
Исход евреев из Египта из Африки, генетику и прочие веселые темы я оставлю твоему родственнику :) Кстати, ты его на ASN привозишь? Я бы с ним с удовольствием познакомился. Опять же, я про конфликты всякое разное знаю.
lazy_elk
Jul. 18th, 2013 03:37 pm (UTC)
У него там не только генетика. Они тепереча на civil conflict смотрят. Оч интересно. Предварительные тезисы уже чуть подрасписали, но главный текст к сентябрю должен быть в working papers. Родственник как раз вчера доклад в NBER делал. Одним словом, как ренегад-антрополог рекомендую (и поддерживаю).

Про АСН не знаю. Весенний семестр у нас ожидается непредсказуемо интересненький. Даже я еще не скажу, появлюсь ли лично. Но мы в ваши места собираемся во второй половине октября. Родственник в Жорже Мейсоне докладать будет, а потом мы друзей навещать в около ДиСи будем.
e_f
Jul. 18th, 2013 03:48 pm (UTC)
Ну civil conflict это совсем моя эпархия, говорю тебе как мать и как женщина как быший Йелевский Order, Conflict and Violence Fellow. Октябрь это хорошо. Ты ведь если что знаешь где меня найти, так? А в Бостоне на AAASS или как ее теперь там, ты будешь?


Edited at 2013-07-18 03:48 pm (UTC)
profi
Jul. 17th, 2013 06:16 am (UTC)
Обратитесь в ABBYY напрямую. Если кто что и знает твердо по этой теме, то это точно они. Уверен, что соотвествующий вариант Fine Reader просто существует. Их страничка языков подтверждает мою уверенность: там фигурирует русский (старая орфография)
e_f
Jul. 17th, 2013 12:27 pm (UTC)
Фигурировать он может и фигурирует, а вот работать -- не работает. Ну как минимум с текстом по ссылке выше не работает
profi
Jul. 17th, 2013 12:36 pm (UTC)
Реклама и жизнь. :-) Но Вы в самом деле их спросите, может быть они знают, как подстроить систему.
( 20 comments — Leave a comment )