| Re: Адресный указатель справочника "Весь Петербург" [сообщение #191419 является ответом на сообщение #191416] |
пт, 15 декабря 2017 06:46   |
|
|
Ну, как первичный ввод можно конечно использовать Ёксель. Даже в текстовом формате CSV. Я так часто делаю перед загрузкой в БД. Иметь такую базу на сайте в свободном доступе было бы великолепно.
Согласен, что для распознавания нужен качественный TIFF максимально очищенный от грязи. Это не простой процесс, требующий определенного навыка. Наверное, в РНБ попробовали и махнули рукой. Ну, может так пробовали и сразу испугались. Я попробую задать вопрос одному своему приятелю, который собаку съел на распознавании FineReader'ом словарей в дореформенной орфографии. Может не все таки безнадежно.
Подход с волонтерами кажется самым простым, но таких нужно еще поискать. Среди студентов или школьников. Примеры в истории есть, в 1913 году математик Андрей Марков из ИМп.Академии Наук СПб организовал распределенный подсчет гласных и согласных в первых главах Евгения Онегина Пушкина. Это было ему нужно для демонстрации своей теории цепей Маркова. Т.е. закона, которому подчиняются случайные последовательности каких-лиюбо событий (появления гласной или согласной буквы в его демонстрации). http://rvb.ru/soft/articles/markov_1913.pdf Волонтеры прекрасно справились, хотя кое-какие ошибки конечно сделали. Одному ему такую рутину было бы не потянуть, компутеров тогла еще не было Об этом я даже маленький очерк написал в свое время http://rvb.ru/soft/articles/eonegin_1913.htm
С уважением,
slog
|
|
|
|