ОКРЕСТНОСТИ ПЕТЕРБУРГАПутеводители Карты Краеведение Военная история Фотогалерея    Старый сайт
Начало » Санкт-Петербург » Санкт-Петербург » Адресный указатель справочника "Весь Петербург" (ищу соисполнителя/редактора)
Адресный указатель справочника "Весь Петербург" [сообщение #191388] ср, 13 декабря 2017 11:09 Переход к следующему сообщения
Александр Чернега
Коллеги, здравствуйте.

Предлагаю участие в создании адресного указателя справочников "Весь Петербург", "Весь Петроград", "Весь Ленинград".

Многим краеведам знакомы справочники "Весь Петербург", "Весь Петроград", "Весь Ленинград". Они удобны для поиска людей и организаций. Но адресных указателей в них нет. А как было бы это удобно для исследователей истории Санкт-Петербурга! Ведь для того чтобы найти всех жителей какого-либо дома сейчас надо просматривать ВСЕ справочники целиком, что сделать практически невозможно.

Посему я предлагаю создать адресный указатель в виде простого файла Excel, каждый лист которого - год. В листе всего три столбца: номер страницы, улица, дом. Всё. Больше на первом этапе точно не надо. В идеале, конечно, его стоило бы вообще переписать, но это совсем уж адская по объёму работа. Распознать автоматически пока тоже не получается. Adobe FineReader не справляется, очень много ошибок, даже со словарём "Дореволюционная орфография". Да и насколько знаю, сотрудники РНБ этот вопрос изучали и пришли к выводу, что проще сделать указатель. Что у них с успехом и получилось: http://www.nlr.ru/cont/v_p/index.php
Этим указателем предлагаю пользоваться как первоисточником.

Вчера провёл эксперимент. На обработку первых двух страниц у меня ушло 40 минут. Если в среднем тратить 20 минут на страницу, и в день работать по 6 часов, то на обработку справочника за 1894 год уйдёт 16 рабочих дней. А справочников много, один я справлюсь за пару лет. Это много. Поэтому предлагаю делать это вместе. "Краудсорсингово", так сказать

Вы можете выбирать разделы с буквами (фамилии на А за 1894 год я уже взял на себя), пишите о своём выборе мне, присылайте результаты. Я буду сводить всё в один файл, который потом выложу в открытый доступ в сеть. Если наберётся человек 10, то за два-три месяца работы указатель будет создан.

Я на экране компьютера размещаю скан справочника и документ Excel вот так:


Читаю адреса из справочника и последовательно вношу их в файл. Номер страницы ввожу только один раз. Когда заканчиваю обрабатывать страницу, то "протягиваю" номер по незаполненному первому столбцу. Таким образом, писать надо только топоним и номер дома. Переводить старые топонимы в новые, то есть "Рождественская" в "Советская", "Знаменская" в "Восстания" не надо. Пишите всё как в оригинале. Сокращения "ул." или "пр." давайте не писать. Пусть будут просто "Невский", "Гороховая", "Обводный". Вот если речь идёт о переулке, проезде - тогда да. Пишем.

Страница в таблице - это страница pdf-файла, выложенного на сайте РНБ, а не страница самого справочника. Например, фамилии на букву "Б" за 1894 год начинаются на странице 515, а не 14:
https://vivaldi.nlr.ru/bx000020002/view#page=515

Вопросы о проекте пишите мне в личку или на емайл.

Убедительно прошу не спешить, перепроверять себя. Главное - минимум ошибок, не срок выполнения задания.


Туроператор "Прогулки", СПб союз краеведов, walkspb.ru

[Обновления: ср, 13 декабря 2017 11:50]

Известить модератора

Re: Адресный указатель справочника "Весь Петербург" [сообщение #191404 является ответом на сообщение #191388] чт, 14 декабря 2017 04:50 Переход к предыдущему сообщенияПереход к следующему сообщения
Александр Олегович-1
Для непосвящённых - это халявщик!
Re: Адресный указатель справочника "Весь Петербург" [сообщение #191405 является ответом на сообщение #191404] чт, 14 декабря 2017 06:25 Переход к предыдущему сообщенияПереход к следующему сообщения
Osbourne

А кто посвященные?
Re: Адресный указатель справочника "Весь Петербург" [сообщение #191406 является ответом на сообщение #191388] чт, 14 декабря 2017 06:31 Переход к предыдущему сообщенияПереход к следующему сообщения
Slog
В любом случае - это гигантская кропотливая работа. Excel не лучший вариант, так как размер листа был ограничен ~64000 строк (возможно, теперь это не так). Но, без материального стимула выполнять такие обработки никто наверное не согласится. Все-таки наиболее перспективным мне кажется попытка распознавания, что тоже архи-сложно и затратно. Но мне кажется, что при этом процент ошибок будет таки меньше ручного волонтерского подхода. Мои знакомые когда-то занимались распознаванием дореформенных словарей для проекта Яндекс.Словари, который "погиб" из-за копирайтных проблем. Я немного участвовал в пост-обработке распознанного Словаря Академии Российской и Словаря церковно-славянского языка для загрузки в базу данных. Это была еще та работка! Хотя результаты какие-то получились http://dic.feb-web.ru/rusdict/index.htm
Но выполнялось все-это в течение нескольких лет по разным грантам, которых теперь не дают. Деньги кончились. Нет денег - нет работы.


С уважением,
slog
Re: Адресный указатель справочника "Весь Петербург" [сообщение #191413 является ответом на сообщение #191406] чт, 14 декабря 2017 22:52 Переход к предыдущему сообщенияПереход к следующему сообщения
Александр Чернега
В данном случае видны временные рамки. Группа из 10 волонтёров сможет справиться за 2,5-3 месяца. Относительно строк в одном листе. По моим подсчётам, получится порядка 45000-50000 строк за год. Так что работа не такая уж "гигантская". А результат получится впечатляющий.

Для того чтобы распознавать текст, по-моему надо пересканировать справочник, дабы качество скана было идеальным. От этого даже сама РНБ отказалась.


Туроператор "Прогулки", СПб союз краеведов, walkspb.ru
Re: Адресный указатель справочника "Весь Петербург" [сообщение #191414 является ответом на сообщение #191406] чт, 14 декабря 2017 22:56 Переход к предыдущему сообщенияПереход к следующему сообщения
Александр Чернега
Относительно оплаты. Меня очень смущает перспектива отдать это фрилансерам за деньги, так как возникнет мотивация безответственно набрать текст с ошибками. Проверять потом всё это - не меньший труд, чем писать черновик. А если за работу возьмётся человек, которому как мне сам процесс будет важен и интересен, то и отношение к результату будет совсем иное. Очень хочется надеяться, что я не один такой сумасшедший, которому интересно делать адресный указатель к справочнику.

Туроператор "Прогулки", СПб союз краеведов, walkspb.ru
Re: Адресный указатель справочника "Весь Петербург" [сообщение #191415 является ответом на сообщение #191404] чт, 14 декабря 2017 22:58 Переход к предыдущему сообщенияПереход к следующему сообщения
Александр Чернега
Так я сам тоже буду одним из волонтёров. Но делать одному - это работа на два года монотонной работы. Разделите 24 месяца на 10 человек - получится вполне терпимый отрезок времени.

Туроператор "Прогулки", СПб союз краеведов, walkspb.ru
Re: Адресный указатель справочника "Весь Петербург" [сообщение #191416 является ответом на сообщение #191406] чт, 14 декабря 2017 23:02 Переход к предыдущему сообщенияПереход к следующему сообщения
Александр Чернега
И ещё про Эксель. Это не окончательный формат. Потом легко будет сделать БД на сайте, в которую импортируются данные из экселевского файла. Результатом запроса к БД будет список ссылок на страницы справочника. Дальше только открывай их и находи людей, проживающих в нужном месте.

Туроператор "Прогулки", СПб союз краеведов, walkspb.ru
Re: Адресный указатель справочника "Весь Петербург" [сообщение #191419 является ответом на сообщение #191416] пт, 15 декабря 2017 06:46 Переход к предыдущему сообщенияПереход к следующему сообщения
Slog
Ну, как первичный ввод можно конечно использовать Ёксель. Даже в текстовом формате CSV. Я так часто делаю перед загрузкой в БД. Иметь такую базу на сайте в свободном доступе было бы великолепно.
Согласен, что для распознавания нужен качественный TIFF максимально очищенный от грязи. Это не простой процесс, требующий определенного навыка. Наверное, в РНБ попробовали и махнули рукой. Ну, может так пробовали и сразу испугались. Я попробую задать вопрос одному своему приятелю, который собаку съел на распознавании FineReader'ом словарей в дореформенной орфографии. Может не все таки безнадежно.
Подход с волонтерами кажется самым простым, но таких нужно еще поискать. Среди студентов или школьников. Примеры в истории есть, в 1913 году математик Андрей Марков из ИМп.Академии Наук СПб организовал распределенный подсчет гласных и согласных в первых главах Евгения Онегина Пушкина. Это было ему нужно для демонстрации своей теории цепей Маркова. Т.е. закона, которому подчиняются случайные последовательности каких-лиюбо событий (появления гласной или согласной буквы в его демонстрации). http://rvb.ru/soft/articles/markov_1913.pdf Волонтеры прекрасно справились, хотя кое-какие ошибки конечно сделали. Одному ему такую рутину было бы не потянуть, компутеров тогла еще не было Об этом я даже маленький очерк написал в свое время http://rvb.ru/soft/articles/eonegin_1913.htm


С уважением,
slog
Re: Адресный указатель справочника "Весь Петербург" [сообщение #191430 является ответом на сообщение #191416] пт, 15 декабря 2017 14:27 Переход к предыдущему сообщенияПереход к следующему сообщения
Slog
Предварительная экспертная оценка показала, что распознавание дает вполне приемлемые результаты. Смотри распознанную страницу 639 справочника за 1894 год в MS Word и в текстовом виде.
Если такое качество устраивает, могу поделиться детальным описанием всего процесса.
В двух словах это делается с помощью Photoshop и FineReader 12 с использованием макросов для отбелки и распрямления строк. Оцифровка одной страницы на нормальном настольном компе занимает около минуты. Мой приятель утверждает, что оцифровать весь справочник (за один год) можно где-то за неделю спокойной работы. Потом правда требуется какая-то минимальная вычитка и проверка. Ну, а потом скрипты программного анализа и указатель будет готов! Т.е. все реально.
  • Вложение: p639.jpg
    (Размер: 110.32KB, Загружено 1354 раза)
  • Вложение: p639.txt
    (Размер: 9.27KB, Загружено 305 раз)


С уважением,
slog
Re: Адресный указатель справочника "Весь Петербург" [сообщение #191431 является ответом на сообщение #191416] пт, 15 декабря 2017 15:42 Переход к предыдущему сообщения
Slog
А вот еще вариант распознавания все той же страницы (в одну колонку). С обучением и автоматической пред-обработкой.
На мой взгляд, задача перерастает просто в создание цифрового адресного справочника.


С уважением,
slog
Предыдущая тема: Городской автобус
Следующая тема: Странные вещи про Исакиевский собор
Переход к форуму:
  


Текущее время: пт мар #d 14:28:10 MSK 2024