Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Собрать данные портала "База данных рассекреченных дел и документов федеральных государственных архивов" (unsecret.rusarchives.ru) #26

Open
ivbeg opened this issue Jun 22, 2018 · 12 comments

Comments

@ivbeg
Copy link
Member

ivbeg commented Jun 22, 2018

Цель

На портале unsecret.rusarchives.ru размещена общедоступная база рассекреченных документов. Необходимо собрать данные из этой базы и выложить их как открытые данные.

Задача

  • выбрать язык программирования Python / R или иной, на выбор
  • написать парсер для сайта unsecret.rusarchives.ru
  • выгрузить все данные в формате CSV или JSON или XML
  • загрузить набор данных на хаб открытых данных hubofdata.ru

Требования

  • открытый исходный код в Github под свободной лицензией
  • открытые данные под лицензией Creative Commons

Пожелания

  • сделать описание к выгруженным данным. Структуры данных и набора целиком.

Оценки трудоёмкости

Ожидаемое время на задачу не более 1 дня

Вспомогательные материалы:

  • База данных рассекреченных дел и документов федеральных государственных архивов http://unsecret.rusarchives.ru

Вопросы

Вопросы можно писать на [email protected] или в комментариях к этой задаче

@ratred
Copy link

ratred commented Oct 2, 2018

Иван, подскажите пожалуйста, закончена ли эта задача? Сделал нечто подобное, но страдаю от тормознутости и падений этого unsecret.

@ivbeg
Copy link
Member Author

ivbeg commented Oct 3, 2018

@ratred увы никто за задачу не взялся, она так и висит нереализованной

@ratred
Copy link

ratred commented Oct 5, 2018

https://github.com/ratred/unsecret

Вот скрипт. Надеюсь, кто нибудь более терпеливый, чем я, докачает всё до конца. Сайт, увы, отдаёт страницы (по пять записей на страницу) минуту и дольше. Иногда падает и чтобы его подняли приходится звонить в само архивное агентство.

@ivbeg
Copy link
Member Author

ivbeg commented Oct 15, 2018

@ratred спасибо!

@ratred
Copy link

ratred commented Dec 7, 2018

Первая же попытка получить в ГАРФ документ из этой базы привела к неустранимой коллизии - опись документов находится на секретном хранении. Документ из такой описи, будь он хоть трижды рассекречен, заказать нельзя. :)

@ivbeg
Copy link
Member Author

ivbeg commented Dec 8, 2018

@ratred вот это неожиданный поворот! интересно удалось ли хоть кому-то?

@ratred
Copy link

ratred commented May 23, 2019

База, тем временем, у них снова сломалась и кажется на этот раз навсегда. :-)

@ivbeg
Copy link
Member Author

ivbeg commented May 24, 2019

База, тем временем, у них снова сломалась и кажется на этот раз навсегда. :-)

тем ценнее то успели её сохранить

@ratred
Copy link

ratred commented Aug 14, 2019

Иван, а как восстановить пароль на hubofdata, если знаешь только мэйл, с которого регался, а логин нет? Если вбивать мэйл в поле он не находит. :)

@ratred
Copy link

ratred commented Aug 14, 2019

@ratred вот это неожиданный поворот! интересно удалось ли хоть кому-то?

Нам в итоге удалось. Мы даже книжку написали. :)

@ivbeg
Copy link
Member Author

ivbeg commented Aug 14, 2019

Иван, а как восстановить пароль на hubofdata, если знаешь только мэйл, с которого регался, а логин нет? Если вбивать мэйл в поле он не находит. :)
Напишите мне email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants