среда, 28 декабря 2011 г.

Настал и наш черед вознестись в «облака»

«Архивы – память общины» периодически скачивает сайты бахаи и помещает их в архив. В этот раз впервые для размещения архива сайтов использовано «облачное» хранилище – сервис удаленного сохранения данных.

В целом же, архив сайтов бахаи пополнился новыми коллекциями и стал более подробно описанным. Наша коллекция увеличилась почти в два раза. А занимаемый ее объем возрос в 3 раза. (Это не показатель возросшего количества сайтов, просто в этот раз мы большее количество сайтов поместили в архив.)

Несколько слов о методике сохранения: помимо обычного скачивания сайтов и помещения их в архив, мы сохраняли главные страницы сайтов в интернет-архиве WebCite® и сохраняли эти же страницы в формате PDF. Кроме этого, при помощи браузерного расширения FireShot делались снимки заглавных страниц сайтов и сохранялись в формате PNG. Эти же страницы сохранялись и в виде MHTML файлов. Для ряда сайтов указывали данные из Whois сервиса, такие как дата приобретения доменного имени и срок действия.


Проблемы при архивировании сайтов бахаи, в общем-то, все те же, что и при архивировании любых сайтов. Нет гарантии, что сайт полностью копируется и его локальная версия будет полностью рабочей, особенно, на различных браузерах. Практически нет никакого архивного описания сайтов. Сохраняется только минимальный набор метаданных. Некоторые сайты теперь стали использовать и кириллические символы в адресах веб-ссылок. А это иногда вводит в заблуждение программы копирования. 

В случае, когда два сайта тесно связанны, возникают сложности с определением того, какой из них является основным, а какой второстепенным. Есть примеры, когда с сайта осуществляется автоматическое перенаправление или когда больше половины заявленных ресурсов одного сайта находятся на другом сайте, того же автора.

В то время, как многие, если не большинство, этих проблем свойственны отрасли в целом и недостаточному финансированию проекта, некоторые моменты можно было бы исправить уже сейчас. Например, владельцы сайтов могли бы предоставить в службу "Архивы – память общины" хотя бы минимальную информацию о своих сайтах. В частности, оказалась бы очень полезной информация о том, когда, кем и с какой целью создан сайт. 


Сохраненные сайты нуждаются в описании как для создания научно-справочного аппарата, так и для помещения их в правильный исторический контекст. Пожалуйста, если вы располагаете какой-нибудь информацией или просто историей или фотографией, имеющими отношение к тому или иному сайту, поделитесь с нами!

2 комментария:

Alexandra комментирует...

А богатый материал портала bahai.su сохранить не удалось?
Или я чего-то не поняла из этой статьи и сами материалы сайтов не сохраняются?

Archivarius комментирует...

Сайты полностью скачиваются и сохраняются со всеми содержащимися на них материалами. Портал бахаи bahai.su последний раз помещался в архив 19/12/2010. Соответственно, имеется его копия по состоянию на тот период.