
Всем привет, на связи PQ.Hosting! Меня зовут Игорь, начиная с 2024 года я работаю в техподдержке компании. А начиная с этого дня я еще буду писать для нашей нашей странички на Хабре ;)
Всем привет, на связи PQ.Hosting! Меня зовут Игорь, начиная с 2024 года я работаю в техподдержке компании. А начиная с этого дня я еще буду писать для нашей нашей странички на Хабре ;)
Фото 1. Один из дата-центров Internet Archive в Сан-Франциско
Internet Archive — некоммерческая организация, которая с 1996 года сохраняет копии веб-страниц, графические материалы, видео- и аудиозаписи и программное обеспечение. Каждый может зайти в Wayback Machine и посмотреть, как выглядел Хабр в 2006 году или «Яндекс» в 1998 году, хотя загрузка архивных копий занимает около минуты (это не для реализма 90-х, а по техническим причинам, см. ниже).
Архив быстро растёт. Сейчас объём всех накопителей достиг 200 петабайт. Но Internet Archive принципиально не обращается к стороннему хостингу или облачному сервису вроде AWS. У некоммерческой организации собственные дата-центры, свои серверы и свои инженеры. Это гораздо дешевле, чем услуги AWS.
Читать полностью »
Понадобилось найти старую версию одного сайта. В Wayback Machine (https://archive.org/web/) версии от нужной даты не оказалось, и я решил поискать альтернативные архивы интернетов. В основном находились сервисы, реализующие идею «вы нам дайте URL, а мы его заархивируем» (типа уважаемого мной http://archive.md), то есть совсем не то, что было нужно в данный момент.
И тут вдруг находится искомое — http://web-arhive.ru/ Сначала порадовался за соотечественников, сделавших полезный сервис, но через несколько минут меня начали терзать смутные сомнения…
Читать полностью »
3 декабря сервис Quora объявил о том, что 100 млн пользовательских учётных записей оказались скомпрометированы, включая и такую их персональную активность, как минусы за комментарии и личные сообщения, благодаря действиям «злонамеренных третьих лиц».
Утечки данных – раздражающая часть жизненного цикла любого онлайн-сервиса: чем больше вырастает их популярность, тем большей целью они становятся. Почти у всех крупных онлайн-сервисов когда-нибудь находилась дыра в безопасности: Facebook, Google, Twitter, Yahoo, Tumblr, Uber, Evernote, eBay, Adobe, Target, Twitter и Sony страдали утечками данных пользователей в последние несколько лет.
Такие прорывы безопасности являются сильным аргументом для использования менеджера паролей, но их нельзя назвать убедительным аргументом против использования любимого сервиса – если только вы не собираетесь полностью отключиться от интернета.
Читать полностью »
«Некоторые называют нас «Плюшкиными» — мне нравится говорить, что мы архивисты.»
Просматриваем Wayback Machine на конференции Online News Association 2018
Остин, Техас. Как бы сильно абонентские услуги не хотели вас в этом убедить, но не все можно найти на Amazon или Netflix. Хотите, например, прочитать книгу судьи Бретта Кавано (или даже их скандально известный ежегодник)? Любопытно посмотреть кучу винтажных рекламных постеров с курением? Как насчет просмотра самой большой коллекции тибетской буддийской литературы в мире? На сегодняшний день есть одно место, где вы можете все это сделать, и это не Google или какие-то пиратские сайты, которые вы наверняка (часто) посещаете.
«У меня есть правительственное видео о том, как мыть руки или готовиться к ядерной войне, — говорит Марк Грэм, директор Wayback Machine в Internet Archive. «Мы могли бы легко составить список .ppt-файлов на всех сайтах с доменом .mil, Military Industrial PowerPoint Complex».
Грэм недавно поговорил с несколькими небольшими группами участников конференции Online News Association 2018 и Ars Technica повезло быть там. Позже он сделал полную презентацию конференции, которая теперь доступна в аудиоформате. И основная мысль заключается в том, что масштаб Internet Archive сегодня может быть так же трудно понять, как масштаб самого интернета.
Читать полностью »
Машина времени Internet Archive — самый большой и известный архив, который сохраняет веб-страницы с 1995 года. Кроме него существует с десяток других сервисов, которые тоже архивируют веб: это индексы поисковых систем и узкоспециализированные архивы вроде Archive-It, UK Web Archive, Web Cite, ArchiefWeb, Diigo и др. Интересно узнать, как много веб-страниц попадает в эти архивы, относительно общего числа документов в интернете?
Известно, что база Internet Archive за 2011 год содержит более 2,7 миллиарда URI, многие из них в нескольких копиях, сделанный в разные моменты времени. Например, главную страницу Хабра «сфотографировали» уже 518 раз, начиная с 3 июля 2006 года.
Известно также и то, что база ссылок Google пять лет назад перешагнула отметку в триллион уникальных URL, хотя многие документы там дублируются. Компания Google не в силах проанализировать все URL, так что компания решила считать количество документов в интернете бесконечным.
Читать полностью »
Не так давно, 25 октября 2012 года, Internet Archive (archive.org) объявил о том, что объем архивированных из Интернета сайтов превысил 10 петабайт (10 240 терабайт). Но как и где это все храниться?
Узнать некоторые подробности, а также увидеть само хранилище, Вы сможете благодаря нашему небольшому обзору. Так как Хабрасторедж временно не работает, мы были вынуждены загрузить изображение на сервер ua-hosting.com.ua. Надеюсь, что выдержим, если нет — не пинайте сильно, позже изображения загрузим как надо :)
25 октября активисты и сотрудники Internet Archive провели торжественную церемонию по поводу знаменательного события: архив интернета перевалил за 10 петабайт (1016 байт). Благодаря этому архиву с Машиной времени мы можем посмотреть, как выглядели знаменитые сайты много лет назад, найти сохранённые копии веб-страниц или просто восстановить свой сайт из «бесплатного бэкапа».
Читать полностью »