Рубрика «Wayback Machine»

Как поднять на виртуальном сервере собственную интернет-машину времени с помощью ArchiveBox

2025-01-10 в 15:33, admin, рубрики: self-hosted, vps, Wayback Machine, машина времени, хостинг

Всем привет, на связи PQ.Hosting! Меня зовут Игорь, начиная с 2024 года я работаю в техподдержке компании. А начиная с этого дня я еще буду писать для нашей нашей странички на Хабре ;)

Читать полностью »

На каких серверах держится Архив Интернета?

2021-03-31 в 9:22, admin, рубрики: dwdm, HAMR, hdd, Internet Archive, linux, Ubuntu, Wayback Machine, Архив Интернета, Блог компании VDSina.ru, Накопители, Серверное администрирование, термомагнитная запись, хранение данных, хранилища данных

На каких серверах держится Архив Интернета? - 1
Фото 1. Один из дата-центров Internet Archive в Сан-Франциско

Internet Archive — некоммерческая организация, которая с 1996 года сохраняет копии веб-страниц, графические материалы, видео- и аудиозаписи и программное обеспечение. Каждый может зайти в Wayback Machine и посмотреть, как выглядел Хабр в 2006 году или «Яндекс» в 1998 году, хотя загрузка архивных копий занимает около минуты (это не для реализма 90-х, а по техническим причинам, см. ниже).

Архив быстро растёт. Сейчас объём всех накопителей достиг 200 петабайт. Но Internet Archive принципиально не обращается к стороннему хостингу или облачному сервису вроде AWS. У некоммерческой организации собственные дата-центры, свои серверы и свои инженеры. Это гораздо дешевле, чем услуги AWS.
Читать полностью »

Веб-архив: импортозамещение

2020-02-21 в 20:59, admin, рубрики: Wayback Machine, Архив Интернета, интриги, информационная безопасность, копирайт, Монетизация веб-сервисов, патентование, расследования, скандалы

Понадобилось найти старую версию одного сайта. В Wayback Machine (https://archive.org/web/) версии от нужной даты не оказалось, и я решил поискать альтернативные архивы интернетов. В основном находились сервисы, реализующие идею «вы нам дайте URL, а мы его заархивируем» (типа уважаемого мной http://archive.md), то есть совсем не то, что было нужно в данный момент.

И тут вдруг находится искомое — http://web-arhive.ru/ Сначала порадовался за соотечественников, сделавших полезный сервис, но через несколько минут меня начали терзать смутные сомнения…
Читать полностью »

Почему вам больше никогда не стоит использовать Quora

2018-12-09 в 9:20, admin, рубрики: quora, Wayback Machine, вопросы, интернет архив, информационная безопасность, ответы

Почему вам больше никогда не стоит использовать Quora - 1

3 декабря сервис Quora объявил о том, что 100 млн пользовательских учётных записей оказались скомпрометированы, включая и такую их персональную активность, как минусы за комментарии и личные сообщения, благодаря действиям «злонамеренных третьих лиц».

Утечки данных – раздражающая часть жизненного цикла любого онлайн-сервиса: чем больше вырастает их популярность, тем большей целью они становятся. Почти у всех крупных онлайн-сервисов когда-нибудь находилась дыра в безопасности: Facebook, Google, Twitter, Yahoo, Tumblr, Uber, Evernote, eBay, Adobe, Target, Twitter и Sony страдали утечками данных пользователей в последние несколько лет.

Такие прорывы безопасности являются сильным аргументом для использования менеджера паролей, но их нельзя назвать убедительным аргументом против использования любимого сервиса – если только вы не собираетесь полностью отключиться от интернета.
Читать полностью »

Хранители интернета

2018-10-15 в 11:45, admin, рубрики: Internet Archive, Wayback Machine, Блог компании Philtech Initiative, хранение данных, Читальный зал

«Некоторые называют нас «Плюшкиными» — мне нравится говорить, что мы архивисты.»

Директор Wayback Machine Марк Грэм изложил масштаб всеми любимого архива

Просматриваем Wayback Machine на конференции Online News Association 2018

Остин, Техас. Как бы сильно абонентские услуги не хотели вас в этом убедить, но не все можно найти на Amazon или Netflix. Хотите, например, прочитать книгу судьи Бретта Кавано (или даже их скандально известный ежегодник)? Любопытно посмотреть кучу винтажных рекламных постеров с курением? Как насчет просмотра самой большой коллекции тибетской буддийской литературы в мире? На сегодняшний день есть одно место, где вы можете все это сделать, и это не Google или какие-то пиратские сайты, которые вы наверняка (часто) посещаете.

«У меня есть правительственное видео о том, как мыть руки или готовиться к ядерной войне, — говорит Марк Грэм, директор Wayback Machine в Internet Archive. «Мы могли бы легко составить список .ppt-файлов на всех сайтах с доменом .mil, Military Industrial PowerPoint Complex».

Грэм недавно поговорил с несколькими небольшими группами участников конференции Online News Association 2018 и Ars Technica повезло быть там. Позже он сделал полную презентацию конференции, которая теперь доступна в аудиоформате. И основная мысль заключается в том, что масштаб Internet Archive сегодня может быть так же трудно понять, как масштаб самого интернета.
Читать полностью »

Какая часть веба заархивирована

2013-01-07 в 14:06, admin, рубрики: Internet Archive, Wayback Machine, архивирование, Глубокая сеть, История ИТ, Поисковые машины и технологии, Статистика в IT, метки: Internet Archive, Wayback Machine, архивирование, Глубокая сеть

Какая часть веба заархивирована

Машина времени Internet Archive — самый большой и известный архив, который сохраняет веб-страницы с 1995 года. Кроме него существует с десяток других сервисов, которые тоже архивируют веб: это индексы поисковых систем и узкоспециализированные архивы вроде Archive-It, UK Web Archive, Web Cite, ArchiefWeb, Diigo и др. Интересно узнать, как много веб-страниц попадает в эти архивы, относительно общего числа документов в интернете?

Известно, что база Internet Archive за 2011 год содержит более 2,7 миллиарда URI, многие из них в нескольких копиях, сделанный в разные моменты времени. Например, главную страницу Хабра «сфотографировали» уже 518 раз, начиная с 3 июля 2006 года.

Известно также и то, что база ссылок Google пять лет назад перешагнула отметку в триллион уникальных URL, хотя многие документы там дублируются. Компания Google не в силах проанализировать все URL, так что компания решила считать количество документов в интернете бесконечным.
Читать полностью »

PetaBox или где живет Интернет-архив archive.org

2012-10-27 в 11:41, admin, рубрики: Internet Archive, Wayback Machine, Блог компании «ua-hosting.com.ua», интернет, ит-инфраструктура, хостинг, метки: Internet Archive, Wayback Machine, интернет

Не так давно, 25 октября 2012 года, Internet Archive (archive.org) объявил о том, что объем архивированных из Интернета сайтов превысил 10 петабайт (10 240 терабайт). Но как и где это все храниться?

Узнать некоторые подробности, а также увидеть само хранилище, Вы сможете благодаря нашему небольшому обзору. Так как Хабрасторедж временно не работает, мы были вынуждены загрузить изображение на сервер ua-hosting.com.ua. Надеюсь, что выдержим, если нет — не пинайте сильно, позже изображения загрузим как надо :)

Читать полностью »

10 000 000 000 000 000 байтов заархивировано

2012-10-26 в 20:54, admin, рубрики: Internet Archive, Wayback Machine, Восстановление данных, История ИТ, Поисковые машины и технологии, метки: Internet Archive, Wayback Machine

10 000 000 000 000 000 байтов заархивировано

25 октября активисты и сотрудники Internet Archive провели торжественную церемонию по поводу знаменательного события: архив интернета перевалил за 10 петабайт (10¹⁶ байт). Благодаря этому архиву с Машиной времени мы можем посмотреть, как выглядели знаменитые сайты много лет назад, найти сохранённые копии веб-страниц или просто восстановить свой сайт из «бесплатного бэкапа».
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «Wayback Machine»

Как поднять на виртуальном сервере собственную интернет-машину времени с помощью ArchiveBox

На каких серверах держится Архив Интернета?

Веб-архив: импортозамещение

Почему вам больше никогда не стоит использовать Quora

Хранители интернета

Директор Wayback Machine Марк Грэм изложил масштаб всеми любимого архива

Какая часть веба заархивирована

PetaBox или где живет Интернет-архив archive.org

10 000 000 000 000 000 байтов заархивировано

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «Wayback Machine»

Директор Wayback Machine Марк Грэм изложил масштаб всеми любимого архива

Новости

Актуальные темы

Архив