Перейти к материалам

Библиотека Конгресса перестанет собирать все записи из твиттера. Она накопила полный архив за 12 лет!

Библиотека Конгресса с 2018 года прекратит добавлять в свой архив все без исключения публичные записи из твиттера. В сообщении библиотеки говорится, что она продолжит собирать твиты только на выборочной основе: они будут разбиты по темам и привязаны к конкретным событиями.

Принятое решение объясняется тремя обстоятельствами. Во-первых, количество записей в твиттере за последние годы радикально выросло. Во-вторых, библиотека архивирует только текст твитов, в то время как они все чаще содержат изображения, видео и ссылки. В-третьих, максимальная длина твита увеличилась вдвое.

Библиотека Конгресса копирует все публичные записи из твиттера с 2010 года. Кроме того, компания Twitter передала библиотеке архив публичных твитов с 2006 года (времени появления твиттера).

Открытого доступа к архиву Библиотека Конгресса не предоставляет. Когда доступ будет открыт, неизвестно. Собранные твиты никак не упорядочены, системы поиска по архиву нет. У библиотеки не хватает ресурсов для обработки собранной информации.

В твиттере каждую секунду публикуют около шести тысяч записей — это примерно 500 миллионов твитов в день или 200 миллиардов твитов в год.