шапито

Разработчик нанес шесть миллиардов твитов на карту

15:27, 7 декабря 2014

Изображение: Эрик Фишер / Mapbox

Разработчик Mapbox Эрик Фишер создал карту, на которую нанесено более 6,3 миллиарда твитов с прикрепленной геопозицией. Фишер собирал данные для такой карты три с половиной года, при этом объем информации в сжатом виде составляет около трех терабайт (каждый день прибавляется еще 4 гигабайта).

Изображение: Эрик Фишер / Mapbox

В блоге Фишер рассказывает о проблемах, с которыми он столкнулся в процессе визуализации такого объема данных. Из шести миллиардов твитов только 9 процентов попали на карту как отдельные точки — остальные ему пришлось отфильтровать как дублирующие.

Дублирование возникало, когда люди чекинились в Foursquare — все чекины из одного и того же места сервис помечал одинаковыми координатами. Кроме того, Фишер заметил, что геоданные с айфонов распределяются вдоль правильной сетки — предположительно, так Apple пытается скрыть настоящее местоположение своих пользователей. Разработчику пришлось отфильтровать повторяющиеся координаты, чтобы карта не выглядела сетчатой.

Изображение: Эрик Фишер / Mapbox

Если увеличить карту в Лондоне, можно увидеть, что вдоль линии нулевого меридиана нет ни одного твита — Фишер пишет, что это Twitter по какой-то причине не передает информацию о записях, сделанных в этом районе.

Изображение: Эрик Фишер / Mapbox

Посмотреть карту Фишера можно в Mapbox.