Не так давно мы сообщали о выходе онлайн-книги, посвященной журналистике данных для онлайн-СМИ. Сегодня редакция AIN.UA предлагает вам прочесть главу из этой книги в переводе на русский язык, посвященную тем инструментам и приемам обработки информации, которой пользуются журналисты ведущих западных онлайн-медиа, изданий и блогов.

Надеемся, что многие из этих советов вы сможете применить и для своих проектов.

Lisa Evans, The Guardian:

В рамках блога Guardian Datablog  мы делаем особый упор на взаимодействие с читательской аудиторией, поэтому даем нашим читателям возможность не только просматривать уже готовую инфографику и таблицы, но и создавать свои интерактивные выборки на основе наших данных. Для этого приходится выбирать интуитивно понятные инструменты для работы с данными. Мы стараемся избегать таких плагинов и инструментов, которые требуют навыков программирования или изучения дополнительной информации.

По этой причине мы довольно часто используем в своей работе с данными продукты Google. Все массивы данных, которые предлагаются в наших таблицах и схемах, доступны также в формате таблиц Google Spreadsheet. Это значит, что любой читатель, у которого есть аккаунт от Google, может импортировать наши данные из открытого источника, и на их основе построить собственные таблицы, интерактивные графики, сравнительные диаграммы и т.п.

Для представления данных в связке с картами и диаграммами мы используем инструментарий Google Fusion. При этом мы также выкладываем в общий доступ формы и файлы в формате KML, их можно импортировать и на их основе построить новые карты с новыми слоями. Это очень удобно для читателей и журналистов, поскольку такие данные можно потом интегрировать в сторонние блоги, сайты, другие онлайн-издания.

Кроме того, для визуализации данных в повседневной практике мы также применяем tableau и ManyEyes. Ни один из инструментов не совершенен, поэтому мы комбинируем, чтобы добиться максимального удобства для наших читателей.

Cynthia O’Murchu, Financial Times:

Очень сомневаюсь, что когда-либо освою премудрости написания кода или программирование. Вообще, на мой взгляд, журналисты не должны осваивать навыки кодера для работы с данными. Но я уверена, что для них полезно в общих чертах знать, как происходит написание кода для визуализации и анализа данных, знать, на каком языке общаться с программистами, которые в издании отвечают за визуализацию предоставленной репортером информации.

При этом в процессе внедрения работы с большими массивами информации, с журналистикой данный в целом вам придется убедить своих коллег и редакторов, что журналистика данных – при условии правильной организации работы – даст вашему онлайн-СМИ больше пользы и больше читательского интереса, чем многие другие материалы; надо убедить их, что от этого можно отталкиваться, формируя новые журналистские расследования и информационные материалы.

Мой совет: освойте Excel и применяйте его поначалу в работе над какими-то несложными материалами. Начните с небольшого массива цифр и фактов; потом перейдите к обработке баз данных и графической их интерпретации. С помощью Excel можно сделать очень и очень много. Он расширит ваши возможности в журналистике фактов, в проведении собственного анализа и ведении журналистских расследований. Полезно также записаться на профильные курсу для журналистов (если таковые найдутся).

Внимательно относитесь и к тому, как вы интерпретируете. Обращайте внимание на детали. Записывайте промежуточные шаги в работе с данными, и всегда сохраняйте исходники. Также важно, чтобы в работе над аналитическими материалами был задействован не только сам репортер, но и редактор или кто-то еще, кто также проведет параллельный экспресс-анализ и с кем можно будет сверить ваши результаты.

Scott Klein, ProPublica:

Возможность применения комплексного ПО для быстрой обработки больших массивов данных и создания на базе такой информации новых постов в онлайн-СМИ – это отличительная черта нашего времени. Раньше это занимало куда больше времени; а сейчас красивые графики и диаграммы можно построить за то время, за которое обычно репортер пишет краткий отчет с места событий. Открытое ПО и новые платформы и фреймворки вроде Django и Ruby on Rails во многом помогают в реализации задач работы с данными.

Оба данных фреймворка позволяют быстро создавать новые приложения и обрабатывать данные в базах и в массивах. Коме того, здесь нет необходимости писать множество кода и осваивать сложные подходы и алгоритмы.

Для ускорения работы с веб-приложениями отлично подходят возможности “облачных” сервисов вроде Amazon Web Services. Ну и конечно, в своей работе мы используем целый набор инструментов для работы с данными: Google Refine, Microsoft Excel для работы с одними данными; SPSS и R – для статистических отчетов и анализа; ArcGIS и QGIS; Git для работы с исходным кодом; TextMate, Vim и Sublime Text как редакторы кода; а для баз данных – связку из MySQL, PostgreSQL и SQL Serve. А также мы написали собственный фрейморк JavaScript под названием “Glass”.

Cheryl Phillips, Seattle Times:

Иногда лучше всего выполнить поставленную задачу обработки данных можно при помощи самых простых инструментов: табличный процессор может вам помочь. Создание самых простых таблиц помогает структурировать данные и проследить взаимосвязи в прошлом и в настоящем по самым разнообразным событиям. Часто я созданию простые скрипты для сортировки и обработки данных. Для мощного статистического анализа и отслеживания закономерностей я использую пакет?SPSS, т.к. там есть паттерны, позволяющие накладывать информацию на географический срез.

Gregor Aisch, Open Knowledge Foundation:

Я – большой поклонник Python как языка, который легко изучить и на котором сравнительно просто писать новый код. Кроме того, у Python есть отличная база плагинов практически на каждый случай.

На мой взгляд, в перечень вещей, важных и необходимых для современного журналиста, работающего с данными, входит Django: этот веб-фреймворк позволяет обрабатывать данные в больших базах и строить на их основе веб-приложения. Для массивной интерактивной инфографики он подходит, для небольших задач – нет.

Я также использую QGis, т.к. там есть инструменты для работы с данными в географическом разрезе (работа с регионами, накладывание данных на карты и т.п.), по нему достаточно много руководств пользователя есть в онлайн-пространстве.

R подходит как научный инструмент для создания визуализаций. Он подходит для универсального анализа данных. Единственный недостаток – это то, что у R действует свой язык программирования, так что для использования данного пакета вам придется его изучить.

Связка NumPy + MatPlotLib поможет тем, у кого хорошо с программированием на Python. Но следует учесть, что здесь используются статические, а не динамические визуализации. Еще я сам не использую, но многие хвалят такой инструмент, как MapBox (на базе карт OpenStreetMap). Есть еще своего рода дополнение к нему – это Leaflet (в нем можно переключаться между поставщиками карт для визуализации данных с географической привязкой).

Steve Doig, Walter Cronkite School of Journalism of Arizona State University:

Мой основной инструмент для работы с данными – это Excel, его хватает для решения большинства задач, связанных с обработкой и анализом данных. Для слияния таблиц я использую Access, но потом готовые данные из баз всё равно экспортирую в Excel. Для визуализации и наложения данных на карты применяю ESRI ArcMap. Для использования данных в слоях и срезах хорошо подходит TextWrangle. Для подсчетов вроде линейной регрессии и построения статистических прогнозов по собранным данным применяю SPSS. Ну а когда речь заходит о фильтрации данные и программировании переменных результатов, на помощь приходит По от SAS.

Brian Boyer, Chicago Tribune:

Наши инструменты основаны на Python и Django. С данными помогают “поиграться” PostGIS, QGIS и MapBox. Комбинация из R и NumPy + MatPlotLib подходит идеально для исследовательского анализа и прогнозов. А еще мы используем доморощенных набор инструментов CSVKit. Большую часть работы с данными и их визуализацией мы стараемся перенести в “облако”.

Ang?lica Peralta Ramos, La Nacion (Argentina)

Мы  используем Excel для отбора, организации и анализа информации. Также пользуемся Google Spreadsheets для публикации таблиц и построения интерактивных графиков на основе Google Fusion Tables и Junar Open Data Platform. Для вставки массивов данных и графиков в блоги, посты и статьи используем Junar. Интерактивные графики нам помогает строить Tableau Public. Аналитика и фильтры обеспечены для больших массивов данных при помощи Qlikview. Чтобы сконвертировать таблицы и тексты, применяем конвертор NitroPDF. А на карты данные наносим при участии Google Fusion Tables.

Pedro Markun, Transpar?ncia Hacker

У нас используется множество различных инструментов и много разных языков программирования. Для своей работы мы даже создали собственный дистрибутив для горячего подключения и работы с диска Transparency Hacker Linux Distribution. В него включены инструменты для работы с данными, такие как Refine, RStudio и OpenOffice Calc. Также мы применяем Scraperwiki для хранения данных онлайн.

В работе с инфографикой и различными формами визуализации данных используем приложения на базе Python и NumPy, также – инструменты и фреймворки R, d3, Flot, RaphaelJS. Карты и геоинформацию строим с помощью Tilemill.

Источник: Data Journalism Handbook