
Государственные органы многих стран мира любят публиковать свои данные в формате pdf. И нам, журналистам, часто приходиться эти данные анализировать. Порой процесс экспорта таблиц из pdf в Excel или csv бывает очень трудоемким и отнимает много времени. Просто представьте, сколько бы вам пришлось потратить часов и усилий на то, чтобы посчитать данные, например, в этой таблице вывоза мусора из Москвы в другие регионы.
Но благодаря таким инструментам как Tabula экспорт таблиц из pdf в удобные для анализа форматы (например, csv) превращается в очень простую и быструю задачу. Вот пошаговая инструкция (для пользователей macOS; для пользователей Windows процесс не сильно отличается).
Шаг 1: скачиваем и устанавливаем приложение
Переходим на официальный сайт Tabula. Слева — опции для скачивания: Windows, Mac, GitHub). Далее следуем инструкциям:
- выбираем Mac;
- появляется окно с загрузкой архива;
- нажимаем «ОК», ждем, когда скачается программа;
- переходим в папку «Загрузки» на компьютере, находим нужный архив (он будет называться примерно так: «tabula-mac-1.2.1.zip») и дважды по нему кликаем;
- после этого архив должен распаковаться и в той же папке «Загрузки» появится папка Tabula;
- перейдите в папку Tabula и вы увидите зеленый значок приложения Tabula
- кликните два раза по этому значку (здесь компьютер может спросить, доверять ли этому приложению, — нажмите «Открыть»);
- у вас должно открыться новое окно в браузере.

Шаг 2: загружаем файл
Не пытайтесь сразу загрузить какой-то огромный pdf файл в приложение. Потренируйтесь на более «легких» примерах. Например, на таком. Это первые две страницы той огромной схемы вывоза мусора из Москвы, о которой мы говорили в начале. Чтобы начать анализировать данные, следуйте инструкциям:
- нажмите кнопку Browse слева, у вас появится окно с выбором файла (если вы загрузили наш пример, то он находится у вас в папке «Загрузки»);
- после того как вы выбрали файл, нажмите кнопку Import справа;
- приложение начнет процесс анализа, а дальше появится такое окно.

Шаг 3: выделяем таблицы
У нас есть несколько опций выделения таблиц в файле. Самая простая — кнопка Autodetect tables. Давайте проверим, как она работает:
- нажимаем Autodetect tables, приложение должно полупрозрачным розовым цветом выделить все таблицы в файле;
- далее нажимаем на кнопку справа Preview and Export Extracted Data, после этого должно появиться окно Preview of Extracted Tabular Data с экспортированными данными.
Если в качестве примера вы использовали наш файл, то вы можете заметить, что наименования некоторых столбцов перенеслись на новые строки. Это случилось из-за того, что в оригинальном pdf файле некоторые ячейки с названиями столбцов разделены. Например, столбец с названием «Наименование объекта инфраструктуры» разделен еще на 4 части: «Перегрузка», «Сортировка», «Полигон», «Утилизация и обезвреживание».
Чтобы избежать этой ошибки, попробуем выделить таблицы в файле вручную:
- нажимаем на кнопку Revise selection(s) слева, программа возвращает нас на предыдущий этап;
- нажимаем на кнопку сверху Clear All Selections, все выбранные таблицы должны очиститься;
- Далее с помощью мыши выбираем всю таблицу, но без наименований столбцов (если у вас не получилось выбрать таблицу ровно, то вы можете подправить ее по краям);
- в правом нижнем углу появится кнопка Repeat this Selection: вы можете выбрать, применить ли ваш выбор ко всем страницам ниже или только к следующей;
- нажимаем Repeat this Selection и наш выбор должен примениться и ко всем следующим страницам;
- далее нажимаем на кнопку справа Preview and Export Extracted Data, после этого должно появиться окно Preview of Extracted Tabular Data с экспортированными данными.

Если на этом этапе ваша таблица выглядит «чистой», то мы вас поздравляем!
Если что-то экспортировалось некорректно, то попробуйте поменять метод экспорта. Слева есть две опции — Stream и Lattice. Попробуйте сменить опцию.
Шаг 4: экспортируем в Excel или csv
И теперь все, что нам осталось сделать, — экспортировать данные в удобный для анализа формат. Вверху есть окно с возможными форматами выгрузки, которое называется Export Format.
- выбираем опцию по умолчанию csv и нажимаем кнопку Export;
- у вас должно появиться окно загрузки файла, нажимаем «ОК», ждем, когда загрузится файл.
- переходим в папку «Загрузки» и открываем его с помощью любой программы по работе с таблицами (например, Excel или Numbers).
В итоге у вас должен был получиться примерно такой файл, который уже гораздо удобнее анализировать.