Государственные органы многих стран мира любят публиковать свои данные в формате pdf. И нам, журналистам, часто приходиться эти данные анализировать. Порой процесс экспорта таблиц из pdf в Excel или csv бывает очень трудоемким и отнимает много времени. Просто представьте, сколько бы вам пришлось потратить часов и усилий на то, чтобы посчитать данные, например, в этой таблице вывоза мусора из Москвы в другие регионы.   

Но благодаря таким инструментам как Tabula экспорт таблиц из pdf в удобные для анализа форматы (например, csv) превращается в очень простую и быструю задачу. Вот пошаговая инструкция (для пользователей macOS; для пользователей Windows процесс не сильно отличается).  

Шаг 1: скачиваем и устанавливаем приложение 

Переходим на официальный сайт Tabula. Слева — опции для скачивания: Windows, Mac, GitHub). Далее следуем инструкциям:

  • выбираем Mac;
  • появляется окно с загрузкой архива;
  • нажимаем «ОК», ждем, когда скачается программа;
  • переходим в папку «Загрузки» на компьютере, находим нужный архив (он будет называться примерно так: «tabula-mac-1.2.1.zip») и дважды по нему кликаем;
  • после этого архив должен распаковаться и в той же папке «Загрузки» появится папка Tabula; 
  • перейдите в папку Tabula и вы увидите зеленый значок приложения Tabula
  • кликните два раза по этому значку (здесь компьютер может спросить, доверять ли этому приложению, — нажмите «Открыть»);
  • у вас должно открыться новое окно в браузере.

Шаг 2: загружаем файл

Не пытайтесь сразу загрузить какой-то огромный pdf файл в приложение. Потренируйтесь на более «легких» примерах. Например, на таком. Это первые две страницы той огромной схемы вывоза мусора из Москвы, о которой мы говорили в начале. Чтобы начать анализировать данные, следуйте инструкциям:

  • нажмите кнопку Browse слева, у вас появится окно с выбором файла (если вы загрузили наш пример, то он находится у вас в папке «Загрузки»);       
  • после того как вы выбрали файл, нажмите кнопку Import справа;
  • приложение начнет процесс анализа, а дальше появится такое окно.   

Шаг 3: выделяем таблицы 

У нас есть несколько опций выделения таблиц в файле. Самая простая — кнопка Autodetect tables. Давайте проверим, как она работает: 

  • нажимаем Autodetect tables, приложение должно полупрозрачным розовым цветом выделить все таблицы в файле; 
  • далее нажимаем на кнопку справа Preview and Export Extracted Data, после этого должно появиться окно Preview of Extracted Tabular Data с экспортированными данными. 

Если в качестве примера вы использовали наш файл, то вы можете заметить, что наименования некоторых столбцов перенеслись на новые строки. Это случилось из-за того, что в оригинальном pdf файле некоторые ячейки с названиями столбцов разделены. Например, столбец с названием «Наименование объекта инфраструктуры» разделен еще на 4 части: «Перегрузка», «Сортировка», «Полигон», «Утилизация и обезвреживание». 

Чтобы избежать этой ошибки, попробуем выделить таблицы в файле вручную:

  • нажимаем на кнопку Revise selection(s) слева, программа возвращает нас на предыдущий этап;
  • нажимаем на кнопку сверху Clear All Selections, все выбранные таблицы должны очиститься;
  • Далее с помощью мыши выбираем всю таблицу, но без наименований столбцов (если у вас не получилось выбрать таблицу ровно, то вы можете подправить ее по краям);
  • в правом нижнем углу появится кнопка Repeat this Selection: вы можете выбрать, применить ли ваш выбор ко всем страницам ниже или только к следующей;
  • нажимаем Repeat this Selection и наш выбор должен примениться и ко всем следующим страницам; 
  • далее нажимаем на кнопку справа Preview and Export Extracted Data, после этого должно появиться окно Preview of Extracted Tabular Data с экспортированными данными. 

Если на этом этапе ваша таблица выглядит «чистой», то мы вас поздравляем! 

Если что-то экспортировалось некорректно, то попробуйте поменять метод экспорта. Слева есть две опции — Stream и Lattice. Попробуйте сменить опцию. 

Шаг 4: экспортируем в Excel или csv      

И теперь все, что нам осталось сделать, — экспортировать данные в удобный для анализа формат. Вверху есть окно с возможными форматами выгрузки, которое называется Export Format. 

  • выбираем опцию по умолчанию csv и нажимаем кнопку Export;
  • у вас должно появиться окно загрузки файла, нажимаем «ОК», ждем, когда загрузится файл. 
  • переходим в папку «Загрузки» и открываем его с помощью любой программы по работе с таблицами (например, Excel или Numbers). 

В итоге у вас должен был получиться примерно такой файл, который уже гораздо удобнее анализировать.