Дата
Автор
Скрыт
Сохранённая копия
Original Material

Tabula


Tabula

Как быстро экспортировать таблицы из pdf в Excel или csv


Государственные органы многих стран мира любят публиковать свои данные в формате pdf. И нам, журналистам, часто приходиться эти данные анализировать. Порой процесс экспорта таблиц из pdf в Excel или csv бывает очень трудоемким и отнимает много времени. Просто представьте, сколько бы вам пришлось потратить часов и усилий на то, чтобы посчитать данные, например, в этой таблице вывоза мусора из Москвы в другие регионы.

Но благодаря таким инструментам как Tabula экспорт таблиц из pdf в удобные для анализа форматы (например, csv) превращается в очень простую и быструю задачу. Вот пошаговая инструкция (для пользователей macOS; для пользователей Windows процесс не сильно отличается).

Шаг 1: скачиваем и устанавливаем приложение

Переходим на официальный сайт Tabula. Слева — опции для скачивания: Windows, Mac, GitHub). Далее следуем инструкциям:

    выбираем Mac;

    появляется окно с загрузкой архива;

    нажимаем «ОК», ждем, когда скачается программа;

    переходим в папку «Загрузки» на компьютере, находим нужный архив (он будет называться примерно так: «tabula-mac-1.2.1.zip») и дважды по нему кликаем;

    после этого архив должен распаковаться и в той же папке «Загрузки» появится папка Tabula;

    перейдите в папку Tabula и вы увидите зеленый значок приложения Tabula

    кликните два раза по этому значку (здесь компьютер может спросить, доверять ли этому приложению, — нажмите «Открыть»);

    у вас должно открыться новое окно в браузере.

Шаг 2: загружаем файл

Не пытайтесь сразу загрузить какой-то огромный pdf файл в приложение. Потренируйтесь на более «легких» примерах. Например, на таком. Это первые две страницы той огромной схемы вывоза мусора из Москвы, о которой мы говорили в начале. Чтобы начать анализировать данные, следуйте инструкциям:

    нажмите кнопку Browse слева, у вас появится окно с выбором файла (если вы загрузили наш пример, то он находится у вас в папке «Загрузки»);

    после того как вы выбрали файл, нажмите кнопку Import справа;

    приложение начнет процесс анализа, а дальше появится такое окно.

Шаг 3: выделяем таблицы

У нас есть несколько опций выделения таблиц в файле. Самая простая — кнопка Autodetect tables. Давайте проверим, как она работает:

    нажимаем Autodetect tables, приложение должно полупрозрачным розовым цветом выделить все таблицы в файле;

    далее нажимаем на кнопку справа Preview and Export Extracted Data, после этого должно появиться окно Preview of Extracted Tabular Data с экспортированными данными.


Если в качестве примера вы использовали наш файл, то вы можете заметить, что наименования некоторых столбцов перенеслись на новые строки. Это случилось из-за того, что в оригинальном pdf файле некоторые ячейки с названиями столбцов разделены. Например, столбец с названием «Наименование объекта инфраструктуры» разделен еще на 4 части: «Перегрузка», «Сортировка», «Полигон», «Утилизация и обезвреживание».
Чтобы избежать этой ошибки, попробуем выделить таблицы в файле вручную:

    нажимаем на кнопку Revise selection(s) слева, программа возвращает нас на предыдущий этап;

    нажимаем на кнопку сверху Clear All Selections, все выбранные таблицы должны очиститься;

    Далее с помощью мыши выбираем всю таблицу, но без наименований столбцов (если у вас не получилось выбрать таблицу ровно, то вы можете подправить ее по краям);

    в правом нижнем углу появится кнопка Repeat this Selection: вы можете выбрать, применить ли ваш выбор ко всем страницам ниже или только к следующей;

    нажимаем Repeat this Selection и наш выбор должен примениться и ко всем следующим страницам;

    далее нажимаем на кнопку справа Preview and Export Extracted Data, после этого должно появиться окно Preview of Extracted Tabular Data с экспортированными данными.

Если на этом этапе ваша таблица выглядит «чистой», то мы вас поздравляем!
Если что-то экспортировалось некорректно, то попробуйте поменять метод экспорта. Слева есть две опции — Stream и Lattice. Попробуйте сменить опцию.

Шаг 4: экспортируем в Excel или csv

И теперь все, что нам осталось сделать, — экспортировать данные в удобный для анализа формат. Вверху есть окно с возможными форматами выгрузки, которое называется Export Format.

    выбираем опцию по умолчанию csv и нажимаем кнопку Export;

    у вас должно появиться окно загрузки файла, нажимаем «ОК», ждем, когда загрузится файл.

    переходим в папку «Загрузки» и открываем его с помощью любой программы по работе с таблицами (например, Excel или Numbers).

В итоге у вас должен был получиться примерно такой файл, который уже гораздо удобнее анализировать.