Table Capture: cкрейпим сайты без программирования

Как быстро собрать данные с сайтов в удобную таблицу с помощью расширения для браузера

Дата
9 сент. 2020
Table Capture: cкрейпим сайты без программирования

Сбор данных — это один из важнейших этапов в работе над материалом. Даже для самой блестящей идеи для текста нужны данные. В случае, когда у нас нет готового датасета или мы не доверяем ему по каким-то причинам, мы можем собрать данные сами. И для этого не всегда требуется навык программирования. Достаточно найти сайт с нужной нам информацией и уметь пользоваться некоторыми полезными расширениями для браузера «Chrome». Одно из таких полезных расширений — «Table Capture».

Видео: Глеб Лиманский

Для начала его нужно установить через интернет-магазин «Chrome». В поисковой строке пишем «Table Capture» и выбираем первый же вариант в выдаче, кликаем «Установить». После этого расширение лучше сделать закрепленным в панели, чтобы с ним было удобнее работать. 

«Table Capture» отлично распознает таблицы на странице. Вот пример статьи из Википедии про Олимпийские игры. На странице очень много разных таблиц, «Table Capture» все их распознает и в меню вы можете выбрать нужную вам таблицу. Бесплатная версия позволяет скопировать ее в буфер обмена и после этого вы можете вставить таблицу в »Numbers» или «Excel». Или вы можете сразу создать файл с вашими данными в Гугл.Таблицах. 

Но не всегда данные лежат в таком удобном табличном виде, иногда они могут храниться в виде списков, которые вам хотелось бы проанализировать. Пример такого списка — это ТОР-250 фильмов на сайте Кинопоиска. Допустим, вы хотите что-то проанализировать в этих данных. Как таблицу их Table Capture не может. Но вы можете выделить, например, название одного из фильмов и кликнуть по нему правой кнопкой мыши, выбрать «Table Capture — Launch workshop for selection».

У вас появится оранжевая рамочка вокруг имени фильма, но нам надо, чтобы весь список фильмов был выделен такой рамкой. Поэтому мы кликаем на Select parent» до тех пор, пока рамка не расширится на весь список. 

Но если мы пролистнем в самый конец списка, то увидим, что тут только 30 фильмов, а чтобы увидеть остальные нужно кликать по страницам. Чтобы собрать данные с этих страниц не нужно каждый раз проделывать все заново. Достаточно кликнуть на кнопку «Paged tables» и просто кликать по страницам. Вы увидите, как количество строк растет, значит расширение успешно собирает для вас данные. 

Также есть ситуации, когда страница при скролле вниз просто генерируется автоматически: вы скроллите вниз и подгружаются новые данные. И эту проблему «Table Capture» тоже может решить. Один из примеров таких страниц — лента РИА Новостей. Допустим, вам для чего-то нужно проанализировать заголовки новостей провластного издания. И чтобы подгружающиеся при скролле новости тоже собирались в вашу табличку вам нужно кликнуть на кнопку «Dynamic tables». 

К сожалению, «Table Capture» может справиться не с каждым сайтом и не с каждой задачей. Тут вас могут выручить другие расширения для скрейпинга или программирование, о котором мы будем рассказывать уже совсем скоро.

Подписывайтесь на рассылку «Мастерской»
И вы узнаете о крутых инструментах для сбора, анализа и визуализации данных

Чтобы не пропускать новые выпуски «Мастерской», подписывайтесь на нашу рассылку (в ней еще много чего интересного из мира дата-журналистики и помимо наших уроков!), а также на канал на Youtube и канал в Telegram. У Telegram-канала есть уютный чат, где вы можете задавать вопросы, что-то предлагать или просто поболтать с нами. Stay tuned!