Анализ данных в Excel. Часть 1
Рассказываем о простых функциях Excel, с которых можно начать его изучение
Для работы с данными, которые представлены в табличном формате, можно использовать программы, установленные на компьютере – Microsoft Excel или Numbers (для Mac OS). Или воспользоваться практически аналогичной по функционалу онлайн-версией Google Sheets. Панели инструментов разных версий Excel отличаются, поэтому мы покажем возможности работы с этим инструментом в Google Sheets, которые на любом компьютере выглядят одинаково.
- Для примера мы будем использовать набор данных с количеством созданных во время эпидемии коронавируса сайтов по продаже медицинских масок в русскоязычном сегменте интернета (использован в нашем материале «Дефицит доверия»).
Как устроен Excel
Пространство внутри программы похоже на лист бумаги с клетками. Каждая колонка здесь имеет свое название – по букве алфавита, а каждая строка – свой номер. У каждой ячейки есть свой адрес, который состоит из сочетания буквы столбца и номера строки – например, ячейка А1 или B2 – это чем-то похоже на игру в Морской бой. Сам файл похож на книгу со множеством листов. Нажимая на знак плюса в левом нижнем углу страницы, можно создавать новые листы, и например, помещать каждый набор данных на отдельный лист.
Импорт данных
Excel работает с различными форматами данных. Самое распространенное расширение табличного файла – это xlsx, в котором Excel по умолчанию сохраняет данные. Чтобы открыть файл в этом формате, необходимо нажать «Файл» – «Открыть» – и указать путь к файлу.
Еще одно распространенное расширение – csv. Это текстовый файл, значения в котором разделены специальными символами – например, запятыми (отсюда и название – comma-separated values) или другими. Его можно открыть в обычном Блокноте. Там можно посмотреть содержимое файла, но чтобы обрабатывать такие данные, пригодится Excel. Чтобы открыть csv, необходимо нажать «Файл» – «Импортировать» – и указать путь к файлу.
После загрузки появится меню с разделом «Тип разделителя». Обычно Google Sheets сами определяют верный тип разделителя, поэтому галочку можно оставить на опции «Определять автоматически». Если же тип разделителя определен неверно, и вместо табличного представления вы получили данные в нечитаемом виде, можно указать тип разделителя самостоятельно. Выбрать из предложенных опций или вставить свой символ в окно «Другой». Затем нажать «Импортировать данные» и «Открыть сейчас».
Предварительная работа с данными
Когда данные загружены, первым делом стоит проверить, в удобном ли для работе виде они представлены. Важно, например, проверить, есть ли у столбцов (а иногда и строк) названия, это упростит работу с данными.
Данные внутри ячеек в Excel представлены в разных форматах – в нашем примере это даты, текст или числа. Все виды форматов, с которыми работает программа, можно увидеть во вкладке меню «Формат». Перед работой с данными, стоит оценить, верно ли распознан их формат. Например, если числам придать формат текста, с ними нельзя будет производить вычисления. Менять их можно в том же разделе меню «Формат».
Затем важно оценить, хватает ли данных или их стоит преобразовать для дальнейшего анализа. Рассмотрим на нашем примере. В наборе данных с количеством новых сайтов по продаже медицинских масок есть столбец с количеством сайтов в зоне «.рф», и столбец с количеством сайтов в зоне «.ru». Нас интересует общее количество сайтов в обеих зонах. Можно добавить еще один столбец, дать ему название «.рф и .ru» и самостоятельно заполнить. Сложить значения из двух столбцов («.рф» и «.ru») нам поможет формула.
Формулы
В программе можно использовать простые математические формулы – например, сложение. Нужно активировать ячейку, которую необходимо заполнить (в нашем примере D2), и ввести =. Именно со знака равенства начинается любая формула в Excel. Затем нужно указать адрес первой ячейки, поставить +, и указать адрес второй ячейки, которую мы хотим прибавить к первой, и нажать клавишу ввода (Enter или Return). Программа сама посчитает сумму двух ячеек. В формуле можно указывать столько ячеек, сколько понадобится сложить. Сложим значения из столбцов «маск.рф» и «mask.ru». Формула будет такой: =B2+C2.
Автозаполнение ячеек
Чтобы не проделывать ту же самую операцию для каждой даты в нашем примере, можно сразу применить формулу для всего диапазона данных. Для этого существует функция автозаполнения ячеек. При выделении ячейки, в которой введена формула, в ее правом нижнем углу появится специальный символ – квадрат. Нужно его зажать, растянуть до конца таблицы и затем отпустить курсор. Тогда формула автоматически подставится в каждую ячейку нашего диапазона, и в каждой новой ячейке появится своя сумма. То же самое можно сделать быстрее: кликнуть два раза на квадрат в правом нижнем углу ячейки с формулой, и она сама растянется до конца таблицы.
Функции
В случае, когда данных много и формулу нужно применить для большого количества значений (например, посчитать общую сумму множества ячеек), можно воспользоваться функцией. В Excel существует множество функций, которые позволяют производить вычисления с данными и обрабатывать их. Весь список функций можно посмотреть здесь.
Для подсчета суммы нескольких значений, существует специальная функция СУММ. Предположим, что мы хотим посчитать сумму сайтов, созданных за весь период времени, доступный нам в данных. Введите =, а затем название функции – СУММ. Как только вы начнете вводить название функции, рядом с ней появится всплывающее окно со списком всех доступных функций, начинающихся с этих символов. Если нажать на нужную функцию из этого списка, она появится в ячейке, а после нее автоматически появится открывающая скобка.
Затем выделите курсором диапазон чисел, которые необходимо сложить, поставьте закрывающую скобку и нажмите клавишу ввода. В нашем примере функция будет выглядеть так: =СУММ(D2:D114). Этот же диапазон значений внутри скобок можно не выделять курсором, а указать вручную таким образом: адрес первой ячейки диапазона (D2), двоеточие, адрес последней ячейки диапазона (D114).
Сортировка
Сортировка позволяет переставлять записи в таблице в определенном порядке – по возрастанию или убыванию. В нашем примере даты расположены не по порядку, и если мы хотим увидеть, как ситуация с регистрацией сайтов развивалась с января по апрель, мы можем воспользоваться сортировкой.
Для этого необходимо выделить курсором всю таблицу – нажать в меню «Данные» – «Сортировать диапазон». Затем отметить галочкой «Данные со строкой заголовка» – это необходимо, чтобы заголовки остались на месте и не участвовали в сортировке. Затем выбрать, по какому показателю (или заголовку столбца) нужно отсортировать данные. В нашем случае – это «Дата». Выбрать вид сортировки: «от А до Я» (от меньшего к большему) или «от Я до А» (от большего к меньшему). В нашем примере, чтобы даты отобразились в хронологическом порядке, надо отметить «от А до Я».
Функцию сортировки можно использовать и для анализа данных. Например, нам интересно, в какой день было зарегистрировано самое большое количество сайтов по продаже медицинских масок. Для этого надо проделать те же действия, но в качестве параметра сортировки выбрать «Все сайты» и «от Я до А». Тогда максимальное количество сайтов отобразится в самом начале таблицы, и мы увидим, что пик регистрации таких сайтов пришелся на 4 апреля.
Общая информация о данных
То же самое можно узнать и другим способом. Google Sheets автоматически подсчитывают основные характеристики данных и показывают их в одном месте. Можно выделить любой участок данных – например, целый столбец с количеством сайтов – и в правом нижнем углу листа появится меню с основными показателями. Там есть сумма, среднее значение, максимум, минимум и другие значения. Этим удобно пользоваться, чтобы быстро получить предварительное представление о данных.
Фильтрация
Фильтры используют, чтобы отобразить только нужные для анализа данные, а лишние скрыть. Они же помогают извлекать из данных только те, которые соответствуют нужным критериям, что помогает при анализе. Чтобы создать фильтр, необходимо выделить таблицу, нажать в меню «Данные» – «Создать фильтр». После этого рядом с заголовками каждого столбца появятся перевернутые треугольники – это и есть меню фильтрации.
Давайте узнаем, в какие дни сайты по продаже масок не регистрировались. Нужно нажать на меню фильтрации в столбце «Все сайты». В нем мы увидим список всех значений, которые есть в наборе данных. Нажмем на «Очистить» (по умолчанию выделены все значения, а нам нужно оставить только одно) и выберем только «0». После этого таблица изменит вид, и в ней будут показаны только строки с датами, когда сайты не регистрировались. Например, мы увидим, что этого не происходило на новогодних каникулах.
Фильтрацию можно выполнять и по условиям. Давайте узнаем, в какие дни зарегистрировали больше 50 сайтов. Для этого в меню фильтрации надо выбрать «Фильтровать по условию», выбрать из списка условие «Больше» и в окно вписать значение – «50». Осталось только три даты, когда было зарегистрировано больше 50 сайтов – это первые три дня апреля.
Есть и другие примеры условий. Например, мы хотим отобразить данные только за апрель. Нажимаем в меню фильтрации столбца «Дата» «Фильтровать по условию» – «Дата после» – «Точная дата» – и вводим «31.03.2020». Отобразились данные только за апрель, и теперь можно приступать к их анализу. Например, выделить этот столбец и в правом нижнем углу листа посмотреть общую информацию о данных. Мы увидим, например, что каждый день апреля, в среднем, регистрировали 34 таких сайта.
Важно понимать, что фильтры не удаляют лишние данные из таблицы, а лишь скрывают их. Чтобы навсегда оставить данные только за апрель, их нужно сохранить как новый набор данных. Для этого можно скопировать таблицу с включенным фильтром и вставить на новый лист.
Сохранение
Google Sheets при наличии подключения к интернету самостоятельно сохраняют каждое действие и результаты работы. Если же вам понадобится сохранить обработанные данные на компьютер, это можно сделать так: выбрать в меню «Файл», нажать «Скачать» и выбрать из выпадающего меню необходимый формат – там есть как xlsx, так и csv, а также другие форматы.