Настоящий курс представляет собой введение в практические инструменты разведочного анализа данных. Организация курса соответствует последовательности работы с новым набором данных. Бóльшая часть курса посвящена работе с библиотекой Pandas — наиболее популярной библиотеки для работы с данными. В первой части курса происходит знакомство с библиотекой, объектами Series и DataFrame, их основными свойствами и методами. Далее рассматриваются различные способы преобразования данных, добавление, удаление, агрегирование и объединение данных для анализа. Важная часть курса — чистка данных и работа с пропущенными значениями. В следующей части рассматриваются описательные статистики и процесс выработки и проверки гипотез о взаимосвязи данных в имеющемся наборе. Отдельно рассматриваются наборы данных, содержащих информацию о химических соединениях и способы кодирования такой информации для анализа. Параллельно закрепляются полученные в предыдущем курсе навыки визуализации данных для выработки и наглядного представления гипотез.
Предварительно необходимо прослушать курс «Визуализация научных данных: Python + Matplotlib».
Не более 24 чел.
Дополнительная информация по e-mail: CompChemMSU@gmail.com