Python 101:Python数据科学简介
#初学者 #python #datascience #dataanalysis

Python logo

python定义

Python是一种解释的高级,通用的编程语言。它是由Guido Van Rossum于1991年首次发行的,此后已成为世界上最受欢迎的编程语言之一。它的语法使其很容易学习和使用。

Python用于数据分析的优势

有几种数据分析首选编程语言,包括R,Stata和SAS。

python与其他人相比要好:

  1. 这很容易使用。它的语法使学习,编写和维护代码也很容易,即使对于初学者也很容易。
  2. 库范围:Python有大量的库,这些库为数据分析提供了一系列功能,例如Numpy,Pandas和Matplotlib。
  3. 开源:Python是开源的,这意味着它是免费的,任何人都可以使用和修改。

安装Python

Python应用程序文件可以从其主要网站上访问并下载用于不同操作系统的主要网站。我将主要将Windows用于本文。

Welcome to Python.org

Python编程语言的官方住所

favicon python.org

安装Python后,您必须选择一个IDE(集成开发环境),该应用程序为软件开发提供了全面的环境。

数据科学的共同IDE是:

第一个代码

成功的代码编写环境的设置意味着您可以编码。数据科学的Python需要几个基本库来简化您的编码过程。可以通过运行以下内容在您的命令提示符(CMD)中使用Python中使用的软件包管理器安装它们:

  • numpy
pip install numpy

  • 熊猫
pip install pandas
  • matplotlib
pip install matplotlib
  • Scikit-Learn
pip install scikit-learn

在处理表格数据(Pandas),数组(NumPy),可视化(Matplotlib)和机器学习(Scikit Learn)时,库是为了易于使用。随着您的进步,您开始了解更多在数据科学项目中方便的图书馆。

使用Python库进行数据科学

安装的库在被调用或调用其中的模块后才可用。通过使用importfrom library import module轻松完成此操作。示例:

#we use `as` as an alias so as to simplify our code
#pandas library
import pandas as pd
#numpy library
import numpy as np
#matplotlib library
import matplotlib.pyplot as plt
#scikit learn library
from sklearn.pipeline import make_pipeline

您可能已经指出,根据您正在从事的项目的不同。

python语法

Python的数据科学运营商

  1. 算术运算符:用于执行算术操作,例如加法(+),减法(-),乘法(*),difiss(/)和模量(%)。
  2. 比较运算符:用于比较两个值并返回布尔值(真或错误)。它们包括等于(==),不等于(!=),大于(>),小于(<),大于或等于(>=),小于或等于(<=)。
  3. 逻辑运算符:用于组合布尔值和返回布尔结果。其中包括logical AND, logical OR and logical NOT
  4. 分配运算符:用于将值分配给变量并同时对变量执行操作。这些包括:
a = 5
a += 3    # equivalent to a = a + 3
a -= 2    # equivalent to a = a - 2
a *= 4    # equivalent to a = a * 4
a /= 2    # equivalent to a = a / 2

Python数据结构

Python具有构建数据结构,可实现数据科学家商店并操纵数据集。它们是使与数据科学库易于集成的基础。
最常见的数据结构是:

  • 列表:

列表是有序元素的集合,可以是任何数据类型。示例:

mylist = [1,2,3,4]

  • 元组:

元组是有序元素的集合,类似于列表。但是,元组是不变的,这意味着一旦创建了元组,就无法修改其元素。示例:

mytuple = (1, 2, 3, 4, 5)

-Dictionaries:

字典是键值对的集合,其中每个键都与一个值相关联。字典是无序的和可变的,这意味着您可以在字典中添加,删除或修改键值对。示例:

mydict= {"a": 2, "b": 3, "c": 4}

这些是最常用的数据结构,但其他包括集和数组。

结论

数据科学涉及从数据收集到机器学习的许多项目。那种项目将决定要编写的库和代码的种类。最常见的数据源是API,Excel(平面数据库),结构化数据库(SQL),非结构化数据库(Mongo),有时混合。

Python提供了简单的数据源集成,例如pymongo library for mongodb databases, sqlite3 for sql databases and pandas for flat databases(excel, csv etc)

示例:
- Pymongo

from pymongo import MongoClient
client = MongoClient(host="local host", port=27017)

- sqlite3

import sqlite3
%load_ext.sql
%sql sqlite://path

- pandas

df=pd.read_csv(filepath)

类型的数据还将确定要安装和使用的代码和库的类型。

始终建议您制定一个明确的计划,即如何处理您的项目以避免错误的方法或库。

与Python一起使用的数据科学很有趣且易于学习。

谢谢您的任何澄清,请随时伸出