anaconda环境配置,以及python常用库下载语句(包含镜像)

前言

Anaconda 是一个非常流行的 Python 和 R 语言的集成开发环境,特别适合数据科学、机器学习和人工智能领域的开发工作。本文将介绍一些在 Anaconda 环境中常用的 Python 库,并详细说明这些库的安装与引入方法。

1. 常用 Python 库介绍

在使用 Anaconda 时,有一些 Python 库非常常用,几乎每个数据科学家、机器学习工程师都会用到。以下是一些常用库的简单介绍:

1.1 NumPy

NumPy 是一个强大的数学库,提供了多维数组对象以及用于操作数组的函数。它是许多数据科学和机器学习库(如 pandas 和 scikit-learn)的基础。

示例NumPy 数组相关操作

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
import numpy as np

# 创建一维数组
array_1d = np.array([1, 2, 3, 4])
print("一维数组:", array_1d)

# 创建二维数组
array_2d = np.array([[1, 2], [3, 4]])
print("二维数组:\n", array_2d)

# 数组相加
array_sum = array_1d + array_1d
print("数组相加:", array_sum)

# 数组的广播机制
array_broadcast = array_1d * 2
print("数组广播:", array_broadcast)

# 获取数组的第二个元素
print("第二个元素:", array_1d[1])

# 获取二维数组的第一列
print("第一列:", array_2d[:, 0])
# 生成全零数组

zeros_array = np.zeros((3, 3))
print("全零数组:\n", zeros_array)

# 生成单位矩阵
identity_matrix = np.eye(3)
print("单位矩阵:\n", identity_matrix)


1.2 Pandas

Pandas 是一个数据分析库,提供了易于使用的数据结构和数据分析工具。Pandas 主要用于操作和分析结构化数据(如表格数据)。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import pandas as pd

# 创建字典
data = {'Name': ['Tom', 'Jerry', 'Spike'],
'Age': [20, 21, 19],
'Grade': ['A', 'B', 'A']}

# 从字典创建 DataFrame
df = pd.DataFrame(data)
print("DataFrame:\n", df)

# 筛选年龄大于20的行
filtered_df = df[df['Age'] > 20]
print("筛选结果:\n", filtered_df)

# 添加新列
df['Passed'] = df['Grade'] == 'A'
print("添加新列后的 DataFrame:\n", df)

# 按照 Grade 分组并统计各组的平均年龄
grouped_df = df.groupby('Grade')['Age'].mean()
print("按 Grade 分组后的平均年龄:\n", grouped_df)

# 创建包含缺失值的 DataFrame
data_with_nan = {'Name': ['Tom', 'Jerry', None],
'Age': [20, None, 19]}
df_with_nan = pd.DataFrame(data_with_nan)

# 填充缺失值
df_filled = df_with_nan.fillna('Unknown')
print("填充缺失值后的 DataFrame:\n", df_filled)

1.3 Matplotlib

Matplotlib 是一个用于创建静态、动态和交互式可视化图表的绘图库。它与 NumPy 配合良好,可用于生成各种类型的图表,如折线图、柱状图、散点图等。
自用库

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
import matplotlib.pyplot as plt

# 数据
x = [1, 2, 3, 4, 5]
y = [1, 4, 9, 16, 25]

# 绘制折线图
plt.plot(x, y, marker='o')
plt.title('折线图示例')
plt.xlabel('X 轴')
plt.ylabel('Y 轴')
plt.show()

# 数据
categories = ['A', 'B', 'C']
values = [5, 7, 3]

# 绘制柱状图
plt.bar(categories, values, color='green')
plt.title('柱状图示例')
plt.xlabel('类别')
plt.ylabel('值')
plt.show()

# 数据
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# 绘制散点图
plt.scatter(x, y, color='red')
plt.title('散点图示例')
plt.xlabel('X 轴')
plt.ylabel('Y 轴')
plt.show()

# 数据
data = [1, 2, 2, 3, 3, 3, 4, 4, 5, 5, 5, 5, 6, 7]

# 绘制直方图
plt.hist(data, bins=7, color='blue', edgecolor='black')
plt.title('直方图示例')
plt.xlabel('值')
plt.ylabel('频率')
plt.show()

# 数据
x = [1, 2, 3, 4, 5]
y1 = [1, 4, 9, 16, 25]
y2 = [2, 3, 5, 7, 11]

# 创建两个子图
fig, axs = plt.subplots(2)

# 第一个子图
axs[0].plot(x, y1, marker='o')
axs[0].set_title('子图 1')

# 第二个子图
axs[1].scatter(x, y2, color='red')
axs[1].set_title('子图 2')

# 调整布局
plt.tight_layout()
plt.show()


1.4 Scikit-learn

Scikit-learn 是一个机器学习库,提供了简单而高效的数据挖掘和数据分析工具,支持各种分类、回归、聚类算法。它建立在 NumPy、SciPy 和 Matplotlib 之上。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
from sklearn.datasets import load_iris

# 加载 Iris 数据集
iris = load_iris()
print("特征名称:", iris.feature_names)
print("标签名称:", iris.target_names)

from sklearn.model_selection import train_test_split

# 数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)
print("训练集大小:", X_train.shape)
print("测试集大小:", X_test.shape)

from sklearn.neighbors import KNeighborsClassifier

# 创建 KNN 分类器并训练
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# 预测
predictions = knn.predict(X_test)
print("预测结果:", predictions)

from sklearn.metrics import accuracy_score

# 计算模型的准确率
accuracy = accuracy_score(y_test, predictions)
print("模型准确率:", accuracy)

from sklearn.preprocessing import StandardScaler

# 特征标准化
scaler = StandardScaler()
X

1.5 TensorFlow/PyTorch

TensorFlowPyTorch 是两个非常流行的深度学习框架,分别由 Google 和 Facebook 开发。它们都提供了强大的工具和函数,用于构建和训练神经网络模型。

1.6 Jupyter Notebook

Jupyter Notebook 是一个交互式的开发环境,特别适合数据分析和机器学习任务。它允许用户将代码、文本、图表和公式组合在一个文档中,非常适合演示和分享工作成果。我在实习的时候常用jupyterlab,比pycharm好用在

2. 常用库列表

以下是常用库的列表,供大家参考:

库名称 功能描述 官方文档链接
NumPy 数学计算,支持多维数组 NumPy 官方文档
Pandas 数据分析和操作 Pandas 官方文档
Matplotlib 数据可视化 Matplotlib 官方文档
Scikit-learn 机器学习算法 Scikit-learn 官方文档
TensorFlow 深度学习框架 TensorFlow 官方文档
PyTorch 深度学习框架 PyTorch 官方文档
Jupyter Notebook 交互式计算环境 Jupyter 官方文档

3. 引入与安装方法

3.1 使用 Conda 安装

Anaconda 自带了 Conda 包管理工具,使用 Conda 可以方便地安装和管理环境中的库。

安装库的命令如下:

conda install numpy pandas matplotlib scikit-learn tensorflow pytorch jupyter

清华镜像:https://pypi.tuna.tsinghua.edu.cn/simple
科大镜像:https://pypi.mirrors.ustc.edu.cn/simple
豆瓣镜像:http://pypi.douban.com/simple/
阿里镜像:https://mirrors.aliyun.com/pypi/simple/
百度镜像:https://mirror.baidu.com/pypi/simple

#安装pytorch(自用
pip3 install torch==2.0.1 torchaudio torchvision==0.15.2 --index-url https://download.pytorch.org/whl/cu118