数据科学实践 | data science practice
数据科学 是指
三者的交叉应用学科。数据科学这个词近些年火起来,典型事件是2015年2月美国白宫宣布任命曾在多家硅谷科技公司任职的帕蒂尔(DJ Patil)为白宫首位首席数据科学家。
数据科学3者下的两两交叉应用,其实已经广为大家所知:
+
计算机技术(编程)=>
机器学习(Bang!)+
业务领域=>
业务软件开发(平时说的软件工程师)+
业务领域=>
传统研究
在数据科学火起来之前,大家用的多是『数据分析』这个词。所以2个主题的书一起看,早些年典型的『数据分析』主题的书实际讲的是数据科学的内容。
❤️❤️ 欢迎进入数据科学的世界! ❤️❤️
可以看看了解
Python
已经成为数据科学/机器学习的首选实践/开发环境。
# 当然也可以使用R
或是 Excel
,使用不同工具环境都可以实践数据科学。
# Excel
,是的,没听错;Excel
应该是使用人数最多的数据分析工具。
Python
繁荣与活跃生态 对 数据科学/机器学习 已经有了成熟的支持。Python
作为通用编程语言,相对R
、Excel
而言,灵活性不可比拟。Python
运行环境搭建Anaconda
!
Anaconda
的Python
发行版已经成为数据科学/机器学习Python
运行环境搭建的最佳实践!Anaconda
快速提供了
Python
运行环境Python
版本/不同库的隔离环境下面给下快速搭建数据科学/机器学习的Python
运行环境的说明。
Anaconda
的Python
发行版下载地址:
安装好Anaconda
之后,执行命令
jupyter notebook
: 运行基于Web
浏览器里的一体化交互式环境ipython
:运行加强的python
解释器,运行看看~ 🎉
安装过程,如有问题,更多说明参见
在国内没有镜像可不行,包安装下载要等死。
配置Anaconda
的镜像源
使用清华的镜像。
直接修改配置文件~/.condarc
:
channels:
- defaults
show_channel_urls: true
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
custom_channels:
conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
或是通过命令行设置(安装好Anaconda
之后,包含了conda
):
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
conda config --set show_channel_urls yes
配置pip
的镜像源
修改~/.pip/pip.conf
:
[global]
trusted-host = pypi.douban.com
index-url = http://pypi.douban.com/simple
如有问题,更多说明参见
Anaconda
修改国内镜像源 - 简书Anaconda
的使用下载安装后Anaconda
的使用:
Anaconda
使用Python
环境维护👉 参见独立的文档:Anaconda
的使用。
Jupyter Notebook
| PyCharm
| VS Code
。
Jupyter Notebook
Jupyter Notebook
已经在Anaconda
的发行版本中有了。
提供基于Web
浏览器里的一体化交互式环境,非常流行。试试用用,你会喜欢的。
PyCharm
IDE
王者JetBrains
提供Python
开发的专业IDE
。
Jupyter Notebook
的编写Anaconda
如果你是JetBrains
/IntelliJ
的粉丝更会喜欢。
VS Code
无需多解释。
学习
实践
Jupyter Notebook
使用Python
完成 页面抓取 与 分析。