scikit-image是基于scipy的一款图像处理包,它将图片作为numpy数组进行处理,是非常好的数字图像处理工具。其全称是scikit-image SciKit (toolkit for SciPy) ,对scipy.ndimage进行了扩展,提供了更多的图片处理功能。

PIL:Python Imaging Library,是Python平台事实上的图像处理标准库。但是PIL仅支持到Python2.7,加上年久失修,于是一群志愿者在PIL的基础上创建了兼容的版本,名字叫Pillow,支持最新Python 3.x。

自然界的图像是模拟形式的,计算机无法直接处理,需要将自然界中的图像进行数字化处理之后,再传给计算机来处理。

计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了4个主要历程。即:马尔计算视觉、主动和目的视觉、多视几何与分层三维重建和基于学习的视觉。

计算机视觉是一门研究如何使机器'看'的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,试图建立能够从图像或者多维数据中获取信息的人工智能系统。

文本表示的分布表示研究了上下文的概率分布,认为上下文相似的词,其语义也相似,由此将语义引入到文本表示中,词与词之间有了距离的概念。

文本表示的离散表示将文本视为离散的一个个词的组合,词与词之间没有距离的概念,主要有词集模型和词袋模型两种思想。

完语料预处理之后,接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型,这就是所谓的文本表示。

分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。

对文本语料库进行预处理是任何NLP应用程序必须完成的必备事项之一。
0%