AI 领域与概述

AI百科4个月前发布 快创云
40 0

数据行业主要的职业发展。

业务:业务师、数据产品经理、产品总监

技术:算法师、架构师、研发经理、研发总监

美工:BI工程师

人工智能,是数据的子集。人工智能主要包括

识别

自然语言处理

图像处理

专家系统

转化为文字。技术已经相对成熟。

对文本进行。主要有:

基于词

中文分词

关键词提取

命名实体识别

词性标注

句子

指代消解

依存句法

段落。意图识别

篇章。文本分类、聚类

分词用的库:Jieba, SnowNLP, PKUseg, THULAC, HanLP, FoolNLTK, LTP, CoreNLP

如,jieba

输出

TOPN, TF-IDF

TF-IDF是TF(词频)和IDF(Inverse document frequency)逆向文件频率。

TF是一个词出现次数,除以总词数。如 在一文中出现3词,总次数是100,那么起TF就是0.03.

IDF是总文件数,除以包含这词的文件数,取log10。如在1000篇文章中出现,总文章数是10 000 000, 其IDF就是4。

两者相乘,就是TF-IDF

结果是:

其中vectorizer的作用是把句子向量化。

向日葵

多少钱

水仙花

白玫瑰

句子1

0

1

1

0

句子2

0

1

0

1

句子3

1

1

0

0

这样可供TfidfTransformer 计算。

粘合:人名吗、地名、机构名、品牌名等

例如:我今年在三里屯买了个苹果。

三里屯、苹果

使用隐马尔科夫模型。

HMM的论文:http//www.cs.ubc.ca/~murphyk/Bayes/rabiner.pdf

包括:

OBS 显现层

STATES 隐含层

Start_p 初始概率

Trans_p 转移概率

Emit_p 发射概率

目前该模型在scikit已经停用。http//scikit-learn.sourceforge.net/stable/modules/hmm.html

例子:一个的朋友,每天根据天气(下雨、晴天),决定当天的活动(散步、购物、清理),他在朋友圈里发了一条信息:我前天在公园散步,昨天购物,今天清理了!根据他的消息推断三天的天气。

这个例子中,

OBS:散步、购物、清理

STATES:下雨、晴天

startp:P(下雨),P(晴天)

transp:之前下雨,下次下雨、晴天。之前晴天,下次下雨、晴天的概率。

emitp:下雨、晴天情况下,OBS的三个概率。

HMM

维比特算法

例子:我今天在三里屯买了一个苹果,那个苹果很好吃。

那个指代。

我 买了 苹果

今天 在 三里屯 很好吃

垃圾邮件。文本分类、聚类。

待填坑

底层知识图谱。

Natrural Langugage processing with python

哪个领域->目录形式->目录下机器能计算的规则。

知识图谱包括:

实体:具有可区别、存在的事物。动物、数据库、程序中的对象

属性:实体的特征:姓名、身高、体重

属性值:描述特征的数值:张三、180, Key-value

关系:连接两个实体

如何用知识图谱,解决无监督分类。

从文本中提取哪些信息

提取的信息该如何排列

每个行业、的图谱不同。

repalce

正则

批量字符串替换

批量正则字符串替换

r 读 w 写覆盖 a 写追加

read() 按字符读。readlines() 按行读

图像识别。对图像进行

专家系统。底层知识图谱

一、

svm, 逻辑回归区别和联系?

联系:擅长二分类

区别: SVM找到一条线划分数据集中最近的两点。逻辑回归是,一根线到两侧全局点的距离最大。

二、

HMM隐马尔科夫模型是做什么的?

做词语粘合

© 版权声明

相关文章