0% found this document useful (0 votes)
13 views52 pages

02 现代语言学基础

本章讨论现代语言学的基础,包括语言的符号性、层级性及其知识模型。重点介绍了语言的社会功能、语音、词汇、句法、语义和语用系统,以及语言的歧义性与创造性。通过分析语言的结构和功能,揭示了语言作为人类独特认知能力的复杂性。

Uploaded by

haagorenporhf74
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PPTX, PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
13 views52 pages

02 现代语言学基础

本章讨论现代语言学的基础,包括语言的符号性、层级性及其知识模型。重点介绍了语言的社会功能、语音、词汇、句法、语义和语用系统,以及语言的歧义性与创造性。通过分析语言的结构和功能,揭示了语言作为人类独特认知能力的复杂性。

Uploaded by

haagorenporhf74
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PPTX, PDF, TXT or read online on Scribd
You are on page 1/ 52

自然语言处理

第 2 章 现代语言学基础

张鹏
西南科技大学计算机科学与技术学院
zhangpeng@swust.edu.cn
提纲
15%
2.1 语言学与人类的语言
2.2 语言系统及其知识模型 60%

2.3 语言的歧义性与创造性 15%

2.4 语言知识资源 10%

2.5 延伸阅读
2.1 概述:语言学与人类的语言

2.1.1 现代语言学的源起及学科分支概况 研究人类的语言,就是探讨所谓“人


类的本质”,也就是探讨迄今所知为
人类独有的心理属性。

2.1.2 人类语言的 符号性 与 层级性 —— 诺姆 · 《》


2.1.1 现代语言学的源起及学科分支概况
• 语言学的人文传统

- 文字之学
- 训诂之学
- 音韵之学
- 小学:经学之附庸

• 语言学的科学之路

- 1786 琼斯 “印欧语系”

- 1916 《》

- 1957 《》
2.1.1 现代语言学的源起及学科分支概况
• 语言学长啥样?

—— 语言学观念(重心)的转移

 看作法律的语言学 ( Prescriptive grammar )

 看作生物学的语言学( Historical/Comparative linguistics )

 看作化学的语言学 ( Structural linguistics / Descriptive grammar)

 看作数学的语言学 ( Generative linguistics / Formal grammar)


2.1.2 人类语言的 符号性 与 层级性
关于语言,可以从三个维度来认识它

 语言的社会功用 交际工具、思维工具

听觉(语音)符号系统
 语言的外在形式 言语( speech ):语言的外在表现
视觉(文字)符号系统

 语言的内在性质 语言( language ):人的一种认知能力(高级智能现象)


语言的功能:社会交际工具
语言的起源:人类沟通的动机
( 1 ) 请求 —— 要别人去做自己想叫他们做的事

( 2 ) 帮助 —— 我要你知道某事,因为该事对你有帮助

( 3 ) 分享 —— 我要你有某种感觉,这样我们可以一起分享情感 / 意见 / 态度

Michael Tomasello, 2010, Origins of Human Communication, MIT Press.


语言系统的符号性
 语言是一个声音(形式)与意义(内容)相结合的符号系统。

 语言是人类藉以思维和交际的音义结合的符号系统。这个符号系统的结构既相对稳定,又不断变动。

• 能指与所指
符号系统 有规则 (相对稳定的结构)
• 任意性与理据性
符号系统 在变化 (结构在不断调整)
• 稳定性与变异性
语言系统的层次性
• 离散性:基本符号单位(“形式 - 意义”配对体)是离散的
• 层级性:有意义的符号由无意义的基本语音单位组成(双层制)
• 聚合性与组合性:语言符号聚合成类(范畴),组合表达复杂的语义
语言学的核心模块
相对
有限 语音的生理、物理、心理属性
集 语素  语素组  词

语音 / 音系学 词汇 / 形态学

相对
无限 语言符号的组合形式规则 语言符号的意义解释规则

句法学 语义学

语言符号的使用规则
(人与环境)

语用学
2.2 语言系统及其知识模型
2.2.1 语音系统

2.2.2 词汇系统

2.2.3 句法系统

2.2.4 语义系统

2.2.5 语用系统
2.2.1 语音系统
 语音是自然语言的物理基础。
 现代语音学将人类声音系统分为生理、物理和心理属性三个方面进行分析。
 语音学
 以语音的生理、物理属性为研究对象
 研究人体的发音部位、发音方法、语音的声学表现
 音系学
 以语音的心理属性为研究对象
 确定语言的基本音位单位和音节规则
2.2.1 语音系统
元音、辅音
 音素 音高、音长……
语音的生理、物理属性

声母、韵母、声调
 音节
语音的心理属性

语音对立、互补、相似

 音位
儿化、变调、轻音…… 语音在语流中的实际表现

 音变
2.2.1 语音系统
“ 榴莲”( liúlián )和“牛年”( niúnián )

“ 牛累了”和“流泪了” 同音 vs 不同音? 音位

“ 梨水”和“泥水”

贝克汉姆 大衣 大一
Backham d-a-i 音节
碧咸 带 戴 ……

牛奶 和 饼干 能 讲 清楚
牛奶 饼干 讲 得 清楚 韵律
牛奶 味 饼干 讲 清楚 了
2.2.2 词汇系统
 语素
 最小的音义结合体
 可以分为词根、词缀、词尾
 词
 最小的能独立使用的音义结合体
 单纯词、合成词 (复合、附加、重叠)
 词的内部构造
 新词的产生
 仿词、缩略、变形、谐音、合音、拼音、译音
 词的内部层级 语素  语素组  词
词的内部构造(构词法)
词的内部构造(构词法)
新词的产生(造词法)
( 1 )仿词 阔人  狭人

( 2 )缩略 高端、大气、上档次  “高大上”

( 3 )谐音 童鞋(同学)、妹纸(妹子)

( 4 )合音 酱紫(这样子)、表(不要)

( 5 )拼音 哥屋恩(滚)、吃屋恩(蠢)

( 6 )译音 粉丝、锅庄、唐卡

( 7 )字母词 U 盘、卡拉 OK
词的内部层次:语素  语素组  词

×
2.2.3 句法系统
 句法系统的作用
 判别句子是否合语法
 对于合语法的句子,给出内部结构,为理解句子的语义打下基础

( 1 ) a 她 从 东京 来 。
b 她 从 来 东京 。
c 她 从 来 东京 到 现在 就 没 笑 过 。
2.2.3 句法系统
 词组(短语)
 短语可以跟短语组合成更大的短语,即嵌套
 同类型的短语自我嵌套,形成递归结构
 采用短语树的形式来表示句子的句法结构
 树节点的子节点称为“直接成分”
 从根节点 S 开始,每个直接成分都可以再分解为更多的直接成分,直到不能分解为
止。
 层级树结构
 词的内部结构、音节的内部结构
 词语和音节只画层级树图
2.2.3 句法系统
2.2.3 句法系统:句法结构四要素
 层次 句子不仅仅是表面的词语线性序列,句子是有层次的(隐性)

 关系 各个层次上直接组成成分之间存在不同的关系

 范畴 词以类聚,形成范畴;范畴有限,而组句(实例)无限

 中心 中心成分的范畴属性可以代表整个结构的范畴性质
2.2.3 句法系统:短语结构树 vs 依存关系树

殊途同归:层次、范畴、关系、中心
2.2.4 语义系统
 语义系统的作用
 一种理解:句法系统和语义系统是串行的
 另一种理解:句法系统和语义系统并无先后顺序关系
 意义的本质
 A 代表符合
 A 的意义通过 B 指向 C
2.2.4 语义系统
 测试语义理解的两种方式 • 句式变换

• 问答

 例如:句式变换方式释义

( 1 ) a 阿伦告诉吴姐他下岗了 b 阿伦跟吴姐说他失业了

( 2 ) a 阿伦是有时间谈恋爱的 b 谈恋爱阿伦是有时间的

句子 1a 的语义是 1b ,反之亦然

句子 2a 的语义是 2b ,反之亦然
语义理解的呈现方式:句式变换

( 2 ) a1 阿伦是有时间谈恋爱的 b1 谈恋爱阿伦是有时间的

a2 阿伦是有资格拿奖学金的 b2 拿奖学金阿伦是有资格的

a3 阿伦是有把握考第一的 b3 考第一阿伦是有把握的

a4 阿伦是有办法发论文的 b4 发论文阿伦是有办法的

( 2’ ) a1 阿伦是有人陷害入狱的 b1 * 陷害入狱阿伦是有人的

a2 阿伦是有大人物撑腰的 b2 * 撑腰阿伦是有大人物的

2’ 不能像 2 中的句子那样做同样的变换,为什么?
语义理解的呈现方式:问答
 人咬狗 谁 咬 狗? 什么东西 咬 狗?

 狗咬人 狗 咬 谁? 狗 咬 什么?
谁 咬 谁? 什么东西 咬 什么东西?
 人咬人

句子客观语义的一般结构:

who did what to whom when where how and why?


词汇语义:动词的论元结构描述

( 3 ) a 吴姐的狗咬了阿伦的大腿两口。
b 阿伦的大腿被吴姐的狗咬了两口。
c 阿伦被吴姐的狗咬了大腿两口。
d ?阿伦被吴姐的狗咬了两口大腿。
e * 吴姐的狗把阿伦咬了两口大腿。
词汇语义:动词与动词之间的语义关系描述

北京梁思成故居被拆除,有关部门说是“维修性拆除”,针对这种明显矛盾的说法,有相声演员嘲讽道:应该
将说这种话的人进行“保护性枪毙、治疗性活埋”。并调侃道:以后街上有人持刀抢钱,得算是“理财性抢
劫”。 (来源:徐德亮相声作品)

对象 目的 对象 目的
维修 建筑物 建设 保护 人 延续生命
拆除 建筑物 破坏 枪毙 人 终止生命

对象 目的 手段 目的
治疗 人 延续生命 理财 合法 获取金钱
活埋 人 终止生命 抢劫 非法 获取金钱
语义的表征:预设

1 a 阿伦后悔学人工智能 阿伦已经学了人工智能

b 阿伦打算学人工智能 阿伦现在还没有学人工智能

c 阿伦喜欢学人工智能 不清楚阿伦有没有学人工智能

2 a 吴姐:小丁的前女友为什么跟小丁分手?
b 阿伦:小丁啥时候有过前女友?
语义的表征:焦点

a 在昨天的“末庄之夜”晚会上,吴姐甚至吻了阿伦。

b 在昨天的“末庄之夜”晚会上,吴姐甚至吻了阿伦。
语义的表征:主观义

1 a 吴姐知道阿伦和小丁都是绍兴人。

b 吴姐过生日,阿伦和小丁都送了礼物。

主观义:阿伦和小丁 送 礼物,此事非同寻常

2 a 吴姐说:阿伦离开老家三天了。

b 吴姐说:阿伦离开老家都三天了。
主观义:三天是一个比较长的时间
语义的表征:构式义

a 你罚你的款,他违他的章。

b 你走你的阳关道,他走他的独木桥。

c 你说你的,他干他的。
小结:意义到底是什么?

土豆 = 马铃薯

花果山的美猴王 = 大闹天宫的弼马温

周海婴的父亲 = 许广平的丈夫

“ 意义组合原则” “ 意义情境原则”
( principle of compositionality ) ( principle of contextuality )

由内求义 向外求义
2.2.5 语用系统

 语用系统为完成传递信息这个总目标服务。
 交际行为并不仅仅是符号形式本身,多种因素影响语言表达形式的选择和语义解
读。
 例如:阿伦对吴姐说:我喜欢你做饭时的背影。
 语用系统本质是基于经验的逻辑推理。
2.3 自然语言的歧义性与创造性
 成分边界歧义

 句法结构关系歧义

 语义关系歧义

 语义指向歧义
歧义性
• 成分边界歧义

• 句法结构关系歧义 a 阿伦住在一个有很多富人的小区。
• 语义关系歧义 b 吴姐工作的地方有很多富人的房子。

• 语义指向歧义
歧义性
• 成分边界歧义

• 句法结构关系歧义

• 语义关系歧义

• 语义指向歧义

a 阿伦 叫 吴姐 去 了 。 b 阿伦 叫 吴姐 去 了 。

= 阿伦 让 吴姐 去 了 。 = 阿伦 去 叫 吴姐 了 。
歧义性
• 成分边界歧义
施事
• 句法结构关系歧义 对象

• 语义关系歧义
a 没想到阿伦离开末庄后,最担心的是吴姐。
• 语义指向歧义

对象 施事

b 没想到阿伦离开末庄后,最担心的是吴姐。
歧义性
• 成分边界歧义

• 句法结构关系歧义

• 语义关系歧义
a 他老爹从小教育他就是用的他爷爷的事迹。
• 语义指向歧义

b 他老爹从小就跟着他爷爷的拜把兄弟学木匠。
歧义性
口语歧义? 书面歧义?
你什么题都不会做

重音在“这道题”上
连这道题你都不会做 这道题很容易,你不会做这道题
这道题你都不会做
这道题连你都不会做 这道题很难,你不会做这道题
重音在“你”上

谁都不会做这道题
创造性
新形式 被 X
( 1 ) 省略(压缩)

新意义 有一种 X 叫 Y
( 2 ) 隐喻 / 转喻

( 3 ) 语言游戏
创造性
隐喻 / 转喻

语言 / 文字

游戏
2.4 语言知识资源
 语言知识库
• 现代汉语语法信息词典

• HowNet

• WordNet

• ……

• 树库( Treebank )

 标注语料库 • 命题库( Propbank )

• 框架网库( FrameNet )

• ……
现代汉语语法信息词典

“ 有 __” 描述动词是否可以跟“有”组合为合法结构

“___ 名”描述动词是否可以直接修饰名词

“ 名 __” 描述动词是否可以直接受名词修饰

“___ 宾”描述动词是否能带宾语

“ 时态”描述动词是否能后附汉语的时态助词“着、了、过”

“ 重叠”描述一个动词是否有重叠形式

“v-v” 描述动词是否有“ v-v” 形式


HowNet
FrameNet
Revenge (复仇)语义框架元素定义表
FrameNet
总结
现代语言学的源起
概述:语言学与人类的语言 语言学学科分支概况
语言的符号性与层级性

语言系统及其知识模型

多义词、结构歧义、语义关系歧义……
语言的歧义性与创造性
新形新义、旧形新义、语言游戏

知识库
语言知识资源 语言学理论的数据化
标注语料库
2.5 延伸阅读文献
1. Fromkin, V., Rodman, R. and Hyams, N., 2003, An Introduction to Language, 7th edition,
Thomson Heinle, 北京大学出版社 2004 年引进影印出版。
2. Parker, Frank,1986, Linguistics for Non-linguists, Taylor & Francis Ltd.
3. Bender, Emily M., 2013, Linguistic Fundamentals for Natural Language Processing,
Morgan & Claypool Publishers
4. Pustejovsky, James, Amber Stubbs, 2012, Natural Language Annotation for Machine
Learning, O’Reilly Media.
5. Tomasello, Michael, 2010, Origins of Human Communication, MIT Press.
6. Tomalin, Marcus, 2006, Linguistics and the Formal Sciences: The Origins of Generative
Grammar, Cambridge University Press.
7. Sperber, D. and Wilson, D. ,1995, Relevance: Communication and Cognition. 2nd Edition,
Wiley-Blackwell, 《》 2008 年)
8. Levinson, Stephen C. (1983). Pragmatics. Cambridge University Press, Cambridge.
9. Leech, Geoffrey (1983), Principle of Pragmatics. London: Longman.

You might also like