统计方法是目前语言处理, 大范围使用的方法。
我之所以反对使用统计方法,原因是这种方法无法区分“错误”和“新造”。
表音文字,一个单词就是一个主体,如果人类新造了主体,那么就需要新造单词。他们无需考虑词语组合。
因此统计方法更适用于表音文字。
但是汉语不是通过新造字,来解决主体增多的问题的,而是通过新造词语来表达新的主体,比如“新冠病毒”。因此汉语在词语阶段的难度就等同于表音文字的句子级。如果按照统计方法,去读科学论文,AI在已知语法无误,内容可信的基础上,可以把任何“新词”列入词库。
但是,论文也有无厘头的啊,比如我在贴吧发的这一篇,文法,语法,内容的准确性和严谨性都存疑的文章。用统计方法来判定?
要么,它只能全信,按照科学论文来解读,然后直接把ai词库带偏。
要么,它只能批判,找出无数的错误,最后判定这一篇是垃圾文。
还好,基本上汉语所使用的词语还算规范,用词库可以解决99%的问题。一旦涉及到句子级,那就是灾难了。
人家都说,表音文字的语法严谨。而汉语的语法属于噩梦级的。
因此汉语单句的理解,基本上等同于外文篇章级别的难度。因为汉语单句中开始包含逻辑。汉语依靠逻辑或者说道理来组织句子。而不是依靠语法。
你完全可以在贴吧等各种不太严谨的场合找到无数语法错误,但是内容完全可以理解的汉语句子。
涉及到逻辑关系,那就不是统计方法可以搞定的了。
一个人说了一段逻辑颠三倒四的话,你可以搞明白他说的到底是什么意思,甚至可以反驳他,指出他这段话中的逻辑错误。
也就是说:在一段话有逻辑错误的前提下,是可以读懂的。不然谈什么反驳呢?
所以,我们需要的理解级的AI,要能读懂,错误构词法、语法、逻辑下的内容,并且将这些内容进行规范化纠正。
就好比,我们在读一句字序混乱的句子时,会自动对错误的字序进行重排,而不是简单报错扔垃圾箱。
我之所以反对使用统计方法,原因是这种方法无法区分“错误”和“新造”。
表音文字,一个单词就是一个主体,如果人类新造了主体,那么就需要新造单词。他们无需考虑词语组合。
因此统计方法更适用于表音文字。
但是汉语不是通过新造字,来解决主体增多的问题的,而是通过新造词语来表达新的主体,比如“新冠病毒”。因此汉语在词语阶段的难度就等同于表音文字的句子级。如果按照统计方法,去读科学论文,AI在已知语法无误,内容可信的基础上,可以把任何“新词”列入词库。
但是,论文也有无厘头的啊,比如我在贴吧发的这一篇,文法,语法,内容的准确性和严谨性都存疑的文章。用统计方法来判定?
要么,它只能全信,按照科学论文来解读,然后直接把ai词库带偏。
要么,它只能批判,找出无数的错误,最后判定这一篇是垃圾文。
还好,基本上汉语所使用的词语还算规范,用词库可以解决99%的问题。一旦涉及到句子级,那就是灾难了。
人家都说,表音文字的语法严谨。而汉语的语法属于噩梦级的。
因此汉语单句的理解,基本上等同于外文篇章级别的难度。因为汉语单句中开始包含逻辑。汉语依靠逻辑或者说道理来组织句子。而不是依靠语法。
你完全可以在贴吧等各种不太严谨的场合找到无数语法错误,但是内容完全可以理解的汉语句子。
涉及到逻辑关系,那就不是统计方法可以搞定的了。
一个人说了一段逻辑颠三倒四的话,你可以搞明白他说的到底是什么意思,甚至可以反驳他,指出他这段话中的逻辑错误。
也就是说:在一段话有逻辑错误的前提下,是可以读懂的。不然谈什么反驳呢?
所以,我们需要的理解级的AI,要能读懂,错误构词法、语法、逻辑下的内容,并且将这些内容进行规范化纠正。
就好比,我们在读一句字序混乱的句子时,会自动对错误的字序进行重排,而不是简单报错扔垃圾箱。