統計天然語言處置懲罰應用了推測學、機率、統計的方式來解決上述,尤其是針對輕易高度恍惚的長串句子,當套用現實文法進行分析產生出不計其數筆可能性時所激發之困難。處置這些高度模糊句子所採用消歧的方法每每運用到語料庫以及馬可夫模子(Markov models)翻譯統計自然說話處置懲罰的技術首要由同樣自人工聰明下與進修行為相關的子範疇:機械進修及資料採掘所演進而成。
天然說話處置懲罰(英語:Natural Language Processing,簡稱NLP)是人工聰明和說話學範疇的分支學科翻譯在這此範疇中探討若何處置及應用天然說話;天然說話認知則是指讓電腦「懂」人類的說話翻譯
第四,天然說話處置中愈來愈正視辭彙的作用,泛起了強烈的「辭彙主義」的偏向。詞彙常識庫的建造成為了遍及存眷的問題。
現實問題[編纂]
第三,淺層處理與深層處置並重,統計與規則方式並重,形成夾雜式的系統。
統計天然說話處置懲罰[編纂]
目次
- 1 義務和限制
- 2 現實問題
- 3 天然說話處置懲罰的首要領域
- 4 天然語言處置懲罰研究的難點
- 4.1 單詞的鴻溝界定
- 4.2 詞義的消歧
- 4.3 句法的恍惚性
- 4.4 有瑕疵的或不規範的輸入
- 4.5 語言行為與規劃
- 5 當前天然說話處置研究的成長趨勢
- 6 統計天然語言處理
- 6.1 相幹實例
- 7 參見
- 8 延長閱讀
- 9 外部保持
相關實例[編輯]
- GATE: a Java Library for Text Engineering
- LTP:語言手藝平台(簡體中文)
- MARF
- Python編程語言的天然說話處理對象包教程
- FudanNLP開源中文天然說話處置懲罰對象包
拜見[編纂]
延長浏覽[編纂]
- Bates翻譯社 M. Models of natural language understanding. Proceedings of the National Academy of Sciences of the United States of America. 1995, 92 (22): 9977–9982. doi:10.1073/pnas.92.22.9977.
- Steven Bird, Ewan Klein翻譯社 and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
- Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing翻譯社 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
- Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978-0-521-86571-5. Official html and pdf versions available without charge.
- Christopher D. Manning and Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. The MIT Press. ISBN 978-0-262-13360-9.
- David M. W. Powers and Christopher C. R. Turk (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.
外部貫穿連接[編纂]
- 人類說話手藝當前成長環境概覽
- 哥倫比亞大學天然說話處理研究組
- 卡內基梅隆大學說話手藝研究院
- 斯坦福大學自然語言處理研究小組
- 中文自然說話處理開放平臺
- ACL(美國電腦語言學協會)供應的相幹雜誌和研討會的論文
|
|
理論上,NLP是一種很吸惹人的人機交互體式格局。初期的說話處置懲罰系統如SHRDLU,當它們處於一個有限的「積木世界」,運用有限的辭彙表會話時,工作得相當好翻譯這使得研究員們對此系統相當樂觀,但是,當把這個系統拓展到佈滿了實際世界的迷糊與不肯定性的情況中時,他們很快喪失了決心信念。
自然說話生成系統把計較機數據轉化為自然說話。自然說話理解系統把天然說話轉化為計算機法式更容易於處置懲罰的情勢。
說話行為與計劃[編纂]
- 句子常常其實不只是字面上的意思;例如,「翻譯公司能把鹽遞過來嗎」,一個好的回覆該當是著手把鹽遞曩昔;在大多半上下文環境中,「能」將是糟的回覆,雖然說回答「不」或者「太遠了天成翻譯社拿不到」也是可以接管的。
有瑕疵的或不規範的輸入[編輯]
- 例如語音處置時碰到外國口音或地方口音,或在文本的處理中處置拼寫,語法或光學字元辨認(OCR)的毛病。
句法的恍惚性[編輯]
詞義的消歧[編纂]
- 很多字詞不單只有一個意思,因此我們必須選出使句意最為通順的诠釋。再者,假如一門課程客歲沒開設,對於提問「這門課程客歲有幾何學生沒通過?」回答「客歲沒開這門課」要比回覆「沒人沒經由過程」好翻譯
當前自然說話處置研究的成長趨勢[編纂]
若是不領會山公和香蕉的屬性,沒法區分翻譯(英文的it沒有區分,但在中文裡「牠」和「它」是有區分的,只是代詞在中文裡經常被省略,是以需區別屬性並且標示出來)
天然語言處置的首要範疇[編輯]
- 文本朗誦(Text to speech)/語音合成(Speech synthesis)
- 語音辨認(Speech recognition)
- 中文自動分詞(Chinese word segmentation)
- 詞性標註(Part-of-speech tagging)
- 句法闡明(Parsing)
- 天然說話生成(Natural language generation)
- 文本分類(Text categorization)
- 信息檢索(Information retrieval)
- 信息抽取(Information extraction)
- 文字校訂(Text-proofing)
- 問答系統(Question answering)
- 給一句人類說話的問定,決議其答案翻譯 典型問題有特定答案 (像是加拿大的首都叫什麼?),但也考慮些開放式問句(像是人生的意義是是甚麼?)
- 將某種人類說話主動翻譯至另一種語言
- 產生一段文字的大意,凡是用於供應已知範疇的文章摘要,例如產生報紙上某篇文章之摘要
自然說話處置研究的難點[編纂]
單詞的邊界界定[編纂]
- 在白話中,詞與詞之間通常是連貫的,而界定字詞鴻溝平常利用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合翻譯在書寫上,漢語也沒有詞與詞之間的鴻溝。可是代詞「它們」在第一句中指的是「山公」,在第二句中指的是「香蕉」。
- 句子「天成翻譯社們把香蕉給山公,因為(牠們)餓了」和「我們把香蕉給山公,因為(它們)熟透了」有一樣的佈局。
一些NLP面對的問題實例:
由於理解(understanding)天然說話,需要關於外活著界的普遍常識和運用操作這些知識的能力,天然說話認知,同時也被視為一小我工智慧完備(AI-complete)的問題。同時,在天然說話處置懲罰中,"理解"的定義也釀成一個首要的問題。
[1] 第一,傳統的基於句法-語義劃定規矩的理性主義方式遭到質疑,跟著語料庫建設和語料庫說話學的突起,大範圍真實文本的處理成為天然語言處置的首要計謀目標。
第二,統計數學方式愈來愈遭到重視,天然說話處理中愈來愈多地使用機械主動進修的方式來獲取語言常識翻譯
義務和限制[編纂]
以下內文出自: https://zh.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86有關翻譯的問題歡迎諮詢天成翻譯社
- 句子「天成翻譯社們把香蕉給山公,因為(牠們)餓了」和「我們把香蕉給山公,因為(它們)熟透了」有一樣的佈局。