首頁> 科幻小說> 科技入侵現代> 第148章你們能比我更懂機器翻譯（5k）

第148章你們能比我更懂機器翻譯（5k）

第148章你們能比我更懂機器翻譯（5k）

「教授，你不是做語言翻譯的，語言是規則的遊戲，概率這太不靠譜了。」保羅·加爾文還想再掙扎一下。

當然他確實也不信翻譯和統計學能扯上什麼關係。

詞語之間一一對應。

英文單詞和俄語單詞一一對應，直接直譯，擴充語料庫。

在當時的思維里，這才是正道。

也就是所謂窮舉法。

把所有的詞語做好一一對應之後，自動翻譯也就實現了。

看本書最新章節，請訪問🍭sto9.com

統計學，概率遊戲，不談如果林燃是對的，他們的無能會暴露無遺，光是林燃提到的改進原理從直覺上來說就是錯誤的。

簡單來說，反直覺。

就像在GPT大模型出來之前，大家都覺得算法最重要。

GPT出來之後，大家開始都一窩蜂力大飛磚。

等到deepseek的時候，好像算法有點用。

哪怕是頂級的研究人員，也會有盲從的問題，會有迷茫、找不到方向、走不出來的情況。

在這個計算機的混沌年代，會這樣再正常不過了。

「精確？精確意味著出錯，現在的計算機遠遠達不到精確這一點。

你們難道不清楚，你們在54年之所以演示出了良好的效果，是因為那些俄語句子是你們精挑細選出來的。

實際自然語言的複雜性要遠超你們預期。

你們只做了語料庫的擴展，規則覆蓋都沒有做，上下文依賴處理也沒有。

你們能比我更懂機器翻譯？」

林燃怒吼道：「你們做了九年都沒有進展，現在立刻馬上按照我說的去做！」

林燃的地位、實力和權力擺在這，他們根本沒有拒絕的選擇。

沃森會信林燃就不說了，畢竟深藍項目才結束，國防部的麥克納馬拉那更是林燃說什麼就是什麼。

你們這幫搞計算機的能比數學大師更懂計算機？

林燃在博弈論和統計學上展現出來的風采，麥克納馬拉還沒忘呢。

IBM的CEO支持林燃，國防部部長支持林燃，喬治敦大學的研究團隊只能被按在地上摩擦。

「我們要做的一共五點，優化算法和規則設計，擴充語料和詞彙，改進數據處理的效率，引入統計方法和硬體最大化利用。

其中改進數據處理效率和硬體最大化利用由IBM方面負責。

另外三點則由喬治敦大學的成員們負責。

我們先來談優化算法和規則設計。

你們一直的問題在於，你們對於規則集的擴張沒有引入更加細化的句法規則。

因為存儲有限，你們覺得擴充對照詞彙庫就夠了。

實際上句法規則顯得更加重要。

你們需要做到，引進常見的高頻句型。

對上下文進行依賴處理。使詞彙翻譯考慮前後詞，通過有限的上下文窗口來減少歧義。

比如свет同時有光和世界的意思。

這個完全可以根據前詞判斷是光還是世界。」

沃森弱弱提醒道：「教授，你還會俄語啊？」

林燃一副理所當然的樣子：「當然，我都和科羅廖夫見了兩面，我不會俄語怎麼和他交流的？

我同時會俄語、德語、英語和漢語。」

多語言大師的身份，給林燃的理論增添了幾分可信度。

在這個時代，科學家們會幾門語言並不奇怪。

當然一些敏感部門會提高對你的懷疑。

以前面提到的約翰·麥卡錫為例，他就精通俄語，從小接受俄語教育長大，儘管他出生在阿美莉卡。

「另外翻譯過程，應該是模塊化設計，而不是簡單的映射關係。

它應該分成預處理、翻譯、後處理三部分。

預處理包括了分詞和詞形還原，翻譯才是詞典的映射，後處理是對語序進行調整。

這樣來降低單次計算的複雜度，提高規則的復用率！」

林燃的話給了在座研究團隊的成員們非常多的靈感。

就好像之前一直陷在百越的叢林裡找不到出路，而現在天上出現一道光指引他們怎麼樣才能走出叢林迷宮。

大家都有點迫不及待去嘗試了。

所有研究人員都瘋狂在筆記本上記錄下林燃所說的。

雖然不確定教授的方法是否管用，但有路總比之前沒有好。

再者，如果你不好好記下來，到時候被開除只是教授一句話的事。

「好了剛才我們講了一些簡單的內容，現在才是最難的。

因為IBM的機器不是那麼強大，我們只能引入一些比較簡單的統計學方法來提高我們翻譯的準確度。

我把它叫做基於頻率的詞對齊。

這也是我們引入統計模型的核。

我們先要手動分析平行句子，標註俄語詞或短語與英語翻譯的對應關係。

俄語句子Мыговоримомире

英語翻譯：「We speak about peace

對齊結果：「мы」對應「we」

「говорим」對應「speak」

「о」對應「about」

「мире」對應「peace」

然後我們需要對這種對齊的頻率進行統計。

統計每個俄語詞或短語在英語中的對應翻譯出現的頻率。

例如，在語料中，「говорим」在80%的句子中翻譯為「speak」，20%翻譯為「talk」。

這樣對於我們就可以構建概率表了。

將這些概率整理成表格，供機器進行查詢。由於內存空間有限，我們暫時只存儲高頻詞對，像出現次數前1000的詞對，忽略低頻情況。

當翻譯某個詞的時候出現多個選擇，就參考概率表選擇最可能的翻譯。

另外就是統計相鄰詞的共現頻率。мы經常與говорим一起出現，對應We speak，機器在翻譯的時候則優先選擇這個組合。

通過規則優先處理和統計方法處理模糊情況的方式，來彌補規則的不足！」

林燃從統計學的角度給他們好好上了一課。

不過這只是一個開始。

在座的研究團隊們知道了林燃優化策略的輪廓，具體實踐過程中還有大量的細節要進行調整、嘗試和優化。

不過光是現在所說的引進概率，這一點，在座喬治敦翻譯機器的資深研究員們都有種恍然大悟的感覺。

前面講的優化算法和規則設計什麼的，他們感覺有道理，但判斷不了具體實踐是不是真的管用。

但這統計學方法的引入，光靠想像就知道，能夠顯著提升喬治敦翻譯機器的效果。

當天的工作結束後，紅石基地周邊的小餐館裡，加爾文和多斯特爾特坐在角落，面前是兩杯當地特色的啤酒。

加爾文放下筆記本，嘆了口氣說：「利昂，我們真的是蠢貨嗎？」

今天聽完之後，加爾文都要懷疑人生了。

林燃提出了一整套的解決方案，這套解決方案里完整也就算了，其中很多點他們都想到過，但想不到要如何實現，另外就是一些他們連想都沒有想到的點。

一整個團隊差不多快十年的研發思路，不如林燃一下午的乾貨多。

加爾文已經懷疑人生了。

「教授的想法不是超前，而是太實際了。

你會感覺天馬行空，但實際上結合在一起想想，又會覺得無比的實際。

哪怕現在還沒開始，光是從教授提出的框架，我都能想到，採用這套完整方案對喬治敦翻譯機器升級後，它的效果會有多好。」加爾文接著感慨道。

現在他終於知道為什麼NASA的研究人員和工程師能容忍林燃的毒舌了，差距太大，心服口服。

尤其統計相鄰詞彙共現頻率，這並不難想到，但他們就是想不到。

而用統計方法處理歧義場景，增加統計學算法，這個就他們連想都想不到。

多斯特爾特轉過頭，微微苦笑道：「我也一直在琢磨。他提出的統計方法，聽起來像是天方夜譚，但結果擺在眼前。

我估計了一下，喬治敦翻譯系統在教授的指導下，質量至少能提升一大截。

我們不需要精心準備短句，它可以應用在更廣泛的場景，而不是局限在軍事領域。」

加爾文點點頭：「是啊，我一開始還不信，語言這種東西明明是規則驅動的，怎麼能靠統計解決？可他用事實讓我閉嘴了。

不愧是教授，教授對於本質的洞察力是跨越領域的。」

多斯特爾特沉思片刻：「你說的沒錯，感覺就好像他能看穿機器翻譯的本質。

也許這是數學訓練帶來的好處，我怕自己再和教授多呆一段時間，我都想去念一個數學博士了。」

加爾文驚訝地看了他一眼：「數學博士？別開玩笑。」

多斯特爾特認真地說：「我沒開玩笑。

如果數學真的能夠幫助我們更好的洞察本質，我覺得去念一個統計學的博士未嘗不可。」

加爾文沉默了一會兒，笑道：「如果你去，我也去。」

多斯特爾特舉起啤酒都要溢出的酒杯：「為教授乾杯！教授將給我們帶來勝利！」

加爾文笑著回應：「乾杯！不過教授的脾氣，如果教授能溫和一點就好了。」

另一邊，IBM的兩位工程師卡斯伯特·赫德和彼得·謝里丹也對林燃佩服的五體投地。

卡斯伯特揉了揉太陽穴，問：「彼得，你覺得教授的統計模型真能行嗎？」

彼得放下筆，笑著說：「卡斯伯特，我得坦白，一開始我完全不看好他，可現在我徹底服了。教授提出的方法不但讓IBM 7090的性能發揮到了極致，而且能讓翻譯從混亂的狀態至少有了概率做支撐」

卡斯伯特點頭：「我看喬治敦大學的那幫傢伙也這麼認為的，你沒看到加爾文的態度從一開始的質疑到後來聽的無比認真。

教授的算法優化得太完美了。」

彼得苦笑：「魔法嗎？作為這個時代最厲害的數學家之一，也許沒有之一，統計學對教授而言也許只是簡單的數獨遊戲罷了。

只是我沒想到教授能把概率論和語言學結合得如此巧妙，我以前從沒想過機器翻譯還能這麼玩。」

卡斯伯特好奇地問：「你說教授精通俄語，他今天那幾句俄語，可是標準的不能再標準了。

同時還橫跨多個領域，別說IBM，整個阿美莉卡恐怕也沒有人能搞出這樣的方案。

教授會不會和蘇俄有關？」

彼得無語道：「蘇俄人會讓教授呆在阿美莉卡？

要是我是尼基塔，我不可能讓教授這樣的人才呆在白宮。

哪怕能從NASA獲得技術機密，但無論獲得多少技術機密，恐怕都不如教授本身有價值吧。

而且你有沒有想過，如果教授沒有在NASA，而是在莫斯科和科羅廖夫聯手，你能想像這個場景下，阿美莉卡能贏得太空競賽嗎？」

卡斯伯特只是想了想，就馬上搖頭：「絕對不可能。」

「所以，如果教授和蘇俄有關係，怎麼可能呆在阿美莉卡。

他需要做的第一件事恐怕就是在莫斯科主導載人登月。」彼得笑道。

科學家通俄有可能，但擁有影響平衡能力的科學家通俄又不太可能。

如果說他們只是佩服於林燃的學術造詣，那沃森就是全方位的佩服了。

和約翰·摩根類似。

不過沃森佩服的點和約翰·摩根又有所不同。

「教授，你是如何想到要通過展覽館的方式來打造企業形象呢？」沃森舉起紅酒杯，面帶微笑。

時代廣場邊的深藍展覽館給IBM贏得了巨大的聲望。

本來時代廣場一直以來都是紐約地標式的建築，幾乎每個到紐約的遊客必打卡的景點。

而深藍展覽館以一種不屬於這個時代的風格吸引了所有人的眼球。

結合裡面全球僅此一份的人工智慧西洋棋，能夠自動和人對弈。

給當下民眾的震撼是前所未有的。

阿美莉卡企業通過公開展出的方式展示自身科技實力、宣傳自家科技產品的傳統由來已久，這樣的傳統可以一直追溯到英格蘭時期。

無論是最早史蒂芬的火車還是後來的輪船，英格蘭人都是召集民眾，在報紙上大肆宣傳。

而阿美莉卡最早最成功的應該是愛迪生的燈泡，後來貝爾的電話也是經典案例。

但他們都只是瞬間的，只有那一個時刻，給民眾留下的印象要隨著產品進入人們日常生活，他們才會對企業、對品牌有一個更深的認知。

而深藍展覽館的存在，每一個去過的民眾都會對那深藍和黑色線條組成的場館印象深刻。

IBM=人工智慧=高科技的印象刻在了每一個參觀過的民眾的心裡。

這對IBM都不僅僅是企業形象和人工智慧捆綁這一點好處，這幾乎已經奠定了，後續只要白宮下定決心要在人工智慧領域和蘇俄爭個高下。

那供應商將沒有別的選擇，只有IBM。

等於林燃的建議給IBM憑空送來一個全球最大客戶，還是動輒數十年打底的長期訂單。

約翰·摩根旗下的通用航天從NASA手裡拿到訂單，好歹還給了林燃股份，沃森這可是什麼都沒付出。

別說林燃內涵他是蠢貨，就算林燃直接指著他的鼻子這麼說，他也只會說是是是，我是蠢貨。

包廂內，服務員悄然退出，留下安靜的交談空間。

「因為我覺得像深藍這樣的人工智慧，應該給大眾留下足夠深刻的印象。

而不只在IBM內部展示。

至於為什麼要找藝術家來負責設計，一個普通的劇院怎麼配得上深藍呢？」

沃森微笑著點頭：「你說的太有道理了。

我第一次看到技術方舟建成的時候，我有一種它不屬於這個時代的感覺，正是有了你，才有了深藍和技術方舟的誕生。

教授，我必須敬你一杯。」

別說什麼霍金來了都得敬酒。

在林燃面前，你沃森也得給我敬酒。

沃森接著道：「教授，我代表IBM公司，向你致以最誠摯的謝意。

不僅是深藍，在喬治敦-IBM項目中你做出的貢獻令人嘆為觀止。你的創新方法將會讓我們的機器翻譯系統取得了突破性的進展。」

雖然現在還談不上突破性進展，但沃森已經有充分的信心了。

林燃點了點頭，說：「這是應該的，另外沃森，我想無論是深藍還是喬治敦翻譯機器，我為IBM做出的貢獻不是金錢所能衡量的。」

林燃絲毫不謙虛。

這也讓沃森臉上的笑容僵硬住了：「教授，我們會給你一份足夠豐厚的金錢作為報酬的。」

林燃搖了搖頭：「我對金錢不感興趣。」

沃森想想也是，確實從來沒聽說過對方對金錢感興趣。

不過開口就想要股份，沃森還是有些猶豫。

「教授。」還沒等沃森說完。

林燃接著說道：「我需要你滿足我一點小小的條件。

如果你無法滿足我的條件，也許我要認真考慮和通用電氣合作的可能性了。」

通用電氣，要素察覺。

林燃和摩根家族的關係不用多說。

沃森再清楚不過了。

而通用電氣也做計算機。

雖然通用不做大型計算機，但通用的GE-225系列，作為一款基於電晶體的計算機，用於處理工資單、庫存管理和會計等任務。

通用電氣有這個能力，更有這個資本。

要是再加上林燃，和林燃作為大師的號召力，確實能對IBM造成巨大的威脅。

沃森的語氣一下就軟了下來：「教授，你想要什麼？」

「《MIT輻射實驗室系列》」

(本章完)

（還有更新耶）

首頁> 科幻小說> 科技入侵現代> 第148章 你們能比我更懂機器翻譯（5k）

第148章 你們能比我更懂機器翻譯（5k）

首頁> 科幻小說> 科技入侵現代> 第148章你們能比我更懂機器翻譯（5k）

第148章你們能比我更懂機器翻譯（5k）