設為首頁   添加收藏  
服務熱線:0433-2753305
行業新聞
行業新聞 當前位置:創業軟件 > 行業新聞
  • 機器人能否像人類一樣感知時間?新研究使用強化學習賦予時間感知


    發布時間:2020-01-02   瀏覽次數: 499 次


  • 研究人員通過結合知識和視頻問答,提出了一種新的視頻理解任務。


    首先,他們提出了一個稱之為KnowIT(knowledge informated temporal)VQA的視頻數據集。該數據集源自電視劇生活大爆炸(The Big Bang Theory),其中包含了眾多知識問答。KnowIT擁有24000多個人工生成的問答對,并將視覺、文本和時間與基于知識的問題相結合。其次,他們提出了一個視頻理解模型,將視頻的視覺和文本內容與特定的節目知識結合起來。

    他們發現:

    知識的結合為視頻中的VQA帶來了顯著改進;KnowIT VQA的性能仍然落后于人類的準確性,這表明它對于研究當前視頻建模的局限性是有所幫助的。


    他們的工作表明了基于知識的模型在視頻理解問題中的巨大潛力,這些模型將會為將自然語言處理(NLP)和圖像理解的進步結合發揮重大作用。

    該框架證明,視頻理解和基于知識的推理都是回答問題所必需的。它能夠檢索并融合語言和視頻的時空域,以便對問題進行推理,從而來預測正確答案。

    但相比于人類的表現,(該框架)仍存在著很大差距。研究人員希望該數據集將有助于在該領域開發更魯棒的模型。

    原文:

    https://arxiv.org/abs/1910.10706v3

    用強化學習教機器人感知時間

    眾所周知,人類和動物的大腦具有負責時間認知的不同區域,而機器人則根據將時間視為外部實體(例如時鐘)的算法來執行任務。是否有可能從生物學上激發時間感知機制,并在機器人中重現它們呢?

    在這項工作中,研究人員觀察了大腦用來負責時間感知的計時機制。他們利用貝葉斯推斷得出的結果來預估數據的時間流逝,并利用TD學習特征表示來訓練代理成功完成與時間相關的任務。由于選擇了代表時間的特征,他們表明,在這種情況下,他們能夠為代理提供一種類似人類和動物所經歷的時間流失的感知。

    本文的主要貢獻:

    提出了一種從機器人傳感器收集環境數據的建模方法;在特定假設下,可以從數據中獲得正確的時間估算;成功將時間認知機制應用于強化學習問題當中;賦予機器人在與時間有關的任務中復制動物行為的能力。

    這項工作提出了一種為代理提供時間認知的過程。對機器人來說,對于時間的感知能夠讓它們像人類一樣,在不同的環境和人物中學習適應對話。該框架已被提議在未來在真正的機器人中實現。

    原文:

    https://arxiv.org/abs/1912.10113

    Lite BERT:自監督學習語言表示

    在本文中,Google AI的研究人員設計了一種Lite BERT(ALBERT)架構,該架構具有比傳統BERT少得多的參數。一個類似于BERT-large的ALBERT配置與前者相比,參數減少了18倍,并且訓練速度提高了約1.7倍。

    ALBERT集成了兩種參數歸約技術:第一種技術是分解式嵌入參數化;第二種技術是跨層參數共享,它可以防止參數隨著網絡深度的增加而增長。這兩種技術在不嚴重影響性能的前提下大大減少了BERT的參數數量,從而提高了參數效率。


    參數歸約技術也可以作為正則化的一種形式,從而穩定訓練并有助于泛化。

    為了進一步提高ALBERT的性能,研究人員還引入了一種自監督的損失來進行句子順序預測。結果,他們能夠擴展到更大的ALBERT配置,同時這些配置的參數仍然比BERT-large少,但性能卻明顯提高,從而在GLUE、SQuAD和RACE基準上為自然語言理解建立了全新的結果。

    ALBERT的成功證明了它在識別模型方面的重要性,因為它在這些方面產生了強大且適當的表示。

    通過集中精力改進模型體系結構的這些方面,這項研究表明了可以在廣泛的NLP任務上極大提高模型的效率與性能。為了促進NLP領域的進一步發展,研究人員已將ALBERT開源給研究界。

    代碼與預訓練模型:

    https://github.com/google-research/google-research/tree/master/albert

    原文:

    https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html

    有序還是無序?讓我們重新審視用于視頻的人物身份識別

    基于視頻的人員身份“再識別”方法是近些年來計算機視覺領域中一個熱門研究方向,因為它可以通過充分利用時空信息來達到更好的識別結果。

    在本文中,研究人員提出了一種簡單但十分驚艷的VPRe-id方法,他們將VPRe-id視為基于圖像的人員重新識別問題的有效無序集合。


    具體來說,研究人員們將一段視頻劃分為許多個單獨的圖像,然后對這些圖像中出現的人進行識別和排序、并重新組合出最終結果。他們以i.i.d.假設為前提,提供了一個錯誤邊界用于闡明改進VPRe-id的方式。

    這項工作還提出了一種很有前景的方,可以彌合視頻和人物信息重新識別結果之間的差距。研究人員們對這個差距進行評估,證明了他們所提出的這一方案在多個數據集(包括iLIDS-VID、PRID 2011、和MARS)中都達到了業界領先的水平。

    基于視頻的人物重新識別非常重要,因為它在視覺監視和取證等領域有著廣泛應用。這項工作通過將VPReid視為一個進行無序整體排名的任務,提出了一種簡單而強大的人物重新識別的解決方案。其中,每個基本排名都由一個具有單個人員身份的標識符來體現。

    該解決方案通過使用RNN輸出在不同時間步長上的時間池中的多個特征表示,學習了無序表示,研究人員認為這對于VPRe-id更為重要。結果也證明了我們可以從不同角度解決VPRe-id這一事實。

    原文:

    https://arxiv.org/abs/1912.11236v1

    一個使用Python可視化工具實現的全新文本分類器

    近日,一個名為SS3的文本分類機器學習模型橫空出世,它非常適合處理社交媒體信息流上的ERD問題。在CLEF eRisk開放任務(例如偵測早期抑郁、厭食和自我傷害)上達到了業界領先的水準。

    在本文中,研究人員介紹了PySS3:這不僅是一個實現了SS3的Python框架,而且還附帶可視化工具,使研究人員可以部署更強、更加容易解釋且值得信賴的機器學習模型來進行文本分類。

    PySS3是一個開放源代碼的Python框架,它實現了SS3,并帶有兩個有用的工具,這些工具讓開發者能夠以非常簡單、易交互和可視的方式使用它。例如,其中一個工具能使用可視化工具對模型進行解釋,該可視化工具直接突出顯示原始輸入文檔的相關部分,從而使研究人員能夠了解所部署的模型。

    PySS3是使用Python開發的,并經過專門編碼來與Python 2.7和Python 3.x兼容。 此外,它還與不同的操作系統兼容,例如Linux、macOS和Microsoft Windows。

    PySS3帶有針對研究社區的實用開發與可視化工具,它為研究人員和從業人員提供了一個平臺,可以部署強有力的、可解釋的和可信賴的機器學習模型進行文本分類。

    它還允許他們部署SS3模型并通過特殊命令在機器學習的每個階段(包括模型選擇、訓練、測試等)與它們進行交互。
湘阴推倒胡麻将下载 北京快中彩基本走势带坐标连线 排列五直播 重庆福彩农场快乐十分分析 广东36选7计划 秒速赛车是哪里开的 2019湖北11选5开奖号 重庆一分快3彩票计划软件 3d今晚试机号金码关注 广东好彩1开奖结果 福利彩票排列7结果