黃凱奇:非常感謝大會的邀請,感謝主持人的介紹。今天我的報告是關于智能時代的智能視頻監控技術。今天我的演講雖然和網絡不是那么密切,但是和人工智能和視覺是比較相關的,所以我想應該是大家從這上面還是能得到一些啟發的。下面開始我的介紹。
我們為什么要談智能視頻監控呢?我們知道里面有三個詞非常關鍵。
第一是安全,安全是人類的基本需求之一,是根據馬斯洛的理論人的五大基本需求,安全是排在除心理需求之外最重要的需求之一。所以安全是非常重要的。為什么說視覺呢?我們知道視覺主要是通過眼睛獲取外部信息,我們的視覺也就是眼睛能獲取外界80%以上的信息,這么多的信息通過眼睛獲取,怎么處理好這些信息是非常有必要的。
當然,緊緊依靠視覺,僅僅說安全的重要性,僅僅說通過視覺能獲得這么多的信息還是不夠的,因為我們需要很好地處理它,如果對大的信息不能有效地處理,最后安全是無法保障的。因此我們就要提到智能的概念,如何從智能的角度對視覺的信息處理用于保障安全,也也是智能視頻監控的一個初衷。
今天的報告我主要從三個方面給大家介紹一下。首先講講興起,來溯源說說它為什么重要。其次講講技術現在的現狀,最后還想講目前來到智能時代,有很多的東西都加以改變,我們這個技術在智能時代有什么樣的感受。
監控系統尤其是監控系統大家也聽過,有沒有想過它從哪兒來?我查過相關的資料,萬人球最大的好處是球放在房間里,在房間的人能看到房間周圍的人的運動情況,其實就間接地起到了監控的作用,為什么叫萬人球呢?傳說這個球會容納1萬個人,這是對玻璃制造技術的很好的詮釋。
監控技術發展的概念來講分為三個階段,剛說的是用人來看,人獲取信息人來做決策,以前的監控最早的時代的“錦衣衛”。還有我想看得更清楚一些想怎么辦呢?我們用機器眼也就是攝像頭來做這個事。但這個發展到了一個階段,在80年代、90年代的時候,隨著技術的發展包括模擬和數字技術的發展,主要是攝像頭技術的發展產生了這樣兩個技術。
到了90年代也就是2000年之后,隨著初期的人工智能的技術的使用,其實不斷地從五幾年開始在演化,到了90年代時候有一些在這方面的應用。比如說我用計算機,加入了算法的計算機對采集的視頻信息進行處理,這就是監控的概念,這主要依賴于視覺技術。
所以對智能視頻監控做一個定義,就是利用計算機對監控攝像頭獲取的視頻推向進行自動內容的分析合理解。它的作用是為了對異常進行判斷并給出報警,這是應用新很強的,但相關的技術主要是智能技術。
它的產生主要是和國家需求是相關的,我們為什么要用錦衣衛國家和皇帝有需求,現在我們國家的各種反恐和公共安全的事件頻發,這是早期的現象。為了解決這個安全的需求,增加攝像頭是一個大家都能想到的手段,這個攝像頭越加越多。
早期來說是小超市,基本上都覆蓋了,包括中國在2015年的時候在公關安全的領域用得上的已經超過了2000萬,加上其他的交通攝像頭就更多了。所以有這么多的攝像頭,包括帶來的問題,再包括到存儲,存儲是一個大問題。因為存儲需要有硬盤,而且存的話不能只是存一兩天,按照要求是存一個月,成本是一個大問題,成本很高。
另外關鍵的問題,沒有數據我想獲得數據,但關鍵是有了這么多數據怎么辦呢?比如說這里有一個圖,表明人在看一段時間之后,也就是說在12分鐘之后,注意力會下降。到了只有20多分鐘的時候,基本上是到了遺漏率95%。也就是說你看著我在看,我腦子里是沒有這個概念,看了等于沒看。所以在這種情況下,數據越多對人來說就是數據垃圾,它不是一個數據情況的問題了。
如何來解決這樣的問題呢?我們希望用電子眼來代替眼睛,用計算機的智能技術來代替人腦,就產生了這樣的智能視頻的技術,這個技術在業界早已得到了重視了。
這是幾年前的一個市場調研,其實這個機構叫IPVM它是集成了市場、集成商和用戶需求的高端的調研。2012年的時候認為是視頻監控技術的突破口,認為我Video analysis又做了調研,包括了集成方和市場的調研,一個是制造方、一個是集成商的結果。中間其他的技術可能有差別,可是最主要的技術上大家達成了共識,這個是非常重要的,前面把技術的重要程度梳理了一下。
這個技術如此之重要,如此之有用,怎么做的呢?或者說現在做了什么樣進行了簡單的介紹。我們知道既然是用了電子眼和電腦,特點肯定跟人相比能做到7×24的常識,因為只要有電話就能做這個事,這樣而有效。涉及到核心技術,這個技術的背后需要進行分析。
我們看所有的技術發展,比如說80年代模擬視頻監控技術的發展,是微處理器的技術,數字壓縮編碼技術發展到數字視頻監控系統。數字監控得益于兩類重要的突破和發展,一個是計算機視覺技術,實際上它是信息獲取的技術,可以說是感。
另外一個是模式識別技術,它的目的像人腦一樣能夠對信息進行分析,能夠給出一些模式,所以它可以被認為是一種“知”,所以我們說的感知技術,說得比較多,但如果進行細化的話,可以完成這兩種技術。
當然這兩種技術視頻監控從2000年之后,尤其是2005年的時候,國外的公司進入中國市場,其實一直在凱西,但他一直沒有走向大規模的應用,因為隨著技術的成熟度在不斷地應用,尤其是人工智能技術,或者是機器學習技術的突破,對這個技術還是有幫助的。
本身智能視頻監控分為四個大的框架,包括檢測、跟蹤、分類和行為分析等等,我們剛剛說了,它的目的就是從它獲取目標、發現行為進行報警。總的來說就是用目標在哪兒可以用檢測和跟蹤來概括,分類其實是誰的問題。異常行為分析是說你在干什么,有了行為我還知道這個行為是不是異常。下面我對關鍵技術的幾點進行簡單的介紹。
運動目標檢測也就是目標在哪兒,我們要知道一個圖片中的目標在哪兒對人來說是非常簡單的事情,但對電腦其實是不容易的事,因為它非常復雜。
什么造成了復雜性,包括了亮度,左邊的這個圖像汽車是一個夜間的圖像,移動的目標實際上是人都無法發現這個目標真正在移動,計算機能發現這個技術找到一個目標在移動。包括了右邊像是一個交通場景,其實包括了車輛,別看現在沒有,來了以后有影子,監測出來到底是哪個,這是非常難的一個問題。
其實有一些簡單的思路,這些思路大家聽了以后知道概念就可以了。所謂的物體監測無非是兩個東西要做,第一要把原始的圖像獲取,第二是背景獲取,第三是前景,所謂找出來以后兩個進行比較,我就能把這個目標給找出來。
左邊是輸入圖像,所謂的圖像序列就是做背景建模,萬變不離其宗,核心的思想就是這樣的,交流的時候說指導原理我想是很容易理解的。所以對背景進行建模,是運動目標監測的技術,難點在于不漏不撤,要監測是很簡單的事。可是能做到找的目標不漏,假的目標不錯是不容易的事,這是試圖在解決的事。
運動檢測算法我們做了調查,影響的因素非常多,到底哪些因素的影響比較大,比如說正常情況下,效果能達到0.8,精度可以達到0.8,F因子是一個描述值,編碼、復雜背景低照度、光線和噪聲的情況下,效果是怎么樣?有人經常問我們,我們經過壓縮了,會不會對監測有影響呢?
實際上這就是一個評價的結果,發現視頻編碼的情況下影響還不是很大,影響偉大的是夜間的噪聲,本身天就黑,加上又有噪點影響是很大的,這也是很容易聯系起來的。因為網上有很多的噪點不容易區分哪些是真正的移動目標。所以知道了這個,就能根據這個情況做一些選擇,看哪些因素是最重要的。在哪兒?
其實不僅僅是當前的位置,實際上我還想知道它從哪兒來?到哪兒去?這就是一個連續的效果,這是一個跟蹤的例子,途中的這個目標從左邊過來一直到那邊出來一條軌跡,就是跟蹤的效果。這個還是比較好理解的,跟蹤也是同樣的問題,除了目標檢測的問題,碰到的光照和遮擋的問題,是比較重要的問題。
比如說一群目標,單個目標肯定著形變,多個目標有人擋住的情況下,怎么把它有效地檢測出來,這并不是一個很容易的問題,比如說一交錯,這個目標還是能框出來,這是難點的問題。
同樣我們也對這類算法做了評價,哪些因素對它的影響大一些,比如說簡單的用姿態、光照,運動模糊還有部分遮擋等等,如果把尺度姿態、光照、遮擋都加上去的話,這種情況下效果就非常多了,又有光照變化,又有遮擋,還有一些所謂的非剛體,汽車的運動就是剛體的,熊貓的運動就不是剛體的,從一個長方體變成一個圓球要識別就比較難了。這是跟蹤的例子。
跟蹤還有一個問題是我們展示的效果是單個攝像頭的跟蹤,實際上是多個攝像機的前提下,比單個更難以獲取,比如說人的變化,姿態和視角的變化比單向又難得多,這樣三個圖,不同的攝像機下給出不同的ID和身份。
像張三在這個大廳里是張三,出了這個大樓還是張三,所以要做的這件事其實是很難的問題,因為我進門的時候可能是正面,我出門的時候可能就是背面,我下樓的時候也許是從上往下開了,難度也是很大的。這是3D相機的例子。
跟蹤同樣也有一些效果,目前學界在這塊的研究也是非常難的,做得最多的攝像機其實就是在5、6個攝像頭的研究的層面,真正還做不到大規模的應用的效果,因為攝像頭越多、目標越多效果越差。有了目標的位置,知道了目標在哪兒我們想知道目標是誰?
通過身份認證的想法更細更精度,首先是對人的分辨,但對人分辨之前的知識場景里可能還有更多的類別,比如說還有騎自行車的人,還有其他的目標等等,我校把類別分析出來,這就是所謂的分類,比如說我們在這個交通的場景中有騎自行車的人,比如說P就代表了行人,B是代表了汽車都分析出來才能做相關的認為,人走馬路和汽車道是不合法的行為,人上了道也是一樣的。
圖片分類是計算機視覺近期發展最快速的階段,近十年來,計算機視覺在圖像分類的研究上是非常熱的,有各種標準的競賽,包括大規模數據競賽、Pascal,包括非常火的深度學習都是比其他數據庫好了很多的性能,得以一戰成名。
隨著類別和數量的不同,我們這個場景里有多少類,是人還是其他的物體要進行分類,還有那一類的數目有多少,人有多少,物體有多少,這兩個都是重要的指標。因為我們這樣的大規模的數據庫,數據規模是1400萬,但是真正用到測試的話就沒有那么多了。
這是大規模數據庫的錯誤率,早在2010年還沒有正式作為單獨的競賽,一直到2015年到3.57,認為錯誤略超過了人眼,這是一個比較好聽的噱頭,可是我個人認為僅在這個數據庫而已,如果說要超過人類是不可能的。
有了類別,我們區別出是人還是車還是動物還是其他的物體,需要細分ID是什么?具體到人包括了人臉、步態、聲紋、,它有一個performance的表述,所有的視覺的生物特征隨著距離的增加效果是越差,最近的是越好的,指紋接觸是最好的,步態聽起來很炫,聽起來也很好,實際上效果是最差的,或者說基本不能實用的。
這是性能的比較,已經做了一些更新了,人臉、虹膜、步態等細節。目前正在做的視覺的更重要的是從配合式的視覺的生物特征走向非配合式的,除了我們周圍的監控場景下的,一個人過海關很容易對他人臉進行識別,因為要進去必須要正視角,如果不這樣就過不去。
但如果在真正的場景下是做不到的,不能讓他知道我在拍他。有了目標我們要知道它是誰,干什么,我們要知道行為,有單人的也有多人的,比如說單人的行走、摔倒還有其他的行為數據。多人更復雜一些,行為是非常復雜的定義,被認為是和環境相關的。
為什么和環境是相關的?可以看到左邊和右邊,如果從行為來看是一樣的,我們認為是打架的行為,或者說特征表達上是一樣的,可是行為識別是不一樣的,左邊是一個真正的打架,而右邊是在籃球場的防守的動作,這一定是和環境相結合的。
行為比物體類別的難度更大,因為這涉及到視頻,難度是很大的。真實情況下的、監控行為下的多個視角的行人識別的性能是非常低的。在行為數據庫上實際上是非常差的,這說明我們的研究是大有提升空間的。尤其是這樣的情況下,這樣一個密集的情況下,現在的研究重點已經從單人、多人向密集人群的行為識別來聚焦了。
前面花了一些對興起和現狀做了簡單的介紹,最后億九是智能時代視頻監控的發展以及走向做一個個人的看法的闡述。
智能視頻監控技術,如果只是從應用剝離開來,從背后來看可以分成兩個維度,橫向是信息獲取、存儲、傳輸、處理的維度,這個大家很好理解,如果說從縱向的角度發展是從模擬化、數字化、概念化、智能時代、語義化是連續的概念的描述。里面核心的是什么?
有一個核心在支撐它,數據的增加在后面支持,早期是幾個小時模擬的,到后面是GB、TB、PB、ZB級的,有理解和數據的支撐。發展到現在智能時代的來臨。為什么說這樣,大家用的比較多的兩個例子。
一個是大家常見的例子也就是AlphaGo的例子。因為它擊敗的人類的棋手,這個被認為是里程碑式的技術,不僅僅是民口,軍方也是很重視的,這之后的6月份,智能程序阿爾法在空戰中擊敗了空軍上校駕駛的戰機,是真正的人機對抗,后面這個比前面更震撼一些,前面是有規則的,可是后面這實際上人的變化,尤其是訓練的人的變化能對抗起來是非常難的。
所以說人工智能的發展往下走,大家一直在想走到哪一步。人工智能走到現在Kurzweil說,他認為人工智能在2025年到2029年人工智能能達到和人接近了,再過20年就能超越人類,其中還有其他的技術介入,包括認知科學和量子計算。
人工智能的支持下,包括智能穿戴、軍用機器人、無人駕駛、智能監控都能得到極大的飛躍。核心技術的發展是對我們應用技術的發展起到了巨大的驅動的作用。
我們看看智能時代的監控模式,我們認為已經從傳統的分布模式、簡單的分布模式向認知動態的模式進行顛覆性的改變,其中核心的技術包括了并不是簡簡單單的信息獲取,還包括了環境的感知、自主決策、迭代實踐的反饋等等,核心的算法我不細說了。
現在我們正在做新一代的智能視頻監控系統,它被認為所謂的透徹感知,實際上是國家重大專項的支持,所謂的透明空間的感知,實際上是希望通過多向級的協同,實現各個場景的應用,從小范圍的人到大范圍的場景,一直到更大范圍的空間的理解。也就是說包括了研判,包括了發生或者是沒有發生的事情進行研判。
總結一下,我們認為智能時代給我們帶來了很大的機遇也帶來了很大的挑戰,總的來說我們還是能從智能時代的技術,如果合理、理性的認識他,并正確地使用它還是會給我們的生活帶來很大的便利。謝謝大家!