論文主要的貢獻點之一是提出一個新模型:inflated 3D network(I3D),把2D模型擴張到3D模型,這樣就不用專門設計一個視頻理解的網絡了,可以使用2D里已經設計好的網絡,比如VGG、ResNet直接把它擴張到3D就可以了,甚至利用一些巧妙的方式把預訓練模型利用起來,這樣不僅設計簡單,而且可以省掉很多預訓練的麻煩。
另一個貢獻點就是提出了一個新的數據集——Kinetics數據集(Kinetics Human Action Video dataset)。這個大型視頻行為識別數據集比UCF-101和HMDB-51大了兩個數量級。包括400個人類動作的類別,每個類別都有超過400個clips。數據集是從Youtube中搜集的真實場景下的視頻。一經提出就得到了廣泛的使用。