藝術風格智能認知辨識及其機械設計應用研究
摘 要:機械產品美學設計是機械制造中的一個重要組成部分,而設計藝術風格的界定是美學設計中的關鍵,它主要是人類認知機理的反映,但目前對藝術風格的識別算法多限于將藝術風格進行量化,忽略了人類感知在設計藝術風格分類中的重要作用,存在特征篩選困難、算法內在機制解釋性差等問題。對此,創新性提出了一種基于人類認知機理的設計藝術風格智能識別方法。依托深度卷積神經網絡模型構建了ACNN網絡主線,對設計圖像進行了特征提取,通過三種可視化方法對各卷積層進行特征可視化,結合人類對各層特征圖的認知調整網絡參數,并融入人類認知輔助結構,基于人類認知機理驅動網絡,使網絡能夠重點篩選有效特征,最后通過實驗進一步驗證了此方法的有效性。研究是設計藝術風格識別方法研究領域的有益補充,可為機械產品提供美學設計指導。
關鍵詞:設計藝術風格分類; ACNN人類認知神經網絡;人類認知機理;機械美學;
Research on Intelligent Recognition of Art Design Style Based on Human Cognitive
Mechanism and Its Application in Mechanical Aesthetic Design
ZHOU Miao JIANG Lan YANG Yue-ming
School of Mechanical Engineering and Automation Northeastem University School of Biomedical
Engineering Northeastern University Shengyang Urban Construction University
Abstract:The aesthetic design of mechanical products is an important part of mechanical manufacturing. The recognition of design art style is the key in aesthetic design, it is mainly the reflection of human cognitive mechanism. However, the recognition algorithm of art style is limited to quantify the artistic style, neglecting the important role of human perception in the classification of design art style, which has the difficulty of feature selection and poor interpretability of internal mechanism. In this paper, an intelligent classification method of design art style based on human cognitive mechanism is proposed. Based on the deep convolution neural network model, ACNN network mainline is constructed, and the image feature is extracted. The features of each layer are visualized by three visualization methods. The network parameters are adjusted according to the cognition of human beings on each layer of feature map, and the auxiliary structure of human cognition is integrated. Based on the human cognitive mechanism, the network can focus on screening effective features, Finally, the effectiveness of the method is further verified by experiments. Research is a useful supplement to the field of design art style recognition method, which can provide aesthetic design guidance for mechanical products.
Keyword:Art Design Style Classification; ACNN Artificial Cognitive Neural Network; Human Cognition Mechanism; Mechanical Aesthetics;
在機械設計制造中,產品的美觀度直接影響產品的形象,從藝術設計美學視角出發,使功能與審美相符合,以達到最優的綜合設計效果。設計藝術風格的智能識別可實現機械設計產品智能數據庫風格自動檢索及后續特定風格的參數化設計,但現有的設計藝術風格智能識別多僅將藝術風格進行量化,以情感識別和圖像淺層特征提取相關的研究為主。如日本多所大學提出感性媒體研究,并實現了Art Meseum和K-DIM等情感圖像檢索原型系統[1,2];王偉凝等人給出一個圖像情感語義提取的結構框架[3],指出圖像中的各因素和情感之間有很大的關系,實現了圖像的情感語義分類和檢索;錢文華等人提出一種基于信息熵的藝術風格分類算法,計算圖像的顏色熵、分塊熵和輪廓熵,并用支持向量機(SVM)實現分類[4]。它們大多忽略了人類審美的主要特點是主觀性,Mj.弗里德倫德爾提出:藝術活動首先是一個情感性的精神過程,任何一項科學性的藝術研究必然屬于心理學范疇。按照設計藝術學的學科解釋,對設計師及其作品的風格研究,同樣屬于心理學范疇[5]。上述研究由于隔斷了人類認知機理和風格分類識別的關系,相對而言存在特征篩選困難、算法內在機制可解釋性差等問題??梢?,要讓計算機對設計作品的風格做出快速、令人信服的判別,必須建立在人的生理反饋、心理情感、風格文脈意義之上,即找到人的認知層與機器學習卷積層映射關系。由此,以人的認知機理為基礎來研究設計風格智能分析技術是必要的。
研究以人類認知機理為出發點,結合人類認知神經網絡(artificial cognitive neural network, ACNN),創新性地將人類認知機理用于網絡決策,對各層特征可視化后結合人類對各層特征圖的認知調整網絡參數,同時融入人類認知輔助結構使對分類起重要作用的特征得到更好的篩選,對以人類認知機理為出發點的設計藝術風格智能識別方法進了有益的探索并將其用于機械美學設計,有效地解決了人類認知和設計藝術風格識別間的隔斷問題和機械產品外觀設計問題,具有一定的創新性和優越性。
1 人類認知機理算法表現
人對藝術風格的認知構成分為三個層面,即行為層、本能層和反思層,如圖1所示。人之所以能快速準確的對設計作品的藝術風格進行主觀判定,是基于原始設計圖像的分析(行為、反思層),結合生理、心理感受(本能層)等情感問題的主觀推理和判斷,需要建立在知識、規則學習和文化、情感傳承的基礎之上。在邏輯層面,本質上是一個將多維圖像特征映射到認知層次的過程。
人類認知的行為層,是對視覺元素獲取階段,在算法中表現圖像卷積淺層特征提取,如色彩、形狀、紋理及空間方面構成等設計師構成風格手法的行為元素;人類認知的本能層,在算法中表現為語義特征提取,包含了人在審美過程中生理感受(色調、光色、明度)和心理語義(情感因子)等本能層次;人類認知的反思層,在算法中表現為圖像卷積深層特征提取,模擬人類通過邏輯推理和識別典型文化符號(如柱頭、穹頂、花紋等)引發的文化聯想和審美同情,通過語義(文化符號形成的特定文脈、故事、隱喻)匹配判斷圖像屬于某些風格。
2基于人類認知機理的設計風格識別網絡總體架構
網絡總體架構設計如圖2所示,主體由1個輸入層、9層卷積層、3層池化層、1個全連接層和1個輸出層組成。
基于人類認知機理的設計風格識別網絡總體架構根據VGGNet使用數個VGGBlock堆疊的原理,設計了由卷積層、sigmoid激活和池化層構成的Block。此外,VGGNet模型驗證了增加網絡深度可以有效提升模型性能這一結論,它具有不同的配置體系結構,其中含有8個卷積層的VGGNet-11和含有10個卷積層的VGGNet-13有相對簡單的網絡結構和較好的分類效果,由此,在主體網絡中探索性地設計了9層卷積層以實現計算量和輸出特性的最優化,即主體網絡分為3個Block,各Block對應的卷積層數量為(2,3,4)。
在主體網絡架構完成后,受GoogleNet中inception結構的啟發,在網絡深度和寬度較大時,為處理龐大數量的參數,可采用聚類的方法提高計算性能。由此,設計了人類認知輔助結構,讓對分類識別起決定性作用的層次的卷積輸出聚集,為其附加權重,使網絡重點提取符合人類認知機理的特征,進一步提高分類的準確率。
先使用建立室內風格圖片數據集對主體網絡預訓練,初步確定各層所對應的參數;在可視化ACNN的各通道特征后,通過設計師對特征人工篩選對室內藝術風格判定發揮重要作用的卷積層,在這些卷積層后添加人類認知輔助結構,為其附加權重,使網絡著重訓練對藝術風格分類更有效的特征,最終四種分類結果由所有分類器的加權輸出決定。
3 ACNN辨別設計圖像風格的研究
3.1設計圖像特征提取
首先用卷積對設計圖像進行特征的提取。每一次卷積相當于一次映射,(1)式中:x—輸入的一張三維圖像,w—使用的一個三維卷積核,將對應元素相乘求和,其中l和i?l—所在位置的行,m和j?m—所在列,n和k?n—所在頁,則輸出可表示為[6]:(x?w)(i,j,k)=∑i∑m∑nx(l,m,n)w(i?l,j?m,k?n)(1)
若訓練集中樣本圖片達到足夠多數量,最終卷積核會訓練成線條、紋理等待提取的特征。
卷積獲得特征之后,需要利用這些特征去做藝術風格分類。如果把所有計算得到的特征關聯到一個分類器上,會導致計算量非常大,且極容易出現過擬合。由此,引入隨機池化[7]進行特征壓縮和簡化計算,,以池化域中每個元素的權重為概率進行依概率抽樣,首先通過歸一化區域內的激活來計算每個區域的概率,(2)式中:pi —某一特定元素對應的概率,分子ai—這一元素的值,分母為全部元素值的和。
(3)式中:從基于p的多項分布中抽樣,l—在區域內選擇的一個位置,隨機池化的結果為sj:
特征圖中的元素按照其概率值大小被隨機選擇,元素數值大則選中幾率大,優點在于風格判定中既能較好地保留整體數據的特征,突出室內設計圖像的背景信息;又能保留較多的圖像細節紋理特征。
由于softmax分類器能學習、理解非常復雜和非線性的映射關系,ACNN的主體網絡和人類認知輔助結構中的分類器都采用軟最大輸出函數softmax[8],(4)式中:xi—i通道輸入信號;exp(xi)—以自然常數e為底的指數函數。
3.2 ACNN網絡可視化
藝術風格是一種高度抽象的信息,它很大程度上是人類認知對外界美的反映。在完成特征提取后,通常直接將提取出來的特征經全連接層輸入分類器中進行分類,但深度學習對圖像的分類過程往往具有不可見性,多數情況下不能很好地反映人類認知,這樣得出的分類結果往往具有盲目性。而利用特征可視化可以窺探ACNN網絡內部機理,理解網絡節點如何學習特征,幫助優化網絡結構,并進一步提高模型對人類認知機理的模擬能力。
由此,ACNN網絡特征可視化從橫向、縱向、相關組三個角度進行,它的優點主要在于:①了解網絡的工作原理,找出網絡進行決策判定的依據,提升網絡的可理解水平。②利用可視化實現人類認知與網絡內部信息的交互,利用現實世界中人類的真實認知構建更好反映人類認知機理的分類網絡。
3.2.1 橫向可視化分析
橫向可視化,即對不同卷積核卷積操作后的輸出進行分析,如圖4中1a所示。利用激活最大化方法,尋找一個輸入圖像使某個通道激活響應最大來生成可視化特征圖,此可視化圖能最大地反映出對應卷積核從全體輸入樣本中學習到的某種特征,同時將其他特征的干擾降到最小。
訓練網絡后,設cij(θ,X)為ACNN網絡中第j層中單元i的激活,cij是參數θ和輸入樣本X的函數,即通道特征可視化轉化為尋找輸入Xmax, Xmax表示當cij(θ,X)最大時X的取值。
為了尋找Xmax,使用梯度上升法對輸入圖像X進行隨機值初始化,然后設置學習速率β,計算cij(θ,X)的梯度,在梯度方向上調整輸入圖像X,進行迭代:
橫向可視化輸出圖像如圖3中2a所示。
3.2.2 縱向可視化分析
縱向可視化,即對不同通道相同空間位置的輸出結果的分析,如圖4中1b所示。由于單個神經元可視化僅能反映極少數輸入圖像的特征,而從縱向空間位置角度組合神經元特征能將ACNN網絡提取到的輸入樣本圖像特征可視化為符合人類認知,可以理解共情的圖形。一個卷積層特定對應位置所有神經元的特征加權和形成空間位置特征,可視化縱向位置格激活向量提取的特征,能夠幫助分析和理解輸入室內設計圖像不同位置紋理、對象的特征信息。
選取通道尺寸a×b,卷積層通道數量為k,設該卷積核大小為t×t, 由此通道可看成at×bt個位置格。設Hxmn為第x通道第m行、第n列位置神經元的特征可視化,則Hx為通道x的特征可視化。由于圖像不同位置激活大小存在差異,導致圖像不同縱向位置神經元特征有不同的組合。設pxmn為Hxmn對應權重,則縱向可視化特征圖A的第m行、第n列位置的可視化圖Amn可表示為[9]:
利用公式(7)將各計算完的單元位置格可視化圖像拼接組合??v向可視化輸出圖像如圖3中2b所示。
3.2.3 相關組可視化分析
以上兩類可視化分析僅限于表達圖像空間位置或者單獨一種特征模式。相關組可視化通過非負矩陣分解找到卷積層中高度相關的神經元組以辨別更有意義的神經元組合方式,使可視化分析更容易被人類理解。這樣的非負矩陣分組方法反映了人類認知機理過程,即“局部組合推出整體認知”,具有認知語義意義。
(8)式中:L—卷積層激活,設該卷積層有k個大小為a×b的通道,即構成a×b×k維矩陣??蓪近似分解為基矩陣G和系數矩陣F:
即得到結果為系數矩陣F作為權重系數的各通道Hx特征加權和。利用非負矩陣分解特定卷積層中高度相關的神經元組,用公式(8)得到系數矩陣F作為權重,用公式(9)計算通道加權和[10],得到的可視化結果與人類認知分類存在更好的擬合效果,獲得的語義信息也更強。相關組可視化輸出圖像如圖3中2c所示。
3.3設計風格識別網絡結構優化
在特征提取和三種網絡可視化完成后,通過利用網絡索引得到的數據集預訓練ACNN網絡,結合人類對各可視化特征圖的認知將各層參數進行調整,即根據看到的可視化圖片信息多少、獲得全局特征的優劣和與人類認知三個層次的符合程度進行卷積核大小、步長、個數的調整,參數調整能及時修復網絡缺陷,預訓練能顯著地減少正式實驗時訓練的時間,調整后網絡各層的參數如表1所示。
可視化各卷積層通道特征后,人工觀察其中更符合人審美習慣,對藝術風格判定有重要作用的三層通道,可視化示例如圖4所示。
卷積層2傾向于提取人類認知行為層面特征,從特征圖中可以看出具有明顯排列規律的紋理,交錯的顏色塊和平面凹凸空間分布。卷積層5傾向于提取人類認知本能層面特征,卷積層5可視化后的特征圖中多種不同元素組合構成有濃烈情感色彩的意境,其明艷度高,色相較全,元素花紋復雜,突出高貴優雅、奢華大氣的場景,給人一種古典繁復鮮艷奢華的情感感受。卷積層8傾向于提取人類認知反思層面特征,其可視化后的特征圖中可看出迭級多層次吊頂、直線石膏板線條、輪廓和轉折部分有對稱而富有節奏感的曲線等典型元素,表現出濃郁的古典主義風格。
選取卷積層2、卷積層5和卷積層8,在其后添加人類認知輔助結構,并附加權重,讓人類認知機理的層面融合到網絡分類識別中,促使網絡重點訓練符合人類認知機理過程的特征,加大能對應人類認知的卷積層的特征相應權重。人類認知輔助結構由隨機池化(Stochastic Pooling)層、全連接層和Softmax分類器構成,并用Dropout緩解過擬合,詳細信息如表2所示。
人類認知輔助結構中隨機池化層輸出大小和Dropout輸出大小取決于對應卷積層通道數量,全連接層和Softmax輸出大小由分類類別所決定。
4 實驗驗證及結果分析
針對有關設計藝術風格圖像分類識別相關研究較少,開源數據集難以獲得的情況,使用Image-Downloader爬蟲工具,分別使用歐式復古(古典主義)、歐式現代(現代主義)、中式復古(明清風格)和中式現代(新中式)等關鍵詞各自爬取了5000張圖建立訓練庫。
據上述對各卷積層所提取特征的可視化情況,提取符合人類認知機理行為、本能、反思三個層面的特征的卷積層2、卷積層5、卷積層8中人類認知輔助結構分別加以0.15的權重參與模型訓練和室內設計風格分類,主體網絡中的總分類器占0.55權重。這樣做能重點訓練符合人類認知機理的特征,并使這些特征的作用放大,使其對最終分類結果產生直接影響,減少不必要信息的干擾和重要信息的損失。
引入準確率(Accuracy)來評估網絡對藝術風格的分類結果,表示為:
(10)式中:TP—將正類預測為正類的個數(正—正),TN—負-負,FP—負-正,FN—正-負。
對室內設計圖像藝術風格的分類識別準確率實驗結果如圖6所示,橫軸為所用于訓練的室內設計藝術風格圖像數據庫容量,四條曲線分別代表歐式復古(古典主義)、歐式現代(現代主義)、中式復古(明清風格)和中式現代(新中式)各自的分類識別準確率,由圖可知,四類藝術風格的分類準確率隨著訓練樣本的增加大致呈增加趨勢,說明在一定范圍內,增加輸入樣本可以提高網絡的分類準確率,且當數據庫容量達到5000時,上述四類藝術風格的分類識別準確率分別為:93.7%,92.0%,93.1%,91.6%。
為了驗證添加人類認知輔助結構對于室內設計藝術風格分類的有效性、重要性,分別在ACNN網絡共9個卷積層分別添加人類認知輔助結構,加以0.15的權重參與模型訓練和分類,主體網絡中的總分類器占0.85權重。實驗結果如表3所示,實驗1為對照組,不改動原始網絡結構。表中實驗3、6、9顯示,根據網絡可視化分析并結合人類認知機理選取的卷積層2、卷積層5、卷積層8是適合添加人類認知輔助結構的卷積層,它們能較明顯地提高分類準確率,而其他卷積層對分類準確率影響較小甚至起到負面影響,這說明ACNN網絡結構優化有一定的必要性和先進性。
同時需要說明的是:1、囿于存在不同藝術風格評判標準,研究基于人類認知的藝術風格分類算法可能與基于其他評判標準的算法,在輸出藝術風格類別上存在少量差異;2、囿于現有藝術風格存在融合交叉趨勢,某些室內設計不能單獨用一種藝術風格進行定義,導致符合要求、有確切一種藝術風格定義的數據集難以獲得且分類識別過程中輸出結果的準確率提升較為困難。
表 3 各層添加人類認知輔助結構后準確率對比
Tab.3 Accuracy Comparison in Interior Design
進一步增加訓練數,擴展訓練庫的圖片類型,將輸入輸出作為映射對存入,建立機械設計藝術風格數據庫。當用戶輸入主空間設計圖時,通過ACNN網絡識別出對應風格和輸出各參數,在數據庫中查找符合的子空間配置,測試結果如圖6所示。
5結論
基于人類認知機理提出的ACNN網絡模型,能通過橫向、縱向、相關組可視化找出最能反映人類認知機理三層次的卷積層,并在其后加入人類認知輔助結構優化網絡模型,使其對于人類認知機理有較好的擬合效果,更適用于設計藝術風格的智能識別分類任務。實驗結果表明ACNN網絡模型在分類識別上準確率平均達92.6%,并驗證了在適當卷積層添加人類認知輔助結構后準確率平均提升2.23%。其成果可用于提供個性化機械產品設計、提高空間場所內設計風格的一致性、實現藝術風格的數字化管理等,有助于在人類美學認知與智能設計之間搭建橋梁,為機械美學設計提供指導,讓智能算法更好地為人類服務。
參考文獻
[1] Yoshida K,Kato T,Yanaru T.Image Retrieval System Using Impression Words[C ].1998 IEEE International Conference on Systems, Man, and Cybernetics. San Diego, CA,1998,3(11/12/13/14): 2780-2784.
[2] Bianchi-Berthouze N.K-DIME;A affective image filtering system[J].IEEE Multimedia, 2003,10(3): 103-106.
[3] 王偉凝,余英林.圖像的情感語義研究進展[J].電路與系統學報,2003,8(5):101-109.
[4] 錢文華,徐丹,徐瑾等.基于信息熵的風格繪畫分類研究[J]. 圖學學報, 2019, 40(06): 991-999.
[5] 王志平,倪曉莉.心理認知圖式對視覺藝術發展的影響[J]. 美術觀察, 2009(08): 117.
[6] LeCun Y,Bengio Y,Hinton G.Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[7] Zeiler M.D,Fergus R.Stochastic Pooling for Regularization of Deep Convolutional Neural Networks[J/OL].arXiv preprint,2013,arXiv:1311.2901,
[8] Wu Y,Li J,Kong Y,Fu Y.Deep Convolutional Neural Network with Independent Softmax for Large Scale Face Recognition[J].MM’16:Proceeding of the 24thACM international conference on Multimedia,2016(10):1063-1067.
[9] Yu R,Shi L.A User-based Taxonomy for Deep Learning Visualization[J].Visual Informatics,2018,2(3);147-154.
[10]白耀輝,陳明.利用自組織特征映射神經網絡進行可視化聚類[J].計算機仿真,2006 (01) :180-183.