검색 상세

ML-LST를 이용한 화자인식에 관한 연구

Speaker Recognition using ML-LST Adaptation Technique

초록/요약

최근 인공지능 기능을 삽입한 어플리케이션의 증가로 적은 적응 데이터를 이용한 고속 적응에 대한 관심이 높아지고 있다. 본 논문에서는 화자 인식에 초점을 두어, 고속 화자 적응에 강인한 ML-LST(maximum likelihood linear spectral transform) 적응 알고리즘을 사용하여 화자 인식 성능을 평가해보고자 한다. HMM(hidden Markov model)을 기반으로 한 화자 모델은 수많은 훈련 데이터를 필요로 하므로 이를 극복하기 위해서 화자 적응 과정을 거치게 된다. 화자 적응을 위한 알고리즘으로는 MAP(maximum a posteriori)방법과 MLLR(maximum likelihood linear regression)방법이 주류를 이루고 있다. 적응 방법을 비교해 보면, MAP는 적응 데이터의 양이 많을 경우에만 좋은 성능을 보이는 반면, MLLR은 MAP보다 적은 적응 데이터에도 좋은 성능을 보이지만, 직접적인 모델 업데이트가 아니기 때문에 성능 향상에 한계를 갖고 있다. 따라서, ML-LST 적응 알고리즘을 사용하여 화자 식별 및 화자 확인을 통한 화자 인식 실험을 해 보았다. ML-LST 알고리즘은 MLLR에 비해 필요한 적응 파라미터 수가 적기 때문에 더 빠른 적응이 가능하다는 장점을 갖고 있다. 적응 데이터와 테스트 화자의 수를 다양하게 증가시켜 실험해 본 결과, 적응 데이터가 증가할수록 매우 안정된 식별률을 보였으며 MLLR에 비해 ML-LST가 뚜렷이 향상된 화자 확인률을 보인다는 것을 확인할 수 있었다.

more

초록/요약

The purpose of this thesis is to investigate the performance of speaker recognition in terms of rapid adaptation of ML-LST. To improve weakness of speaker model based on Hidden Markov models(HMMs) that needs large amount of training data, speaker adaptation methods are usually used. Two types of major adaptation methods are maximum a posteriori(MAP) and maximum likelihood linear regression(MLLR). MAP algorithm shows good performance when huge adaptation data exist while MLLR algorithm needs small number of adaptation data to be a good model. However, MLLR has a limitation to improve performance as it doesn’t update speaker model directly. Recently, applications using artificial intelligence technique have been increased in many ways and interests of rapid adaptation using small amount of adaptation data have been grown gradually. In this thesis, focused on speaker recognition, the speaker recognition experiments including speaker identification and speaker verification are performed using ML-LST algorithm, robust for rapid speaker adaptation. ML-LST makes fast adaptation possible as needed adaptation parameters are so small. This thesis has shown that speaker identification rate is very stable as increasing adaptation data and that speaker verification rate using ML-LST algorithm is remarkably improved than MLLR.

more

목차

제 1 장 서 론 1
제 2 장 관련 연구 4
2.1 HMM (hidden Markov model) 4
2.2 화자 적응 방법 12
2.2.1 적응 방식에 따른 화자 적응 방법 12
2.2.2 알고리즘에 따른 화자 적응 방법 13
2.2.2.1 MAP 적응 방법 14
2.2.2.2 MLLR 적응 방법 16
2.2.2.3 알고리즘에 따른 기존 화자 적응 방법의 비교 18
제 3 장 ML-LST 적응을 이용한 화자 인식 20
3.1 ML-LST 적응 알고리즘 20
3.1.1 선형 스펙트럴 변환 21
3.1.2 ML-LST 평균 변환 파라미터의 추정 22
3.2 ML-LST 적응 알고리즘을 이용한 화자 인식 24
제 4 장 실험 및 결과 분석 28
4.1 실험 환경 28
4.2 실험 결과 29
4.2.1 화자 식별 실험 29
4.2.2 화자 적응 실험 34
4.2.3 화자 확인 실험 36
제 5 장 결론 39
참고문헌 41

more