Journal Articles – HLT – Electrical and Computer Engineering

Journal Articles – HLT

2024

Ruijie Tao, Xinyuan Qian, Rohan Kumar Das, Xiaoxue Gao, Jiadong Wang, Haizhou Li, "Enhancing Real-World Active Speaker Detection with Multi-Modal Extraction Pre-Training," in IEEE Transactions on Multimedia, https://doi.org/10.48550/arXiv.2404.00861

Wupeng Wang, Zexu Pan, Xinke Li, Shuai Wang and Haizhou Li, "Speech Separation With Pretrained Frontend to Minimize Domain Mismatch," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp. 4184-4198, 2024, DOI: 10.1109/TASLP.2024.3446242

Xiaoxue Gao, Zexin Li, Yiming Chen, Cong Liu and Haizhou Li, "Transferable Adversarial Attacks Against ASR," in IEEE Signal Processing Letters, vol. 31, pp. 2200-2204, August 2024, doi: 10.1109/LSP.2024.3443711.

Jingru Lin, Meng Ge, Wupeng Wang, Haizhou Li, Mengling Feng, "Selective HuBERT: Self-Supervised Pre-Training
for Target Speaker in Clean and Mixture Speech", in IEEE Signal Processing Letters 2024, DOI: 10.1109/LSP.2024.3383794

Xinyi Chen*, Qu Yang*, Jibin Wu, Haizhou Li, , Kay Chen Tan, "A Hybrid Neural Coding Approach for Pattern Recognition With Spiking Neural Networks," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 5, pp. 3064-3078, May 2024, doi: 10.1109/TPAMI.2023.3339211

Tianchi Liu, Kong Aik Lee, Qiongqiong Wang, Haizhou Li, "Golden Gemini is All You Need: Finding the Sweet Spots for Speaker Verification", in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp. 2324 - 2337, April 2024, DOI: 10.1109/TASLP.2024.3385277.

Xuehao Zhou, Mingyang Zhang, Yi Zhou, Zhizheng Wu, Haizhou Li, "Accented Text-to-Speech Synthesis With Limited Data" in IEEE/ACM Transactions on Audio, Speech and Language Processing, DOI 10.1109/TASLP.2024.3363414

2023

Kun Zhou; Berrak Sisman; Rajib Rana; Björn W. Schuller; Haizhou Li, "Speech Synthesis With Mixed Emotions," in IEEE Transactions on Affective Computing, vol. 14, no. 4, pp. 3120-3134, 1 Oct.-Dec. 2023, doi: 10.1109/TAFFC.2022.3233324

Zhiping Lin, Zhenyu Weng, Huiping Zhuang, Fulin Luo, Haizhou Li, "Few-Shot Contrastive Transfer Learning With Pretrained Model for Masked Face Verification," in IEEE Transactions on Multimedia, vol. 26, pp. 3871-3883, 2024, doi: 10.1109/TMM.2023.3316920.

Qu Yang*, Malu Zhang*, Jibin Wu, Kay Chen Tan, Haizhou Li, "LC-TTFS: Towards Lossless Network Conversion for Spiking Neural Networks with TTFS Coding", IEEE Transactions on Cognitive and Developmental Systems 2023, DOI: 10.1109/TCDS.2023.3334010

Siqi Cai, Hongxu Zhu, Tanja Schultz Haizhou Li, "EEG-based Auditory Attention Detection in Cocktail Party Environment", in APSIPA Transactions on Signal and Information Processing 2023, Vol. 12: No. 3, e22. http://dx.doi.org/10.1561/116.00000128, October 2023.

Siqi Cai, Tanja Schultz, and Haizhou Li, "Brain Topology Modeling With EEG-Graphs for Auditory Spatial Attention Detection," in IEEE Trans Biomed Eng. 2024 Jan;71(1):171-182. July 2023, doi: 10.1109/TBME.2023.3294242.

Siqi Cai, Peiwen Li, and Haizhou Li, "A Bio-Inspired Spiking Attentional Neural Network for Attentional Selection in the Listening Brain," in IEEE Transactions on Neural Networks and Learning Systems, August 2023, doi: 10.1109/TNNLS.2023.3303308.

Qinyi Wang, Xinyuan Zhou, Haizhou Li, "Speech-and-Text Transformer: Exploiting Unpaired Text for End-to-End Speech Recognition", APSIPA Transactions on Signal and Information Processing: Vol. 12: No. 1, e27. May 2023, http://dx.doi.org/10.1561/116.00000001

Xiaoxue Gao, Chitralekha Gupta, Haizhou Li, "PoLyScriber: Integrated Fine-Tuning of Extractor and Lyrics Transcriber for Polyphonic Music," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 1968-1981, May 2023, DOI: 10.1109/TASLP.2023.3275036.

Yi Zhou, Zhizheng Wu, Mingyang Zhang, Xiaohai Tian, Haizhou Li, "TTS-Guided Training for Accent Conversion Without Parallel Data", in IEEE Signal Processing Letters, vol. 30, pp. 533-537, April 2023, DOI: 10.1109/LSP.2023.3270079.

Yi Zhou, Zhizheng Wu, Xiaohai Tian, Haizhou Li, Optimization of Cross-Lingual Voice Conversion With Linguistics Losses to Reduce Foreign Accents," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 1916-1926, April 2023, DOI: 10.1109/TASLP.2023.3271107.

Ruijie Tao, Kong Aik Lee, Rohan Kumar Das, Ville Hautamaki, Haizhou Li, "Self-Supervised Training of Speaker Encoder with Multi-Modal Diverse Positive Pairs" in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 1706-1719, April 2023, DOI: 10.1109/TASLP.2023.3268568.

Chen Zhang, Luis Fernando D'Haro, Qiquan Zhang, Thomas Friedrichs, Haizhou Li, "PoE: A Panel of Experts for Generalized Automatic Dialogue Assessment," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 1234-1250, March 2023, DOI: 10.1109/TASLP.2023.3250825

Kun Zhou, Berrak Sisman, Rajib Rana, B.W. Schuller, Haizhou Li, “Emotion Intensity and its Control for Emotional Voice Conversion”, in IEEE Transactions on Affective Computing, vol. 14, no. 1, pp. 31-48, 1 Jan.-March 2023, DOI: 10.1109/TAFFC.2022.3175578

2022

2021

2020

2019

2018

Chitralekha Gupta, Haizhou Li, and Ye Wang, “A Technical Framework for Automatic Perceptual Evaluation of Singing Quality”, APSIPA Transactions on Singnal and Information Processing, 7(E10), September 2018, pp. 1-11.
Van Tung Pham, Haihua Xu, Xiong Xiao, Nancy F. Chen, Eng Siong Chng and Haizhou Li, “Re-ranking spoken term detection with acoustic exemplars of keywords”, Speech Communication, 104, November 2018, pp. 12-23.
L. Xu, Kong-Aik Lee, Haizhou Li and Zhen Yang, “Generalizing I-Vector Estimation for Rapid Speaker Recognition”, IEEE/ACM Trans. Audio, Speech & Language Processing, 26(4), April 2018, pp. 749-759.
Saad Irtza, Vidhyasaharan Sethu, Eliathamby Ambikairajah and Haizhou Li, “Using language cluster models in hierarchical language identification”, Speech Communication, 100, June 2018, pp. 30-40.
Jibin Wu, Yansong Chua, Malu Zhang, Haizhou Li, and Kay Chen Tan, “A Spiking Neural Network Framework for Robust Sound Classification,” Frontiers in Neuroscience, 12(836), November 2018, pp. 1-17.

2017

Kaavya Sriskandaraja, Vidhyasaharan Sethu, Eliathamby Ambikairajah and Haizhou Li, “Front-End for Antispoofing Countermeasures in Speaker Verification: Scattering Spectral Decomposition”, IEEE Journal of Selected Topics in Signal Processing, 11(4), June 2017, pp. 632-643.
Hongjie Chen, Cheung-Chi Leung, Lei Xie, Bin Ma and Haizhou Li, “Multitask Feature Learning for Low-Resource Query-by-Example Spoken Term Detection”, IEEE Journal of Selected Topics in Signal Processing, 11(8), December 2017, pp. 1329-1339.
Xiaohai Tian, Siu Wa Lee, Zhizheng Wu, Eng Siong Chng and Haizhou Li, “An Exemplar-Based Approach to Frequency Warping for Voice Conversion, IEEE/ACM Trans. Audio, Speech & Language Processing”, 25(10), October 2017, pp. 1863-1876.
Hongjie Chen, Lei Xie, Cheung-Chi Leung, Xiaoming Lu, Bin Ma and Haizhou Li, “Modeling Latent Topics and Temporal Distance for Story Segmentation of Broadcast News”, IEEE/ACM Trans. Audio, Speech & Language Processing, 25(1), January 2017, pp. 112-123.
Kaavya Sriskandaraja, Vidhyasaharan Sethu, Eliathamby Ambikairajah and Haizhou Li, “Front-End for Antispoofing Countermeasures in Speaker Verification: Scattering Spectral Decomposition”, IEEE Journal of Selected Topics in Signal Processing, 11(4), June 2017, pp. 632-643.
Hongjie Chen, Cheung-Chi Leung, Lei Xie, Bin Ma and Haizhou Li, “Multitask Feature Learning for Low-Resource Query-by-Example Spoken Term Detection”, IEEE Journal of Selected Topics in Signal Processing, 11(8), December 2017, pp. 1329-1339.
Xiaohai Tian, Siu Wa Lee, Zhizheng Wu, Eng Siong Chng and Haizhou Li, “An Exemplar-Based Approach to Frequency Warping for Voice Conversion”, IEEE/ACM Trans. Audio, Speech & Language Processing 25(10), October 2017, pp. 1863-1876.

2016

2015

2014

Yuma Ueda, Longbiao Wang, Atsuhiko Kai, Xiong Xiao, Engsiong Chng and Haizhou Li, “Single-channel Dereverberation for Distant-Talking Speech Recognition by Combining Denoising Autoencoder and Temporal Structure Normalization”, The 9th International Symposium on Chinese Spoken Language Processing, Singapore, October 2014, pp. 379-383.
Van Hai Do, Xiong Xiao, Eng Siong Chng, and Haizhou Li, “Cross-lingual phone mapping for large vocabulary speech recognition of under-resourced languages”, IEICE Transactions on Information and Systems, 97-D(2), February 2014, pp. 285-295.
Miaolong Yuan, Huajin Tang, and Haizhou Li, “Real-Time Keypoint Recognition Using Restricted Boltzmann Machine,” IEEE Transactions on Neural Networks and Learning Systems, 25(11), November 2014, pp. 2119-2126.
Zhizheng Wu and Haizhou Li, “Voice conversion versus speaker verification: an overview”, APSIPA Transactions on Signal and Information Processing, 3(e17), December 2014, pp. 1-16.
Zhizheng Wu, Tuomas Virtanen, Eng Siong Chng, and Haizhou Li, “Exemplar-based sparse representation with residual compensation for voice conversion”, IEEE/ACM Transactions on Audio, Speech and Language Processing, 22(10), October 2014, pp. 1506-1521.
Anthony Larcher, Kong Aik Lee, Bin Ma, and Haizhou Li, “Text-dependent speaker verification: Classifiers, databases and RSR2015”, Speech Communication, 60, May 2014, pp. 56-77.

2013

2012

2011

2010

2009

Huy Dat Tran and Haizhou Li, “Jump Function Kolmogorov for Audio Classification in Noise-mismatch Conditions”, IEEE Transactions on Signal Processing, vol. 57, no. 8, August 2009, pp. 2908-2918.
Rong Tong, Bin Ma, Haizhou Li, and Eng Siong Chng, “A Target-Oriented Phonotactic Front-end for Spoken Language Recognition”, IEEE Transactions on Audio, Speech and Language Processing, vol. 17, no. 7, September 2009, pp. 1335-1347.
Chang Hui You, Kong-Aik Lee, and Haizhou Li, “An SVM Kernel with GMM-Supervector Based on the Bhattacharyya Distance for Speaker Recognition”, IEEE Signal Processing Letters, vol. 16, no. 1, January 2009, pp. 49-52.

2008

Donglai Zhu, Haizhou Li, Bin Ma, and Chin-Hui Lee, “Optimizing the Performance of Spoken Language Recognition with Discriminative Training”, IEEE Transactions on Audio, Speech and Language Processing, vol. 16, no. 8, November 2008, pp. 1642-165.
Xiong Xiao, Eng Siong Chng, and Haizhou Li, “Normalization of the Speech Modulation Spectra for Robust Speech Recognition”, IEEE Transactions on Audio, Speech and Language Processing, vol. 16, no. 8, November 2008, pp. 1662-1674.
Haizhou Li, Jin-Shea Kuo, Jian Su, and Chih-Lung Lin, “Mining Live Transliterations using Incremental Learning Algorithms”, International Journal of Computer Processing of Languages, vol. 21, no. 2, June 2008, pp. 183-203.
Khe Chia Sim and Haizhou Li, “On Acoustic Diversification Front-end for Spoken Language Identification”, IEEE Transactions on Audio, Speech and Language Processing, vol. 16, no. 5, July 2008, pp. 1029-1037.
Jin-shea Kuo, Haizhou Li, and Ying-Kuei Yang, “Active Learning for Constructing Transliteration Lexicons from the Web”, Journal of the American Society for Information Science and Technology, vol. 59, no. 1, January 2008, pp. 126-135.

2007

Bin Ma, Haizhou Li, and Rong Tong, “Spoken Language Recognition with Ensemble Classifiers”, IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 7, September 2007, pp. 2053-2062.
Xiong Xiao, Eng Siong Chng, and Haizhou Li, “Temporal Structure Normalization of Speech Feature for Robust Speech Recognition”, IEEE Signal Processing Letters, vol. 14, no. 7, July 2007, pp. 500-503.
Jin-Shea Kuo, Haizhou Li, and Ying-Kuei Yang, “A Phonetic Similarity Model for Automatic Extraction of Transliteration Pairs”, ACM Transactions on Asian Language Information Processing, vol. 6, no. 2, Article 6, September 2007, pp. 1-24.
Tin Lay and Haizhou Li, “Exploring Vibrato-Motivated Acoustic Features for Singer Identification”, IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 2, February 2007, pp. 519-530.
Haizhou Li, Bin Ma, and Chin-Hui Lee, “A Vector Space Modeling Approach to Spoken Language Identification”, IEEE Transactions on Audio, Speech and Language Processing, vol. 15, no. 1, January 2007, pp. 271-284.

2006

Minghui Dong, Kim-Teng Lua, and Haizhou Li, “A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese”, Journal of Chinese Language and Computing, vol. 16, no. 1, March 2006, pp. 1-10.
Bin Ma and Haizhou Li, “A Comparative Study of Four Language Identification Systems”, Computational Linguistics and Chinese Language Processing, vol. 11, no. 2, June 2006, pp. 159-182.

1995

Jian Su, K. T. Ng, Haizhou Li, and Jean-Paul Haton, “Nonparametric Distance Measures of Speaker Verification”, IET Electronics Letters, vol. 31, no. 9, April 1995, pp. 700-701.
Haizhou Li, Jian Su, Jean-Paul Haton, “Short-Timed Speech Dynamics for Speaker Recognition”, IET Electronics Letters, vol. 31, no. 17, August 1995, pp. 1416-1418.

Return to HLT Main Page