Disqus를 로드하지 못했습니다. 혹시 관리자시라면 저희 문제 해결 가이드를 보세요.
윈도우는 안써서 잘 모르겠는데, 크게 다르지 않을텐데요.. 최근들어 좋은 TTS 프로젝트들이 많이 나왔습니다. https://github.com/TensorSp... 이나 https://github.com/coqui-ai... 참고해보세요.
안녕하세요 좋은 글 감사합니다!:)
저 혹시 tacotron-2도 최신버전으로 업데이트 해서 진행하셨나요?
tensorflow 버전 1로 진행하셨는지 문의드리고 싶습니다.
참고한 tacotron-2 소스는 어떤 거였는지도 알려주시면 감사하겠습니다.
딥러닝 공부하고 있는 학부생입니다. 글 정말 잘 읽었습니다!
그런데 궁금한 부분이 있습니다.
"... 위에서 나열한 TTS 모델들은 문장을 입력으로 받아 직접적으로 오디오 파형을 출력하는 것이 아닌 음성의 Feature들(주로 Mel Spectrogram)을 반환한다. Vocoder는 이를 받아서 실제 음성의 파형으로 변환하는 역할을 한다. ..." 부분에서
Mel Spectrogram 은 단위 시간 프레임당 주파수 성분과 세기를 나타내는 그래프로 알고있는데 그렇다면 하나의 멜 스펙트로그램은 하나의 오디오 파형과 1:1 대응되는게 아닌건가요? 그러면 deterministic한 알고리즘을 써도 될 것 같은데 왜 probabilistic한 Neural Vocoder를 쓰는건지 궁금합니다.
혼자 추측하기엔 멜 스펙트로그램으로 바뀌면서 생기는 이산화 과정에서 이산화된 프레임 사이의 손실된 음(의 자연스러움)을 복구하기 위해서 probabilistic한 Model을 쓰는건가 생각하는데... 확실치 않네요.
감사합니다!
안녕하세요! 음성합성을 구현하다가 모바일 실시간 TTS 수요가 생겨 검색하다가 글을 읽게 되었습니다. https://github.com/hccho2/T... 접한 한국어 타코트론2를 참고하여, WaveNet 대신 LPCNet과 연동하여 윈도우 환경 jupyter notebook 상에서 구동해 본 후 아이폰으로 옮기면 되지 않을까 생각했습니다. 그러나 코드가 리눅스 기반인 듯하고, 아직 딥러닝 구현 관련 경험이 많지 않아 생각보다 더욱 막막한 상황입니다. 이식에 참고할 만한 코드나 자료 등을 추천하여 주시면 대단히 감사하겠습니다!