Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Other data #81

Closed
MunJeongHyeon opened this issue Aug 26, 2021 · 5 comments
Closed

Other data #81

MunJeongHyeon opened this issue Aug 26, 2021 · 5 comments
Assignees
Labels
DONE GOOD FIRST ISSUE Good for newcomers QUESTION Further information is requested

Comments

@MunJeongHyeon
Copy link

❓ Questions & Help

Details

현재 세 개의 데이터 이외에도 다른 데이터에 오픈 음성인식 모델들을 쉽게 적용할 수 있는 가이드라인들이 있을까요??

@sooftware sooftware added GOOD FIRST ISSUE Good for newcomers QUESTION Further information is requested labels Aug 26, 2021
@sooftware
Copy link
Member

안녕하세요. 안그래도 해당 내용을 위키에 정리하면 좋겠다고 생각하고 있었는데, 좀처럼 시간이 나지를 않아서 추가하지 못하고 있는 상황입니다.
러프하게 적어보자면 아래와 같습니다.

  1. 먼저 아래와 같은 데이터 포맷을 맞춰주셔야 합니다. (\t를 보기 편하게 [TAP]로 표현했습니다.)
오디오경로[TAP]한글전사[TAP]ID전사

예시)

LibriSpeech/test-other/8188/269288/8188-269288-0052.flac        ▁ANNIE ' S ▁MANNER ▁WAS ▁VERY ▁MYSTERIOUS       4039 20 5 531 17 84 2352
LibriSpeech/test-other/8188/269288/8188-269288-0053.flac        ▁ANNIE ▁DID ▁NOT ▁MEAN ▁TO ▁CONFIDE ▁IN ▁ANYONE ▁THAT ▁NIGHT ▁AND ▁THE ▁KIND EST ▁THING ▁WAS ▁TO ▁LEAVE ▁HER ▁A LONE    4039 99 35 251 9 4758 11 2454 16 199 6 4 323 200 255 17 9 370 30 10 492
LibriSpeech/test-other/8188/269288/8188-269288-0054.flac        ▁TIRED ▁OUT ▁LESLIE ▁HER SELF ▁DROPP ED ▁A SLEEP        1493 70 4708 30 115 1231 7 10 1706
LibriSpeech/test-other/8188/269288/8188-269288-0055.flac        ▁ANNIE ▁IS ▁THAT ▁YOU ▁SHE ▁CALL ED ▁OUT        4039 34 16 25 37 208 7 70
LibriSpeech/test-other/8188/269288/8188-269288-0056.flac        ▁THERE ▁WAS ▁NO ▁REPLY ▁BUT ▁THE ▁SOUND ▁OF ▁HURRY ING ▁STEPS ▁CAME ▁QUICK ER ▁AND ▁QUICK ER ▁NOW ▁AND ▁THEN ▁THEY ▁WERE ▁INTERRUPTED ▁BY ▁A ▁GROAN     57 17 56 1368 33 4 489 8 1783 14 1381 133 571 49 6 571 49 82 6 76 45 54 2351 44 10 3154
LibriSpeech/test-other/8188/269288/8188-269288-0057.flac        ▁OH ▁THIS ▁WILL ▁KILL ▁ME ▁MY ▁HEART ▁WILL ▁BREAK ▁THIS ▁WILL ▁KILL ▁ME 299 46 71 669 50 41 235 71 977 46 71 669 50
...
...
  1. Lightning Data Module을 구현해야 합니다.

KsponSpeech - LightningDataModule.

위와 같은 해당 데이터셋에 맞는 코드가 필요합니다. 사실 1번의 예시와 같은 매니페스트 파일을 만드는 코드가 여기에 들어가야합니다.
그리고 해당 데이터를 로드해서 train / valid / test 셋으로 나눠주고, 데이터 로더까지 정의하는 코드를 포함합니다.
Manifest 파일 만드는 코드 외에는 다른 예제의 Lightnig Data Module과 똑같이 짜주시면 될 것 같습니다.

  1. Tokenizer 클래스를 구현해야 합니다.

텍스트 유닛을 숫자로(encode), 숫자를 텍스트 유닛으로(decode) 변환해주는 역할을 하는 Tokenizer 클래스를 구현해야 합니다.
=> KsponSpeech Tokenizer를 참고하시면 쉽게 구현 가능하실 것 같습니다.

여기까지 구현하시고 코드 실행하실때 커맨드만 적절하게 넘겨주시면 됩니다.

@MunJeongHyeon
Copy link
Author

상세한 코멘트 감사합니다!

@sooftware
Copy link
Member

네 위 설명만으로는 부족한 점이 많겠지만, 진행하시면서 문제가 되는 부분이 있으면 이슈 남겨주세요.

@sooftware sooftware added the DONE label Aug 27, 2021
@sooftware sooftware pinned this issue Aug 27, 2021
@MunJeongHyeon
Copy link
Author

혹시 Train은 train set과 val set으로 학습하는것이고 eval은 test set으로 하는것이 맞는걸까요

@MunJeongHyeon
Copy link
Author

저는 이미 Test set을 따로 떼어 놓아서 lit_data_module.py를 보고 있는데 ksponspeech 데이터는 한 폴더에서 train val test를 나누는 코드이다보니 질문을 남깁니다..ㅠ

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
DONE GOOD FIRST ISSUE Good for newcomers QUESTION Further information is requested
Projects
None yet
Development

No branches or pull requests

3 participants