Weekly Report #2

3월 1째 주

3월 4일 (수)

data 정제
- line by line 으로 할지 블럭으로 할지

ex) if a > b :              만약 a가 b보다 크다면 / Enter 
        for i in range(5) :   반복문 5번 반복해줘 / Enter
            print(5)            5를 출력해줘 / Enter 
    elif a < b :            아니고 a가 b보다 작다면 / Enter
        c = 0                 c는 0으로 초기화해줘 / Enter
        while c >= 0 :        반복문인데 c가 0보다 크거나 같을때 까지 반복해줘 / Enter  
            print(0)            0을 출력해줘 / Enter
            c = c + 1           c는 c 더하기 1로 해줘

교수님과 질의응답
Q. line by line으로 데이터를 생성해도 되나요?
- 이렇게 하면 오히려 어려울 수 있음
- 입력을 full sentence로 하고 나중에 인식할 때는 line by line
- 음성 인식을 할 때 같은 level이라면 계속해서 음성을 받도록
- 음성을 어떻게 받을지가 관건 : 같은 level인지 아님 상위 level인지
- 코드를 모르는 사람들이 이 로직을 말로 어떻게 표현하는지
- 로직을 아는 사람이라서 너무 쉽게 짜질 수 있어 위와 같이 모르는 사람이 말하는 데이터가 필요!
Q. 분류기를 쓴다면 어느 단계까지 사용해도 되나요?
- 해당 문장이 조건문인지 반복문인지 분류하는 곳에 딥러닝을 사용해도 ok
- 형태소 분석기를 사용하지 않고 CNN을 사용해서 토큰화하는 방법을 찾아보자!
- 자소를 input으로 넣으면 ex) 클-, 크- 가 다르게 인식되므로 CNN을 사용하면 둘 다 크- 로 인식 가능 ?
- cf. 나이브 베이즈랑 뉴럴네트워크랑 다른 점: 나이브 베이즈는 작- 다- 하나하나를 독립적이라고 생각하는 반면, 뉴럴네트워크는 모든 경우의 수를 고려하기 때문에 성능이 좋을 수 밖에 없음. 그냥 베이즈를 사용하면 너무 많은 경우의 수를 고려함.
- '원'도 많은 선분으로 유사하게 만들 수 있음. 여기서 '선분'은 딥러닝의 수많은 경우의 수를 의미?
- 형태소 분석기로도 해보고 자소단위의 cnn으로도 해보되 전자를 먼저 해보기

ㅈ
ㅏ   -> 작(cnn#1)
ㄱ                 -> 작다(cnn#2)
ㄷ                  
ㅏ   -> 다(cnn#1)

다음까지 해야 할 것
- 데이터 만들기(위의 피드백 참고)
- CNN으로 토큰화하는 방법 찾아보기
- 음성을 받는 level에 대해 고려해보기
- 예산서 작성하기

3월 6일 (금)

변수를 음성으로 받으면 한글로 얻어지는 문제!
code 분석
- 토크나이저를 띄어쓰기, 조사 고려
- 조사는 형태소 분석기를 통해 찾아서 하는 걸로 수정
준형오빠 코드로 돌려보았음
- and 가 여러개 들어간 input 데이터에 대해서는 정확도가 떨어짐
- 데이터와 학습 정도를 증가시키면 좋은 성능을 보일 것 같음
다음까지 해야 할 것
- 데이터 더 만들기!!
- 코드 분석하기

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Weekly Report #2

3월 1째 주

3월 4일 (수)

3월 6일 (금)

Clone this wiki locally