MANASLU8
diff --git a/‎README.md
+27 b/‎README.md
+27
diff --git a/‎lectures/README.md
+3 b/‎lectures/README.md
+3
diff --git a/‎projects/README.md
+40 b/‎projects/README.md
+40
diff --git a/‎projects/emoji-labeller/README.md
+52 b/‎projects/emoji-labeller/README.md
+52
diff --git a/‎projects/emoji-labeller/assets/emoji-to-label.yml
+3 b/‎projects/emoji-labeller/assets/emoji-to-label.yml
+3
diff --git a/‎projects/emoji-labeller/assets/environment.yml
+28 b/‎projects/emoji-labeller/assets/environment.yml
+28
diff --git a/‎projects/emoji-labeller/source/__init__.py b/‎projects/emoji-labeller/source/__init__.py
diff --git a/‎projects/emoji-labeller/source/classifier/__init__.py b/‎projects/emoji-labeller/source/classifier/__init__.py
diff --git a/‎projects/emoji-labeller/source/classifier/reader.py
+18 b/‎projects/emoji-labeller/source/classifier/reader.py
+18
diff --git a/‎projects/emoji-labeller/source/classifier/tokenizer.py
+6 b/‎projects/emoji-labeller/source/classifier/tokenizer.py
+6
diff --git a/‎projects/emoji-labeller/source/tests/__init__.py b/‎projects/emoji-labeller/source/tests/__init__.py
diff --git a/‎projects/emoji-labeller/source/tests/test_tokenization.py
+19 b/‎projects/emoji-labeller/source/tests/test_tokenization.py
+19
@@ -0,0 +1,27 @@
+# Курс ИТМО по автоматической обработке естественного языка (2023)
+
+Репозиторий содержит файлы, используемые для реализации курса по Автоматической обработки текстов в ИТМО.
+
+## Лекции
+
+Лекции и вспомогательные материалы приведены в директории [lectures](/lectures).
+
+## Задания к лабораторным работам
+
+Ресурсы для выполнения лабораторных работ расположены в директории [tasks](/tasks), каждой лабораторной работе соответствует отдельный каталог. Общие указания к выполнению лабораторных работ приведены в файле `README.md`, расположенном в директории [tasks](/tasks). Инструкции к выполнению отдельных лабораторных работ приведены в файлах `README.md`, расположенных в директориях `/tasks/task-<TASK_NUMBER>`, где `<TASK_NUMBER>` - номер соответствующей лабораторной работы:
+
+- [Сегментация и аннотация текста](/tasks/task-01/README.md)
+- [N-grams](/tasks/task-02/README.md)
+- [Векторизация текста](/tasks/task-03/README.md)
+- [Классификация текстов](/tasks/task-04.1/README.md) или [Тематическое моделирование](/tasks/task-04.2/README.md)
+- [Распознавание и синтез речи](/tasks/task-05/README.md)
+
+
+## Результаты выполнения лабораторных работ
+
+Результаты выполнения лабораторных работ оформляются в виде проектов и размещаются в отдельных директориях внутри каталога [projects](/projects) (также см. [указания по выполнению лабораторных работ](/tasks/README.md)). В качестве названия директории испоьзуется название соответствующего проекта, которое необходимо указывать в соответствии с конвенцией `kebab-case`. Соответствие между названием проекта и ФИО студента задается в следующей таблице:
+
+| Project name | Student name |
+| --- | --- |
+| [emoji-labeller](/projects/emoji-labeller) | Иванов Иван Иванович |
+
@@ -0,0 +1,3 @@
+# Лекции
+
+[Папка с лекциями на drive.google](https://drive.google.com/drive/u/0/folders/1xxKTvCYbfR6rAA7fq232bOB6n4T1HpTP).
@@ -0,0 +1,40 @@
+# Директория с проектами студентов
+
+Данная директория содержит результаты выполнения лабораторных работ студентами. Каждый каталог содержит результаты прохождения курса конкретным студентом, внутренняя структура каталогов унифицирована и выглядит следующим образом:
+
+```sh
+.
+├── assets
+├── README.md
+└── source
+
+2 directories, 1 file
+```
+
+Так, назначение приведенных файлов и директорий следующее:
+1. директория `assets` содержит вспомогательные и конфигурационные файлы проекта (не являющиеся исходным кодом), в том числе - результаты обработки исходных датасетов. **Сами исходные датасеты загружать не нужно**. Внутренняя структура файлов и каталогов в данной директории не регламентируется, за исключением уточнений в инструкции по выполнению той или иной лабораторной работы. При создании файлов и каталогов рекомендуется следовать конвенции **kebab-case**, поддерживаемой в данном репозитории;
+1. файл `README.md` содержит общее описание проекта, инструкцию по запуску программных модулей и тестов для них. Рекомендуется соблюдать структуру, приведенную в [примере оформления проекта](/projects/emoji-labeller/README.md);
+1. директория `source` содержит файлы с исходным кодом проекта. Внутренняя структура файлов и каталогов в данной директории зависит от правил наименования и организации файлов при разработке систем с использованием той или иной программной платформы, фреймворка и экосистемы. Для языка программирования `python` необходимо соблюдать структуру, реализованную в [примере проекта](/projects/emoji-labeller). 
+
+Пример полной структуры файлов и каталогов проекта:
+
+```sh
+.
+├── assets
+│   ├── emoji-to-label.yml
+│   └── environment.yml
+├── README.md
+└── source
+    ├── classifier
+    │   ├── __init__.py
+    │   ├── __main__.py
+    │   ├── reader.py
+    │   └── tokenizer.py
+    ├── __init__.py
+    └── tests
+        ├── __init__.py
+        ├── test_classification.py
+        └── test_tokenization.py
+
+4 directories, 11 files
+```
@@ -0,0 +1,52 @@
+# Emoji labeller
+
+Данный проект предназначен для демонстрации структуры директорий и организации исходного кода в целом. Подобную структуру необходимо поддерживать при выполнении лабораторных работ.
+
+Проект состоит из модуля `classifier`, в котором: 
+1. файл `__main__.py` содержит реализацию интерфейса командной строки;
+2. файл`reader.py` - реализацию функциональности по считыванию данных об отображении `emoji` на метки текста;
+3. файл `tokenizer.py` - реализацию функциональности по разбиению текста на токены по пробельным символам, сегментации текста на предложения не предусмотрено.
+
+## Настройка окружения
+
+Для создания окружения и установки зависимостей требуется выполнить следующую команду из корневой директории проекта (должна быть установлена `anaconda`):
+
+```sh
+conda env create -f assets/environment.yml; conda activate emoji-labeller
+```
+
+## Запуск проекта
+
+В данном проекте реализована возможность определения метод для произвольного текста по `emoji`, упоминаемым в нем.
+
+### Определение меток для текста
+
+С целью определения меток для произвольного текста требуется выполнить следующую команду из корневой директории проекта:
+
+```sh
+PYTHONPATH=source python -m classifier label "люблю 🌩  в начале мая"
+```
+
+Система отображает сообщение, содержащее список тем, затрагиваемых в тексте:
+
+```sh
+Provided text mentions weather
+```
+
+## Запуск тестов
+
+Для системы разработан набор модульных тестов, позволяющих оценить корректность генерируемых результатов. Для запуска тестов используется следующая команда, которую необходимо выполнять из коревой директории проекта:
+
+```sh
+PYTHONPATH=source python -m unittest
+```
+
+Система отображает стандартный отчет о результатах выполненя тестов:
+
+```sh
+.......
+----------------------------------------------------------------------
+Ran 7 tests in 0.002s
+
+OK
+```
@@ -0,0 +1,3 @@
+😊: positive-attitude
+🐦: birds
+🌩: weather
@@ -0,0 +1,28 @@
+name: emoji-labeller
+channels:
+  - defaults
+dependencies:
+  - _libgcc_mutex=0.1=main
+  - _openmp_mutex=4.5=1_gnu
+  - ca-certificates=2021.10.26=h06a4308_2
+  - certifi=2021.10.8=py39h06a4308_2
+  - click=8.0.3=pyhd3eb1b0_0
+  - ld_impl_linux-64=2.35.1=h7274673_9
+  - libffi=3.3=he6710b0_2
+  - libgcc-ng=9.3.0=h5101ec6_17
+  - libgomp=9.3.0=h5101ec6_17
+  - libstdcxx-ng=9.3.0=hd4cf53a_17
+  - ncurses=6.3=h7f8727e_2
+  - openssl=1.1.1m=h7f8727e_0
+  - pip=21.2.4=py39h06a4308_0
+  - python=3.9.7=h12debd9_1
+  - pyyaml=6.0=py39h7f8727e_1
+  - readline=8.1.2=h7f8727e_1
+  - setuptools=58.0.4=py39h06a4308_0
+  - sqlite=3.37.0=hc218d9a_0
+  - tk=8.6.11=h1ccaba5_0
+  - tzdata=2021e=hda174b7_0
+  - wheel=0.37.1=pyhd3eb1b0_0
+  - xz=5.2.5=h7b6447c_0
+  - yaml=0.2.5=h7b6447c_0
+  - zlib=1.2.11=h7f8727e_4
@@ -0,0 +1,18 @@
+from yaml import safe_load
+from .tokenizer import tokenize
+
+class EmojiBasedClassifier:
+    def __init__(self, mapping: dict):
+        self.mapping = mapping
+
+    def _classify(self, text: str):
+        for token in tokenize(text):
+            if (label := self.mapping.get(token)) is not None:
+                yield label
+
+    def classify(self, text: str):
+        return tuple(self._classify(text))
+
+def read_emoji_to_label_mapping(path):
+    with open(path) as file:
+        return EmojiBasedClassifier(safe_load(file))
@@ -0,0 +1,6 @@
+import re
+
+space_regexp = re.compile("\s+")
+
+def tokenize(text: str):
+    return tuple(filter(lambda token: len(token) > 0, space_regexp.split(text)))
@@ -0,0 +1,19 @@
+import unittest
+
+from classifier.tokenizer import tokenize
+
+class TestTokenization(unittest.TestCase):
+    def test_on_empty_string(self):
+        self.assertEqual(len(tokenize("")), 0)
+
+    def test_on_spaces(self):
+        self.assertEqual(tokenize("foo bar"), ("foo", "bar"))
+
+    def test_on_empty_string_with_spaces(self):
+        self.assertEqual(len(tokenize("    ")), 0)
+
+    def test_on_tabs_and_newlines(self):
+        self.assertEqual(tokenize("foo\tbar\nbaz    qux\t\t\t\nquux"), ("foo", "bar", "baz", "qux", "quux"))
+
+if __name__ == "__main__":
+    unittest.main()
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+# Лекции`
	`2`	`+`
	`3`	`+[Папка с лекциями на drive.google](https://drive.google.com/drive/u/0/folders/1xxKTvCYbfR6rAA7fq232bOB6n4T1HpTP).`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+😊: positive-attitude`
	`2`	`+🐦: birds`
	`3`	`+🌩: weather`