- Массовый рисёрч: первый запуск. Исследуем цены на недвижимость в России.
- В папках ./week01 лежат материалы каждой недели, к каждой неделе есть README с текущими материалами, для каждой недели рано или поздно появляются видосы
- В папке ./production лежат наши итоговые куски кода, которыми мы гордимся!
Важные ссылки:
- Видео с записями пар на youtube
- Удобная тулза для ревью юпитерских тетрадок
- Сервис для скачки отдельных папок
Наш понедельный график:
- week01 На первой неделе мы попытались написать парсер для ЦИАН, нас забанила капча и мы как настоящие львы дали ей бой (ну завтра дадим всмысле). Учились работать с git.
- week02 На второй неделе мы выяснили, что код писал только Дима. Да и к тому же на прошлой неделе... Поэтому мы продолжили писать парсер ЦИАН и более жёстко поделили задачи по скачке. Учились делать пул реквесты в git.
- week03 Создаём ветку prod. Вместе пилим в неё кучу функций для скачки основной информации с ЦИАН. Делаем пул-реквесты, обсуждаем код. Накидываем планы на будущее
- week04 На доске выводим из метода максимального правдоподобия несколько разных функций потерь. Придумываем на доске w2v. В python немного учимся предобработке текстов.
- week05 Допиливаем на компьютере свой первый w2v, смотрим на уже готовые w2v на википедии, изучаем их свойства. Готовимся к своей первой EDA (exploratory data analysis). Расходимся докачивать данные.
Мы собираемся в аудитории и решаем вместе что делать. Делаем это. Изначально у меня нет планов для того, как именно должна пойти пара. Я готовлюсь к разным возможным сценариям. Делаем то, что захотелось вам. Любая мимолётная идея может перетечь в серьёзную работу. Цепляйтесь за любые, даже самые глупые, идеи. Озвучивайте их, и мы будем их развивать.
Весь код заливаем на Github. Каждый ведёт на нём свою ветку. Лучшие решения вливаем в общую ветку.
В конце делаем туториал-статью на хабре с самыми клевыми своими находками, скорее всего, в блоге ODS, если нас не пошлют на фиг (и если находки будут). Переводим статью на английский, заливаем на медиум. Пишем про это в своих резюме. Итоговый вид нашего туториала будет примерно как у ekanam grand research
- Скачать данные с разных мест (каких?!)
- Предобработать их и сделать классные таблички для ML и метрики
- Построить модель для прогнозирования цен
- Попроверять гипотезы (какие?!)
- Другая дата-саенс крутота (поиск аномалий, place2vec, какая ещё?)
- .....
- Profit