Arquivo

Archive for the ‘Programação’ Category

Como Encontrar Linhas Duplicadas no Banco de Dado

Ultimamente estou trabalhando bastante com consultas SQL. Essa dica pode ser bastante útil para você que deseja descobrir que linhas estão duplicadas no banco de dados de acordo com algum critério. Você precisa, basicamente, fazer um join da tabela analisada com ela mesma. Aqui há várias dicas de como fazer essa consulta, mas o select abaixo funcionou bem para mim:

SELECT *
FROM TABLE A
WHERE EXISTS (
  SELECT 1 FROM TABLE
  WHERE COLUMN_NAME = A.COLUMN_NAME
  AND ROWID < A.ROWID
)
Categorias:Programação Tags:,

Como Adicionar Eventos ao Outlook Programaticamente

A RFC5546 especifica o iTIP (iCalendar Transport-Independent Interoperability Protocol), que é um protocolo que oferece interoperabilidade de agendamentos entre diferentes sistemas de calendários, pois não é feita referência à um protocolo de transporte específico, como o SMTP.

Nesse artigo, vamos desenvolver um exemplo em Java que utiliza templates do Velocity para formatar os eventos que serão adicionado ao Outlook.

Figura 1 – Calendário do Outlook

Adicione a dependência do Xerces e do Velocity ao seu pom:

<dependency>
   <groupId>xerces</groupId>
   <artifactId>xercesImpl</artifactId>
   <version>2.11.0</version>
</dependency>
<dependency>
   <groupId>org.apache.velocity</groupId>
   <artifactId>velocity</artifactId>
   <version>1.7</version>
</dependency>

Vamos criar uma classe para enviar um e-mail com o evento para o destinatário. O mais importante dessa classe é o tipo “text/calendar” passado para o ByteArrayDataSource empacotado em um DataHandler. É esse tipo que fará com que o Outlook interprete o e-mail como um evento que deve ser adicionado ao calendário.

import java.io.IOException;
import java.util.Properties;
import javax.activation.DataHandler;
import javax.mail.BodyPart;
import javax.mail.Message;
import javax.mail.MessagingException;
import javax.mail.Multipart;
import javax.mail.Session;
import javax.mail.Transport;
import javax.mail.internet.AddressException;
import javax.mail.internet.InternetAddress;
import javax.mail.internet.MimeBodyPart;
import javax.mail.internet.MimeMessage;
import javax.mail.internet.MimeMultipart;
import javax.mail.util.ByteArrayDataSource;

public class RFC5546MailSender{
   private Properties properties;
   private String servidorEmail;
   public RFC5546MailSender() {
      this.servidorEmail = /*Seu servidor de e-mail*/
      properties = new Properties();
      properties.put("mail.smtp.host", this.servidorEmail);
      properties.put("mail.smtp.connectiontimeout", "10000");
      properties.put("mail.smtp.timeout", "15000");
      properties.put("mail.smtp.allow8bitmime", "false");
   }

   public void enviar(String remetente, String destinatario, 
     String assunto, String mensagem) throws MessagingException {
      Session session = Session.getDefaultInstance(properties);
      MimeMessage message = new MimeMessage(session);
      message.setFrom(new InternetAddress(remetente));
      message.addRecipient(Message.RecipientType.TO, new InternetAddress(destinatario));
      message.setSubject(assunto);
      BodyPart partBody = new MimeBodyPart();
      Transport tr = null;
      try {
         partBody.setHeader("Content-Class", "urn:content-classes:calendarmessage");
         partBody.setHeader("Content-ID", "calendar_message");
         partBody.setDataHandler(
           new DataHandler(new ByteArrayDataSource(mensagem, "text/calendar")));
         Multipart multipart = new MimeMultipart();
         multipart.addBodyPart(partBody);
         message.setContent(multipart);
         tr = session.getTransport("smtp");
         Transport.send(message, message.getAllRecipients());
      } catch (IOException e) {
         throw new MessagingException(e.getMessage());
      } catch (MessagingException e) {
         throw e;
      } finally {
         if (tr != null) {
            try {
               tr.close();
            } catch (MessagingException e) {
               throw e;
            }
         }
      }
   }
}

Poderíamos concatenar strings separando a propriedade e seu valor por “\n”, mas a manutenibilidade desse código seria bem complexa. Vamos utilizar o Velocity para carregar um template com as configurações padrão da solicitação de evento:

import java.io.StringWriter;
import java.util.Map;
import java.util.Properties;
import org.apache.velocity.Template;
import org.apache.velocity.VelocityContext;
import org.apache.velocity.app.VelocityEngine;
import org.apache.velocity.runtime.resource.loader.FileResourceLoader;

public class Velocity {
   private VelocityEngine engine;
   public Velocity() {
      Properties properties = new Properties();
      properties.put("file.resource.loader.path", "TEMPLATES_DIR");
      properties.put("file.resource.loader.cache", "false");
      properties.put("file.resource.loader.modificationCheckInterval", "10");
      properties.put("file.resource.loader.class", FileResourceLoader.class.getName());
      this.engine = new VelocityEngine(properties);
   }

   public String formatar(Map<String, Object> parameters, String nomeTemplete) {
      StringWriter sw = new StringWriter();
      Template template = engine.getTemplate(nomeTemplete, "UTF-8");
      VelocityContext context = new VelocityContext();
      for (String key : parameters.keySet()) {
         context.put(key, parameters.get(key));
      }
      template.merge(context, sw);
      return sw.toString();
   }
}

Agora, vamos criar um template do Velocity com as configurações do evento chamado “solicitacao_reuniao.vm”. Esse template deve ficar no diretório “TEMPLATES_DIR” que você configurou na classe utilitária do Velocity.

BEGIN:VCALENDAR
VERSION:2.0
METHOD:REQUEST
BEGIN:VEVENT
UID:$id
SUMMARY:$titulo
DTSTART:$inicio
DTEND:$fim
LOCATION:$localizacao
DESCRIPTION:$descricao
STATUS:CONFIRMED
SEQUENCE:${sequencial}
ORGANIZER:MAILTO:$remetente
ATTENDEE;ROLE=CHAIR;ROLE=REQ-PARTICIPANT;RSVP=FALSE;PARTSTAT=ACCEPTED:MAILTO:$destinatario
CLASS:PRIVATE
BEGIN:VALARM
TRIGGER:-PT15M
ACTION:DISPLAY
END:VALARM
END:VEVENT
END:VCALENDAR

Algumas coisas merecem destaque na estrutura acima. A primeira delas é o método REQUEST, que é uma função complexa que permite a configuração de várias informações, como quais serão as pessoas convidadas para o evento. O UID é o identificador único da mensagem. É através desse campo que o sistema de calendário vincula um evento recebido a outro existente. O campo SEQUENCE não é importante para criação de eventos, mas é essencial para a atualização deles. Ele permite definir a sequência de atualizações que um evento existente deve sofrer. O alarme, que no caso será disparado 15 minutos antes do início do evento (-PT15M), é opcional.

Vamos utilizar os artefatos criados até agora para enviar a solicitação de uma reunião para o usuário que tem o e-mail “eu@empresa.com.br”:

private void solicitarReuniao() throws MessagingException{
   RFC5546MailSender rfcMailSender = new RFC5546MailSender();
   SimpleDateFormat dateFormatter = new SimpleDateFormat("yyyyMMdd'T'HHmmss'Z'");
   dateFormatter.setTimeZone(TimeZone.getTimeZone("GMT"));
   Map<String, Object> parameters = new HashMap<String, Object>();
   parameters.put("id", "123");
   parameters.put("titulo", "Solicitação de Reunião");
   parameters.put("localizacao", "2° andar, Sala 03");
   parameters.put("inicio", dateFormatter.format(new Date()));
   parameters.put("fim", dateFormatter.format(new Date()));
   parameters.put("descricao", "Solicitação de Reunião");
   parameters.put("remetente", "sistema@empresa.com.br");
   parameters.put("destinatario", "eu@empresa.com.br");
   parameters.put("sequencial", "0");
   Velocity format = new Velocity();
   String corpoEmail = format.formatar(parameters, "br/com/mail/solicitacao_reuniao.vm");
   rfcMailSender.enviar("sistema@empresa.com.br", "eu@empresa.com.br", "Solicitação de Reunião", corpoEmail);
}

Em seguida, vamos enviar uma atualização da reunião identificada por “123” utilizando o mesmo template de criação “solicitacao_reuniao.vm”. Para atualizações, é necessário informar a ordem sequencial:

private void atualizarReuniao() throws MessagingException{
   RFC5546MailSender rfcMailSender = new RFC5546MailSender();
   SimpleDateFormat dateFormatter = new SimpleDateFormat("yyyyMMdd'T'HHmmss'Z'");
   dateFormatter.setTimeZone(TimeZone.getTimeZone("GMT"));
   Map<String, Object> parameters = new HashMap<String, Object>();
   parameters.put("id", "123");
   parameters.put("titulo", "Atualização do Horário da Reunião");
   parameters.put("localizacao", "2° andar, Sala 03");
   parameters.put("inicio", dateFormatter.format(new Date()));
   parameters.put("fim", dateFormatter.format(new Date()));
   parameters.put("descricao", "Atualização do Horário da Reunião");
   parameters.put("remetente", "sistema@empresa.com.br");
   parameters.put("destinatario", "eu@empresa.com.br");
   parameters.put("sequencial", "1");
   Velocity format = new Velocity();
   String corpoEmail = format.formatar(parameters, "br/com/mail/solicitacao_reuniao.vm");
   rfcMailSender.enviar("sistema@empresa.com.br", "eu@empresa.com.br", "Atualização do Horário da Reunião", corpoEmail);
}

Por fim, vamos definir o template de cancelamento de evento “cancelamento_reuniao.vm”:

BEGIN:VCALENDAR
VERSION:2.0
METHOD:CANCEL
BEGIN:VEVENT
UID:$id
SUMMARY:$titulo
DTSTART:$inicio
DTEND:$fim
LOCATION:$localizacao
DESCRIPTION:$descricao
STATUS:CANCELLED
ORGANIZER:MAILTO:$remetente
ATTENDEE;ROLE=CHAIR;ROLE=REQ-PARTICIPANT;RSVP=TRUE:MAILTO:$destinatario
CLASS:PRIVATE
END:VEVENT
END:VCALENDAR

Nessa estrutura, destacam-se o método CANCEL e o status CANCELLED.

private void cancelarReuniao() throws MessagingException{
   RFC5546MailSender rfcMailSender = new RFC5546MailSender();
   SimpleDateFormat dateFormatter = new SimpleDateFormat("yyyyMMdd'T'HHmmss'Z'");
   dateFormatter.setTimeZone(TimeZone.getTimeZone("GMT"));
   Map<String, Object> parameters = new HashMap<String, Object>();
   parameters.put("id", "123");
   parameters.put("titulo", "Cancelamento da Reunião");
   parameters.put("localizacao", "2° andar, Sala 03");
   parameters.put("inicio", dateFormatter.format(new Date()));
   parameters.put("fim", dateFormatter.format(new Date()));
   parameters.put("descricao", "Cancelamento da Reunião");
   parameters.put("remetente", "sistema@empresa.com.br");
   parameters.put("destinatario", "eu@empresa.com.br");
   parameters.put("sequencial", "2");
   Velocity format = new Velocity();
   String corpoEmail = format.formatar(parameters, "br/com/mail/cancelamento_reuniao.vm");
   rfcMailSender.enviar("sistema@empresa.com.br", "eu@empresa.com.br", "Cancelamento da Reunião", corpoEmail);
}

Calendário Compartilhado

Em nosso exemplo, os eventos serão adicionados ao próprio calendário do usuário. Se você enviar a estrutura do evento como um anexo de extensão .ics, ele será exibido no Outlook como um calendário compartilhado ao lado do calendário do usuário:

Figura 2 – Calendário compartilhado

Mais Customizações

A própria especificação [2] afirma que oferece uma “forma padrão para fazer coisas que não são padronizadas”. A Microsoft tem um documento [3,4,5,6] que mostra como utilizar as propriedades específicas do Outlook para formatar a descrição do evento, a prioridade, cores associadas ao evento e várias outras propriedades.

Referências

1. [https://tools.ietf.org/html/rfc5546]
2. [https://tools.ietf.org/html/rfc5545#section-3.8.8.2]
3. [https://stackoverflow.com/questions/41304898/how-do-i-create-an-html-formatted-ics-message-body-using-ical-net]
4. [https://msdn.microsoft.com/en-us/library/ee624921(v=exchg.80).aspx]
5. [https://msdn.microsoft.com/en-us/library/ee625053(v=exchg.80).aspx]
6. [https://msdn.microsoft.com/en-us/library/cc463911(v=exchg.80).aspx]

Como Habilitar o Ehcache no Shiro

O Shiro oferece um mecanismo de cache para diminuir o tempo de respostas das operações de segurança, mas as implementações disponibilizadas podem ser utilizadas para propósitos fora do escopo do framework de segurança.

Figura 1 – Arquitetura do Shiro

Várias implementações do CacheManager estão disponíveis. Nesse artigo, mostraremos como habilitar o EhCacheManager, o que permite utilizar o Ehcache. Antes de continuar, sugiro que você veja o artigo de introdução ao Shiro que escrevi e um outro artigo sobre a integração do Ehcache ao Spring, onde faço algumas considerações sobre o cache em si.

Comecemos pela configuração das dependências do Maven:

   <dependency>
      <groupId>org.apache.shiro</groupId>
      <artifactId>shiro-core</artifactId>
      <version>1.3.2</version>
   </dependency>
   <dependency>
      <groupId>org.apache.shiro</groupId>
      <artifactId>shiro-web</artifactId>
      <version>1.3.2</version>
    </dependency>
    <dependency>
      <groupId>org.ehcache</groupId>
      <artifactId>ehcache</artifactId>
      <version>3.3.1</version>
    </dependency>  
    <dependency>
      <groupId>javax.cache</groupId>
      <artifactId>cache-api</artifactId>
      <version>1.0.0</version>
    </dependency>

Em seguida, vamos configurar o arquivo shiro.ini

[main]
[main]
apprealm = br.com.app.autorizacao.AppRealm
securityManager.realms = $apprealm
cacheManager = org.apache.shiro.cache.ehcache.EhCacheManager
securityManager.cacheManager = $cacheManager

Uma vez definido um CacheManager, o Shiro o entrega para as classes que implementam a interface CacheManagerAware. Nosso AppRealm é um SimpleAccountRealm. Sendo assim, já estamos implementando aquela interface.

Referências

1. [https://shiro.apache.org/caching.html]
2. [https://shiro.apache.org/static/1.3.0/apidocs/org/apache/shiro/cache/Cache.html]
3. [https://shiro.apache.org/static/1.3.0/apidocs/org/apache/shiro/cache/ehcache/EhCacheManager.html]
4. [http://www.ehcache.org/]

Prova Computacional do Problema de Monty Hall

O Problema de Monty Hall, que outrora apresentei, é um jogo probabilístico em que um apresentar pede que uma dentre três portas seja escolhida. Uma porta contém um prêmio e as outras têm alguma bizarrice. A imagem abaixo resume as possibilidades de escolha depois que uma porta é aberta pelo apresentador:

Figura 1 – Síntese das escolhas

Para sermos mais didáticos, podemos utilizar a árvore de decisão abaixo, que mostra que temos 2/3 de chances de vencer trocando de porta:

Figura 2 – Árvore de decisão

O blog O Desafio: Aprender apresentou o problema de Monty Hall e citou minha explicação da solução. Revisitar o problema me fez pensar em ir um pouco além e desenvolver um pequeno algoritmo em Java para provar a solução já conhecida do problema.

Escrevi rapidamente um código que utilizava listas de strings e mapas de portas para totais de escolhas. Funcionou, mas depois gastei um tempo reescrevendo com orientação a objetos visando criar abstrações mais claras para que pudesse ser didático. Primeiro, criei uma classe que representa uma porta e o total de vezes que ela foi escolhida:


public class Porta {
    private String nome;
    private long totalEscolhas;
 
    public Porta(String nome) {
        this.nome = nome;
    }
 
    public void escolher() {
        totalEscolhas++;
    }
 
    public long getTotalEscolhas() {
        return totalEscolhas;
    }
 
    public String getNome() {
        return nome;
    }
};

Sabemos que o problema começa quando uma porta é escolhida e outra é aberta pelo apresentador. Sabemos também que a porta aberta e aquela que permanece fechada e que você não escolheu formam um grupo.

Figura 3 – Grupos de portas

Para o problema, isso significa que, se a porta aberta for escolhida pelo algoritmo de escolhas aleatórias, a escolha será transferida para a porta do mesmo grupo que permaneceu fechada. Pensando assim, criei uma abstração para a porta aberta que estende a porta comum e recebe uma referência para a porta fechada. Pensei no padrão Decorator:

public class PortaAberta extends Porta {
   private Porta portaDelegada;

   public PortaAberta(String nome, Porta portaDelegada) {
      super(nome);
      this.portaDelegada = portaDelegada;
   }

   public void escolher() {
      portaDelegada.escolher();
   }

};

O algoritmo que escrevi faz três coisas:

  1. Cria as portas fechadas e a porta aberta e as adiciona em uma lista;
  2. Escolhe aleatoriamente uma das portas e incrementa o total de escolhas em cada instância de porta;
  3. Exibe a porcentagem de vezes que cada porta foi escolhida.
public class MontyHall {
   private List<Porta> portas;

   public void executar(long totalEscolhas) {
      configurarPortas();
      escolher(totalEscolhas);
      exibir(totalEscolhas);
   }

   private void configurarPortas() {
      /*
      * Porta 1 do Grupo A (A1)
      */
      Porta portaA1 = new Porta("A1");
      /*
      * Porta 1 do Grupo B (B1)
      */
      Porta portaB1 = new Porta("B1");
      /*
      * Porta 2 do Grupo B (B2)
      * 
      * Essa e a porta que foi aberta pelo apresentador.
      * Se ela for escolhida pelo sistema, a escolha sera 
      * delegada para a outra porta do mesmo grupo, que e a porta B1
      */
      Porta portaB2 = new PortaAberta("B2", portaB1);
      portas = Arrays.asList(portaA1, portaB1, portaB2);
   }

   private void escolher(long totalEscolhas) {
      Random escolhaAleatoria = new Random();
      for (int escolha = 0; escolha < totalEscolhas; escolha++) {
         int indicePortaEscolhida = escolhaAleatoria.nextInt(portas.size());
         Porta porta = portas.get(indicePortaEscolhida);
         porta.escolher();
      }
   }
   private void exibir(long totalEscolhas) {
      System.out.println("\n" + totalEscolhas + " tentativas\n");
      NumberFormat totalEscolhasFormat = NumberFormat.getPercentInstance();
      totalEscolhasFormat.setMinimumFractionDigits(4);
      for (Porta porta : portas) {
        String totalPorta = totalEscolhasFormat.format(
           (double) porta.getTotalEscolhas() / totalEscolhas);
         System.out.println(porta.getNome() + ": " + totalPorta);
      }
   }
}

Agora, vamos testar nosso código para algumas configurações de quantidades de tentativas:

@RunWith(JUnit4.class)
public class TesteMontyHall {
   @Test
   public void teste() {
      MontyHall montyHall = new MontyHall();	
      montyHall.executar(10);
      montyHall.executar(100);
      montyHall.executar(1000);		
      montyHall.executar(1000000);
      montyHall.executar(1000000000);
   }
}

A saída do programa para as configurações anteriores mostra que quanto maior a quantidade de tentativas, mais evidente fica a tendência dos resultados:

10 tentativas
A1: 40,0000%
B1: 60,0000%
B2: 0,0000%

100 tentativas
A1: 38,0000%
B1: 62,0000%
B2: 0,0000%

1000 tentativas
A1: 33,7000%
B1: 66,3000%
B2: 0,0000%

1000000 tentativas
A1: 33,3255%
B1: 66,6745%
B2: 0,0000%

1000000000 tentativas
A1: 33,3360%
B1: 66,6640%
B2: 0,0000%

Esse algoritmo não funcionaria bem para mais de 3 portas. Eu modificaria a abstração da porta aberta: é necessário que ela receba todas as outras portas do grupo das portas não escolhidas e que estão fechadas e, quando a porta aberta for escolhida aleatoriamente, é necessário escolher aleatoriamente uma das portas desses grupo.

Como Adicionar um Filtro HTTPBasicAuthFilter em um Cliente Jersey

O HTTPBasicAuthFilter é uma classe utilitária do Jersey que adiciona um cabeçalho de autenticação HTTP se a request que está sendo montada ainda não o possuir:

Client client = Client.create();
client.addFilter(new HTTPBasicAuthFilter("usuario", "senha"));

Vamos modificar nosso exemplo de cliente Jersey para autenticação HTTP:

public Autorizacao autenticar() throws Exception  {
   Client client = Client.create();
   client.addFilter(new HTTPBasicAuthFilter("usuario", "senha"));

   JSONObject jsonInput = new JSONObject();
   jsonInput.put("usuario", "usuario");
   jsonInput.put("senha", "senha");

   WebResource target = client.
    resource("http://localhost:8080").
    path("/autenticar/");
   ClientResponse response = target.
    type(MediaType.APPLICATION_JSON).
    post(ClientResponse.class, jsonInput.toString());

   String value = response.readEntity(String.class);
   response.close();
   ObjectMapper map = new ObjectMapper();
   return map.readValue(value, Autorizacao.class);
}

public List<Usuario> listarUsuarios(Autorizacao autorizacao)
   throws Exception {
   Client client = Client.create();
   client.addFilter(new HTTPBasicAuthFilter("usuario", "senha"));

   WebResource target = client.
    resource("http://localhost:8080").
    path("/usuario/listar/");

   ClientResponse response = target.
      accept(MediaType.APPLICATION_JSON).
      header("Token", autorizacao.getToken()).get(ClientResponse.class);

   String value = response.readEntity(String.class);
   response.close();
   ObjectMapper map = new ObjectMapper();
   Map<String, List<Usuario>> mapItens = map.
     readValue(value,
      new TypeReference<Map<String, List<Usuario>>>() {
     });
   return mapItens.get("usuarios");
}
Categorias:Programação

Java 8 Collections

Os métodos padrão introduzidos no Java 8 permitiram que novas funcionalidades fossem agregada à API de Collections. Vamos ver um pouco do poder dessa API melhorada através de um exemplo. Suponha que você precisa descobrir que Pessoa em uma lista de pessoas tem a maior idade:

List<Pessoa> pessoas = new ArrayList<Pessoa>();
pessoas.add(new Pessoa("Mario", 83));
pessoas.add(new Pessoa("Rita", 70));
pessoas.add(new Pessoa("Maria", 50));
pessoas.add(new Pessoa("Ana", 48));
pessoas.add(new Pessoa("Tadeu", 43));

Sabendo que a lista de pessoas está em ordem decrescente de idade, podemos fazer simplesmente assim:

pessoas.get(0);

Ou, de forma mais elegante, podemos fazer um filtro:

pessoas.stream().filter(pessoa -> e.getIdade() == idade).findFirst().get();

Para complicar um pouco, vamos embaralhar a lista antes de fazer a pesquisa:

Collections.shuffle(pessoas);

Poderíamos organizar a lista com um Comparator de idade para garantir a ordem e depois utilizar um dos métodos anteriores para obter o primeiro item. Vamos modificar o problema para deixá-lo um pouco mais complexo.

Map<Sala, Integer> map = new HashMap<>();
pessoas.forEach(pessoa -> map.put(pessoa, idade));

Adicionei todas as pessoas em um Map e quero aquela que tem a maior idade. Supondo que não temos a lista de Pessoas original, você poderia sugerir que criássemos uma lista à partir do Map e a ordenássemos. É o que eu faria antigamente, mas no Java 8 dá pra fazer algo mais ineteressante com Stream:

Map.Entry<Pessoa, Integer> max = map.entrySet().stream()
.max(Map.Entry.comparingByValue(Integer::compareTo)).get();

System.out.println(max.getKey() + " tem " + max.getValue() + " anos");

Referências

1. [http://blog.caelum.com.br/o-minimo-que-voce-deve-saber-de-java-8/]
2. [https://zeroturnaround.com/rebellabs/java-8-explained-applying-lambdas-to-java-collections/]
3. [https://www.infoq.com/br/news/2013/10/tudo-sobre-java-8]

Categorias:Programação

Como Utilizar o Detector de Tipos de Arquivo do Apache Tika

O Tika é uma biblioteca da Apache que detecta e extrai metadados de diferentes tipos de arquivos. Já utilizei o Tika em dois projetos e tive pouco trabalho para configurar do jeito que eu precisava. No último projeto, eu precisava detectar se a extensão de um arquivo era xls ou xlsx.

Já vi muito código que apenas extraia a extensão à partir do nome do arquivo. Esses códigos vão desde simples parsers à partir do separador de extensão de arquivos até a utilização do FilenameUtils do Commons IO, que faz a mesma coisa. Porém, e se o arquivo não tiver extensão? E se alguém simplesmente alterar a extensão original do arquivo? Dependendo da sua regra de negócio, você poderia simplesmente invalidar arquivos sem extensão ou com extensão inválida, mas o Tika extrai as extensões do metadado, ou melhor, da assinatura do tipo do arquivo que está no próprio arquivo. Dessa forma, ele poderia até ser utilizado para análise forense computacional.

Nesse artigo, vamos demonstrar como utilizar o Apache Tika para determinar se um arquivo é uma planilha do tipo xls ou xlsx, que é uma extensão típica do MS-Office. Comecemos pelas dependências:

<dependency>
   <groupId>org.apache.tika</groupId>
   <artifactId>tika-core</artifactId>
   <version>1.14</version>
</dependency>
<dependency>
   <groupId>org.apache.tika</groupId>
   <artifactId>tika-parsers</artifactId>
   <version>1.4</version>
</dependency>
<dependency>
   <groupId>xerces</groupId>
   <artifactId>xercesImpl</artifactId>
   <version>2.11.0</version>
</dependency>

É importante observar que você deve utilizar a versão mais recente do xerces, pois algumas versões antigas estão levantando exceção ao tentar fazer parse de algum xml. Poderíamos utilizar diretamente os detectores do Tika, mas vamos fazer algo mais genérico. Vamos implementar um DirectoryStream.Filter[T], que é uma interface do java que permite decidir se um determinado arquivo deve ser aceito. O interessante é que nossa classe pode ser utilizada sozinha para testar o tipo de um arquivo ou pode ser combinada com filtros de diretório.

public class XLSFilter implements DirectoryStream.Filter<Path> {
   private Detector detector;
   private static final List<String> EXTENSIONS = Arrays.asList(".xls", ".xlsx");

   public XLSFilter() {
         List<Detector> detectors = new ArrayList<Detector>();
         /*
          * Detector especializado em analisar metadados do MS-Office.
          */
          detectors.add(new POIFSContainerDetector());
         /*
          * Detectores padrao.
          */
          detectors.add(MimeTypes.getDefaultMimeTypes());
         /*
          * Detector composto pelos detectores acima.
          */
          detector = new CompositeDetector(detectors);
    }

    @Override
    public boolean accept(Path path) throws IOException {
       BasicFileAttributes attrs = Files.readAttributes(path, 
          BasicFileAttributes.class, LinkOption.NOFOLLOW_LINKS);
       if (!attrs.isRegularFile()) {
          return false;
       }
       String extension = "";
       try {
          extension = detectarExtensao(path);
       } catch (MimeTypeException e) {
          e.printStackTrace();
       }
       return EXTENSIONS.contains(extension.toLowerCase());
   }

   private String detectarExtensao(Path path) 
         throws IOException, MimeTypeException {
      MediaType mediaType = detectarMediaType(path);
      TikaConfig config = TikaConfig.getDefaultConfig();
      MimeType mimeType = config.getMimeRepository().forName(mediaType.toString());
      return mimeType == null ? "" : mimeType.getExtension();
   }

   private MediaType detectarMediaType(Path path) 
          throws IOException, MimeTypeException {
       Metadata metadata = new Metadata();
       TikaInputStream inputStream = TikaInputStream.get(path);
       return detector.detect(inputStream, metadata);
   }
}

Agora, vamos utilizar nosso detector para filtrar arquivos em um diretório:

   Path folder = Paths.get(PATH_DIR).resolve(SUB_DIR);
   DirectoryStream.Filter<Path> filter = XLSFilter();
   DirectoryStream<Path> stream = Files.newDirectoryStream(folder, filter);
   for (Path path : stream) {
      System.ou.println(path.toFile().getName());
   }

Referências

1. [https://tika.apache.org/]
2. [http://www.programcreek.com/java-api-examples/index.php?api=org.apache.tika.mime.MediaType]

Categorias:Programação